論文の概要: Towards a Probabilistic Framework for Analyzing and Improving LLM-Enabled Software
- arxiv url: http://arxiv.org/abs/2501.06370v1
- Date: Fri, 10 Jan 2025 22:42:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 14:29:27.060746
- Title: Towards a Probabilistic Framework for Analyzing and Improving LLM-Enabled Software
- Title(参考訳): LLM対応ソフトウェアの解析・改善のための確率的フレームワークの実現に向けて
- Authors: Juan Manuel Baldonado, Flavia Bonomo-Braberman, Víctor Adrián Braberman,
- Abstract要約: 大規模言語モデル(LLM)対応システムは、ソフトウェア工学において重要な課題である。
本稿では,これらのシステムを体系的に解析し,改善するための確率的枠組みを提案する。
本稿では,自然言語文書を形式的プログラム仕様に変換する自動形式化問題に適用する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Ensuring the reliability and verifiability of large language model (LLM)-enabled systems remains a significant challenge in software engineering. We propose a probabilistic framework for systematically analyzing and improving these systems by modeling and refining distributions over clusters of semantically equivalent outputs. This framework facilitates the evaluation and iterative improvement of Transference Models -- key software components that utilize LLMs to transform inputs into outputs for downstream tasks. To illustrate its utility, we apply the framework to the autoformalization problem, where natural language documentation is transformed into formal program specifications. Our case illustrates how probabilistic analysis enables the identification of weaknesses and guides focused alignment improvements, resulting in more reliable and interpretable outputs. This principled approach offers a foundation for addressing critical challenges in the development of robust LLM-enabled systems.
- Abstract(参考訳): 大規模言語モデル(LLM)対応システムの信頼性と妥当性を保証することは、ソフトウェア工学において重要な課題である。
意味論的に等価な出力のクラスタ上の分布をモデル化・精算することで,これらのシステムを体系的に解析・改善するための確率的フレームワークを提案する。
このフレームワークは、LLMを使用して下流タスクの入力を出力に変換するキーソフトウェアコンポーネントであるTransference Modelsの評価と反復的な改善を容易にする。
その有用性を説明するために,自然言語文書を形式的プログラム仕様に変換する自動形式化問題に適用する。
このケースでは、確率論的解析が弱点の同定とアライメントの改善に集中し、より信頼性と解釈可能なアウトプットを実現する方法を示している。
この原則的なアプローチは、堅牢なLCM対応システムの開発において重要な課題に対処するための基盤を提供する。
関連論文リスト
- Meta-Statistical Learning: Supervised Learning of Statistical Inference [59.463430294611626]
この研究は、大きな言語モデル(LLM)の成功を駆動するツールと原則が、分散レベルのタスクに取り組むために再利用可能であることを実証している。
本稿では,統計的推論タスクを教師付き学習問題として再構成するマルチインスタンス学習に触発されたメタ統計学習を提案する。
論文 参考訳(メタデータ) (2025-02-17T18:04:39Z) - A Soft Sensor Method with Uncertainty-Awareness and Self-Explanation Based on Large Language Models Enhanced by Domain Knowledge Retrieval [17.605817344542345]
Few-shot Uncertainty-aware and Self-Explaining Soft Sensor (LLM-FUESS) というフレームワークを提案する。
LLM-FUESSには、ゼロショット補助可変セレクタ(LLM-ZAVS)と不確実性認識Few-shot Soft Sensor(LLM-UFSS)が含まれている。
提案手法は,最先端の予測性能,強靭性,柔軟性を実現し,従来の手法のトレーニング不安定性を効果的に軽減する。
論文 参考訳(メタデータ) (2025-01-06T11:43:29Z) - Self-Improvement in Language Models: The Sharpening Mechanism [70.9248553790022]
我々は、レンズを通して自己改善の能力について、新たな視点を提供する。
言語モデルは、正しい応答を生成する場合よりも、応答品質の検証が優れているという観察に感銘を受けて、後学習において、モデル自体を検証対象として、自己改善を形式化する。
SFTとRLHFに基づく自己改善アルゴリズムの2つの自然ファミリーを解析する。
論文 参考訳(メタデータ) (2024-12-02T20:24:17Z) - FVEval: Understanding Language Model Capabilities in Formal Verification of Digital Hardware [4.480157114854711]
FVEvalは,形式的検証(FV)に関わるタスクにおいて,大規模言語モデル(LLM)のパフォーマンスを特徴付ける最初の総合ベンチマークである。
ベンチマークは3つのサブタスクで構成され、異なるレベルでLLM能力を測定する。
本稿では,FVに整合した合成例を生成するための,専門家による検証手法と手法のコレクションについて述べる。
論文 参考訳(メタデータ) (2024-10-15T21:48:57Z) - Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。
LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。
本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T05:21:48Z) - Aligning with Logic: Measuring, Evaluating and Improving Logical Preference Consistency in Large Language Models [31.558429029429863]
大規模言語モデル(LLM)は、信頼できる意思決定システムをサポートするために予測可能で信頼性が高いと期待されている。
本研究では、より信頼性の高いLLMシステムを構築するための基本的な要件として、論理的選好整合性を検討する。
一貫性の向上はLLM駆動論理ベースのアルゴリズムの性能向上につながることを示す。
論文 参考訳(メタデータ) (2024-10-03T04:34:04Z) - Proof of Thought : Neurosymbolic Program Synthesis allows Robust and Interpretable Reasoning [1.3003982724617653]
大規模言語モデル(LLM)は自然言語処理に革命をもたらしたが、一貫性のない推論に苦戦している。
本研究では,LLM出力の信頼性と透明性を高めるフレームワークであるProof of Thoughtを紹介する。
主な貢献は、論理的整合性を高めるためのソート管理を備えた堅牢な型システム、事実的知識と推論的知識を明確に区別するための規則の明示である。
論文 参考訳(メタデータ) (2024-09-25T18:35:45Z) - Large Language Model as a Catalyst: A Paradigm Shift in Base Station Siting Optimization [62.16747639440893]
大規模言語モデル(LLM)とその関連技術は、特に迅速な工学とエージェント工学の領域において進歩している。
提案するフレームワークは、検索拡張生成(RAG)を組み込んで、ドメイン固有の知識を取得してソリューションを生成するシステムの能力を高める。
論文 参考訳(メタデータ) (2024-08-07T08:43:32Z) - TRACE: TRansformer-based Attribution using Contrastive Embeddings in LLMs [50.259001311894295]
TRACE と呼ばれるコントラスト埋め込みを用いた新しいTRansformer-based Attribution フレームワークを提案する。
TRACEは情報源の属性を精度良く改善し,大規模言語モデルの信頼性と信頼性を高める貴重なツールであることを示す。
論文 参考訳(メタデータ) (2024-07-06T07:19:30Z) - Agent-Driven Automatic Software Improvement [55.2480439325792]
本提案は,Large Language Models (LLMs) を利用したエージェントの展開に着目して,革新的なソリューションの探求を目的とする。
継続的学習と適応を可能にするエージェントの反復的性質は、コード生成における一般的な課題を克服するのに役立ちます。
我々は,これらのシステムにおける反復的なフィードバックを用いて,エージェントの基盤となるLLMをさらに微調整し,自動化されたソフトウェア改善のタスクに整合性を持たせることを目指している。
論文 参考訳(メタデータ) (2024-06-24T15:45:22Z) - OSM: Leveraging Model Checking for Observing Dynamic 1 behaviors in
Aspect-Oriented Applications [0.0]
観測ベース統計モデルチェック(OSM)フレームワークは、基本的なシステムコードから直接実行可能な形式モデルを構築するために開発された。
これにより、プリコンディションシフト中の電子健康記録システムの未収量性能が保証される。
論文 参考訳(メタデータ) (2024-03-03T00:03:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。