論文の概要: Towards Reducible Uncertainty Modeling for Reliable Large Language Model Agents
- arxiv url: http://arxiv.org/abs/2602.05073v1
- Date: Wed, 04 Feb 2026 21:47:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.632977
- Title: Towards Reducible Uncertainty Modeling for Reliable Large Language Model Agents
- Title(参考訳): 信頼性の高い大言語モデルエージェントの可逆不確実性モデリングに向けて
- Authors: Changdae Oh, Seongheon Park, To Eun Kim, Jiatong Li, Wendi Li, Samuel Yeh, Xuefeng Du, Hamed Hassani, Paul Bogdan, Dawn Song, Sharon Li,
- Abstract要約: 大規模言語モデル(LLM)に対する不確実性定量化(UQ)は、日常的なLLMアプリケーションの安全ガードレールの鍵となるビルディングブロックである。
本稿では,既存のUQ設定の幅広いクラスを仮定したエージェントUQの汎用的な定式化について述べる。
エージェントの軌道上での再現可能な不確実性を明示的にモデル化する,新しい視点,条件付き不確実性低減プロセスを提案する。
- 参考スコア(独自算出の注目度): 72.26774492844167
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Uncertainty quantification (UQ) for large language models (LLMs) is a key building block for safety guardrails of daily LLM applications. Yet, even as LLM agents are increasingly deployed in highly complex tasks, most UQ research still centers on single-turn question-answering. We argue that UQ research must shift to realistic settings with interactive agents, and that a new principled framework for agent UQ is needed. This paper presents the first general formulation of agent UQ that subsumes broad classes of existing UQ setups. Under this formulation, we show that prior works implicitly treat LLM UQ as an uncertainty accumulation process, a viewpoint that breaks down for interactive agents in an open world. In contrast, we propose a novel perspective, a conditional uncertainty reduction process, that explicitly models reducible uncertainty over an agent's trajectory by highlighting "interactivity" of actions. From this perspective, we outline a conceptual framework to provide actionable guidance for designing UQ in LLM agent setups. Finally, we conclude with practical implications of the agent UQ in frontier LLM development and domain-specific applications, as well as open remaining problems.
- Abstract(参考訳): 大規模言語モデル(LLM)に対する不確実性定量化(UQ)は、日常的なLLMアプリケーションの安全ガードレールの鍵となるビルディングブロックである。
しかし、LLMエージェントが高度に複雑なタスクに配備されているにもかかわらず、ほとんどのUQ研究は依然としてシングルターンの質問応答に重点を置いている。
我々は、UQ研究は対話型エージェントによる現実的な設定に移行する必要があり、エージェントUQのための新しい原則的なフレームワークが必要であると論じる。
本稿では,既存のUQ設定の幅広いクラスを仮定したエージェントUQの汎用的な定式化について述べる。
この定式化の下では、LLM UQをオープンワールドにおける対話的エージェントの視点である不確実性蓄積プロセスとして暗黙的に扱うことを示します。
対照的に、エージェントの軌道上での再現可能な不確実性を明示的にモデル化する「条件の不確実性低減プロセス」という新たな視点を提案する。
この観点から、LLMエージェントのセットアップでUQを設計するための実用的なガイダンスを提供するための概念的枠組みを概説する。
最後に、最前線のLLM開発およびドメイン固有のアプリケーションにおけるエージェントUQの実践的意味と、未解決の問題について結論する。
関連論文リスト
- LLM Agents Beyond Utility: An Open-Ended Perspective [50.809163251551894]
我々は、事前訓練されたLLMエージェントを、自身のタスクを生成し、知識を蓄積し、その環境と広範囲に相互作用する能力で強化する。
複雑なマルチステップ命令を確実に追跡し、実行中に情報を保存、再利用し、独自のタスクを提案し、解決することができる。
迅速な設計や反復的なタスク生成に敏感であり、自己表現を形成することができない。
論文 参考訳(メタデータ) (2025-10-16T10:46:54Z) - A Fano-Style Accuracy Upper Bound for LLM Single-Pass Reasoning in Multi-Hop QA [65.38186593873313]
MHQA(Multi-Hop Question Answering)は、ノイズ下でのシーケンシャルな推論を通じて、分散した相互依存的な証拠を統合する必要がある。
我々はMHQAのための概念実証マルチコールフレームワークをInfoQAで紹介する。
我々は、理論とフレームワークを検証するために、厳密で騒音に富んだベンチマークを構築した。
論文 参考訳(メタデータ) (2025-09-25T14:11:57Z) - Reinforcing Question Answering Agents with Minimalist Policy Gradient Optimization [80.09112808413133]
Mujicaは、質問をサブクエストの非循環グラフに分解するプランナーであり、検索と推論を通じて質問を解決するワーカーである。
MyGOは、従来のポリシー更新を勾配的いいねりの最大推定に置き換える、新しい強化学習手法である。
複数のデータセットにまたがる実験結果から,マルチホップQA性能向上における MujicaMyGO の有効性が示された。
論文 参考訳(メタデータ) (2025-05-20T18:33:03Z) - A Survey of Large Language Model Agents for Question Answering [0.7416846035207727]
本稿では,大規模言語モデル(LLM)に基づく質問応答エージェント(QA)の開発について検討する。
従来のエージェントは、大量のデータ要件や、新しい環境への一般化の難しさなど、重大な制限に直面している。
LLMベースのエージェントは、LLMをコア推論エンジンとして活用することで、これらの課題に対処する。
論文 参考訳(メタデータ) (2025-03-24T23:39:44Z) - CoT-UQ: Improving Response-wise Uncertainty Quantification in LLMs with Chain-of-Thought [10.166370877826486]
大規模言語モデル(LLM)は多くのタスクで優れるが、生成された応答の不確かさを正確に定量化するのに苦労する。
LLMの既存の不確実量化法(UQ)は、応答性よりも応答性の方が早い。
応答型UQフレームワークであるCoT-UQを提案する。
論文 参考訳(メタデータ) (2025-02-24T14:48:06Z) - Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph [83.90988015005934]
不確実性定量化は機械学習アプリケーションにおいて重要な要素である。
最新のUQベースラインの集合を実装した新しいベンチマークを導入する。
我々は、11タスクにわたるUQと正規化技術に関する大規模な実証的研究を行い、最も効果的なアプローチを特定した。
論文 参考訳(メタデータ) (2024-06-21T20:06:31Z) - Formally Specifying the High-Level Behavior of LLM-Based Agents [24.645319505305316]
LLMはタスク固有の微調整モデルを必要とせずに、課題を解決するための有望なツールとして登場した。
現在、このようなエージェントの設計と実装はアドホックであり、LLMベースのエージェントが自然に適用できる様々なタスクは、エージェント設計に一律に適合するアプローチが存在しないことを意味する。
エージェント構築のプロセスを簡単にする最小主義的生成フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-12T17:24:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。