論文の概要: Uncertainty-Aware Clarification in LLM Agents with Information Gain
- arxiv url: http://arxiv.org/abs/2606.03135v1
- Date: Tue, 02 Jun 2026 04:23:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.75857
- Title: Uncertainty-Aware Clarification in LLM Agents with Information Gain
- Title(参考訳): 情報ゲインを有するLDMエージェントの不確かさの解明
- Authors: Mengyi Deng, Zhiwei Li, Xin Li, Tingyu Zhu, Ying Zhao, Zhijiang Guo, Wei Wang,
- Abstract要約: LLM(Large Language Model)エージェントは、しばしば不特定ユーザ命令を操作する。
本稿では,あいまいさの解消と明確化行動の整合性を考慮した目標指向の明確化フレームワークを提案する。
我々は、この報酬を使って、高い情報ゲインを最適化するためにクラリファイア(LLM)を訓練する。
- 参考スコア(独自算出の注目度): 21.146374732674015
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Model (LLM) agents often operate under underspecified user instructions, where latent uncertainty over user intent leads to erroneous tool actions. To address this challenge, we propose a goal-oriented clarification framework that aligns clarification behavior with ambiguity resolution. Central to our approach is the Information Gain Reward, a metric that quantifies the utility of clarification questions by measuring the Bayesian belief update towards the ground-truth goal induced by the clarification exchange. We train the clarifier (LLM) using this reward to optimize for high information gain, ensuring that clarifications effectively reduce uncertainty and improve task completion within the agent-tool-user environment. We validate our framework within a clarification-enhanced $τ$-Bench environment, conducting cross-agent evaluations across five heterogeneous backbones. Empirical results demonstrate that our method consistently improves the success rate by 3.7\% over the no-clarification baseline, while adding only 0.3 total interaction steps on average.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントは、しばしば不特定ユーザ命令の下で動作し、ユーザ意図に対する潜在的な不確実性は、誤ったツールアクションを引き起こす。
この課題に対処するために,明確化行動とあいまいさ解決を整合させる目標指向の明確化フレームワークを提案する。
我々のアプローチの中心は、情報ゲイン・リワード(Information Gain Reward)であり、これは、明確化交換によって引き起こされる地道的な目標に向けてベイズ的信念の更新を測定することによって、明確化問題の有用性を定量化する指標である。
我々は、この報酬を用いて、高い情報ゲインを最適化し、不確実性を効果的に低減し、エージェントツールユーザ環境におけるタスク完了を改善するために、クラリファイア(LLM)を訓練する。
我々は,5つのヘテロジニアスバックボーンのクロスエージェント評価を行い,この枠組みを解明した$τ$-Bench環境下で検証する。
実験結果から,提案手法は, 平均0.3ステップのみを付加しながら, 未解明ベースラインに対して連続して3.7 %の精度向上を図っている。
関連論文リスト
- Utilizing and Calibrating Hindsight Process Rewards via Reinforcement with Mutual Information Self-Evaluation [50.696688705287755]
我々は、強化学習におけるスパース報酬課題を克服するために、相互情報自己評価を提案する。
MISEにより、エージェントは、疎外的信号を補う高密度な内部報酬から自律的に学習することができる。
我々は、後見自己評価報酬を利用することは、政策と代行報酬政策の間のKL分散項と相互情報を組み合わせた目的を最小化することと等価であることを示す。
論文 参考訳(メタデータ) (2026-04-13T15:18:51Z) - Calibration Is Not Enough: Evaluating Confidence Estimation Under Language Variations [49.84786015324238]
信頼度推定(CE)は、大きな言語モデル(LLM)の回答がどれほど信頼性が高いかを示し、ユーザの信頼と意思決定に影響を与える可能性がある。
本稿では,CEの信頼性を3つの新しい側面で評価する総合評価フレームワークを提案する。
これには、急激な摂動に対する自信の堅牢性、意味論的に等価な答えに対する安定性、意味論的に異なる答えに対する感受性が含まれる。
論文 参考訳(メタデータ) (2026-01-12T23:16:50Z) - Structured Uncertainty guided Clarification for LLM Agents [126.26213027785813]
LLMエージェントは、ツールコール機能を備えた大きな言語モデルを拡張するが、曖昧なユーザ命令は、しばしば誤った呼び出しやタスクの失敗につながる。
本稿では,ツールコールパラメータに対する構造的不確かさの定式化,完全情報の期待値(EVPI)を目標としたPOMDPのモデル化,冗長性防止のためのアスペクトベースコストモデルを提案する。
我々のSAGE-Agentは、この構造化された不確実性を活用し、より優れた効率を達成するために、曖昧なタスクのカバレッジを7~39%増加させ、明確な質問を1.5~2.7$times$に減らした。
論文 参考訳(メタデータ) (2025-11-11T21:50:44Z) - The Alignment Auditor: A Bayesian Framework for Verifying and Refining LLM Objectives [8.030821324147515]
逆強化学習は、行動から報酬関数を推測することができる。
既存のアプローチは、単一で自信過剰な報酬推定を生成するか、タスクの基本的な曖昧さに対処できないかのいずれかです。
本稿では,簡単な推定タスクから総合的な検証プロセスへ報酬推論を再構成する,原則的監査フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-07T16:25:14Z) - Towards Harmonized Uncertainty Estimation for Large Language Models [22.58034272573749]
不確実性推定によって世代間の信頼性を定量化することが不可欠である。
CUE(Corrector for Uncertainity Estimation:不確かさ推定のためのコレクタ)を提案する。
論文 参考訳(メタデータ) (2025-05-25T10:17:57Z) - Criticality and Safety Margins for Reinforcement Learning [53.10194953873209]
我々は,定量化基盤真理とユーザにとっての明確な意義の両面から,批判的枠組みを定めようとしている。
エージェントがn連続的ランダム動作に対するポリシーから逸脱した場合の報酬の減少として真臨界を導入する。
我々はまた、真の臨界と統計的に単調な関係を持つ低オーバーヘッド計量であるプロキシ臨界の概念も導入する。
論文 参考訳(メタデータ) (2024-09-26T21:00:45Z) - Clarify When Necessary: Resolving Ambiguity Through Interaction with LMs [58.620269228776294]
そこで本稿では,ユーザに対して,あいまいさを解消するためのタスク非依存のフレームワークを提案する。
我々は3つのNLPアプリケーション(質問応答、機械翻訳、自然言語推論)にまたがるシステムを評価する。
インテントシムは堅牢であり、幅広いNLPタスクやLMの改善を実証している。
論文 参考訳(メタデータ) (2023-11-16T00:18:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。