論文の概要: Value of Information: A Framework for Human-Agent Communication
- arxiv url: http://arxiv.org/abs/2601.06407v1
- Date: Sat, 10 Jan 2026 03:07:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:00.798544
- Title: Value of Information: A Framework for Human-Agent Communication
- Title(参考訳): 情報の価値:人間とエージェントのコミュニケーションのためのフレームワーク
- Authors: Yijiang River Dong, Tiancheng Hu, Zheng Hui, Caiqi Zhang, Ivan Vulić, Andreea Bobu, Nigel Collier,
- Abstract要約: 大きな言語モデル(LLM)エージェントは基本的なジレンマに直面している: ユーザ要求は不明確だが、エージェントは不完全な情報に対処するか、明確化のためにユーザーを中断するかを決定する必要がある。
我々は、情報の価値(VoI)を通じてこのトレードオフを解決する決定論的枠組みを導入する。
我々は、VoIが手作業で調整された最高のベースラインと一貫して一致し、高いコスト設定で最大1.36のユーティリティポイントを達成することを示す。
- 参考スコア(独自算出の注目度): 34.068772934008244
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Model (LLM) agents deployed for real-world tasks face a fundamental dilemma: user requests are underspecified, yet agents must decide whether to act on incomplete information or interrupt users for clarification. Existing approaches either rely on brittle confidence thresholds that require task-specific tuning, or fail to account for the varying stakes of different decisions. We introduce a decision-theoretic framework that resolves this trade-off through the Value of Information (VoI), enabling agents to dynamically weigh the expected utility gain from asking questions against the cognitive cost imposed on users. Our inference-time method requires no hyperparameter tuning and adapts seamlessly across contexts-from casual games to medical diagnosis. Experiments across four diverse domains (20 Questions, medical diagnosis, flight booking, and e-commerce) show that VoI consistently matches or exceeds the best manually-tuned baselines, achieving up to 1.36 utility points higher in high-cost settings. This work provides a parameter-free framework for adaptive agent communication that explicitly balances task risk, query ambiguity, and user effort.
- Abstract(参考訳): 大きな言語モデル(LLM)エージェントは、現実世界のタスクのためにデプロイされる基本的なジレンマに直面している。
既存のアプローチは、タスク固有のチューニングを必要とする不安定な信頼しきい値に依存するか、あるいは異なる決定のさまざまな要素を考慮できないかのどちらかです。
本稿では,情報の価値(VoI)を通じてこのトレードオフを解決するための意思決定理論フレームワークを提案する。
我々の推論時間法はハイパーパラメータチューニングを必要とせず、カジュアルゲームから診断まで、状況に応じてシームレスに適応する。
4つの異なる領域(20の質問、診断、フライト予約、およびeコマース)にわたる実験は、VoIが常に最高の手作業のベースラインと一致し、高いコスト設定で最大1.36のユーティリティポイントを達成していることを示している。
この作業は、タスクのリスク、クエリのあいまいさ、ユーザの労力を明確にバランスさせる、アダプティブエージェント通信のためのパラメータフリーのフレームワークを提供する。
関連論文リスト
- MAC: A Multi-Agent Framework for Interactive User Clarification in Multi-turn Conversations [46.70182219204539]
本稿では,ユーザのあいまいさを解決するための対話型マルチエージェントフレームワークを提案する。
MultiWOZ 2.4の実証的な評価は、両レベルでの明確化がタスク成功率7.8%(54.5~62.3)を増加させ、必要なユーザ情報を事前に抽出し、繰り返しを最小化することで、対話のターン数(6.53~4.86)を減少させることを示した。
論文 参考訳(メタデータ) (2025-12-15T10:02:50Z) - Learning Steerable Clarification Policies with Collaborative Self-play [67.67872810596839]
不明瞭なクエリを処理するために、AIアシスタントは不確実性を管理するためのポリシーが必要である。
我々は,この不確実性を管理するために,自己再生を用いて評価可能な政策を訓練することを提案する。
このことが、提供されたコストに応じて予測可能な振る舞いを変更する、評価可能なポリシーにつながることを示す。
論文 参考訳(メタデータ) (2025-12-03T18:49:54Z) - Program Synthesis Dialog Agents for Interactive Decision-Making [16.916736716463284]
本研究では,インタラクティブな意思決定を通じて,社会的利益の機会に対するユーザの適性を決定するための新しいベンチマークであるBeNYfitsを提案する。
実験の結果, GPT-4o は ReAct-style chain-of- Thought を用いて35.7 F1 しか得点できなかった。
我々のエージェントであるProADAは、ほぼ同じ数のダイアログターンを維持しながら、F1スコアを55.6に改善します。
論文 参考訳(メタデータ) (2025-02-26T22:53:01Z) - Interactive Agents to Overcome Ambiguity in Software Engineering [61.40183840499932]
AIエージェントは、あいまいで不明確なユーザー指示に基づいて、タスクを自動化するためにますますデプロイされている。
不安定な仮定をし、明確な質問をしないことは、最適以下の結果につながる可能性がある。
対話型コード生成設定において,LLMエージェントが不明瞭な命令を処理する能力について,プロプライエタリモデルとオープンウェイトモデルを評価して検討する。
論文 参考訳(メタデータ) (2025-02-18T17:12:26Z) - Online Decision Mediation [72.80902932543474]
意思決定支援アシスタントを学習し、(好奇心)専門家の行動と(不完全)人間の行動の仲介役として機能することを検討する。
臨床診断では、完全に自律的な機械行動は倫理的余裕を超えることが多い。
論文 参考訳(メタデータ) (2023-10-28T05:59:43Z) - INSCIT: Information-Seeking Conversations with Mixed-Initiative
Interactions [47.90088587508672]
InSCItは、混合開始型インタラクションによる情報探索会話のためのデータセットである。
ユーザーエージェントは805対人会話から4.7Kである。
対話型知識認識とオープンドメイン質問応答の最先端モデルに基づく2つのシステムの結果を報告する。
論文 参考訳(メタデータ) (2022-07-02T06:18:12Z) - Formalizing the Problem of Side Effect Regularization [81.97441214404247]
本稿では,補助ゲームフレームワークを用いたサイドエフェクト正規化のための公式な基準を提案する。
これらのゲームでは、エージェントは部分的に観測可能なマルコフ決定プロセスを解決する。
このPOMDPは、エージェントが将来的なタスクをこなす能力と、プロキシ報酬を交換することで解決されることを示す。
論文 参考訳(メタデータ) (2022-06-23T16:36:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。