論文の概要: The Confidence Dichotomy: Analyzing and Mitigating Miscalibration in Tool-Use Agents
- arxiv url: http://arxiv.org/abs/2601.07264v1
- Date: Mon, 12 Jan 2026 07:10:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.25672
- Title: The Confidence Dichotomy: Analyzing and Mitigating Miscalibration in Tool-Use Agents
- Title(参考訳): 信頼二分法 : ツール・ユース・エージェントにおけるミススカラー化の分析と緩和
- Authors: Weihao Xuan, Qingcheng Zeng, Heli Qi, Yunze Xiao, Junjue Wang, Naoto Yokoya,
- Abstract要約: 大規模言語モデル(LLM)は、マルチターンタスクを処理するために急速に進化している。
信頼の確保は依然として重要な課題である。
キャリブレーション(キャリブレーション)とは、エージェントが実際のパフォーマンスを確実に反映する自信を表現する能力のこと。
- 参考スコア(独自算出の注目度): 24.482362292984817
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous agents based on large language models (LLMs) are rapidly evolving to handle multi-turn tasks, but ensuring their trustworthiness remains a critical challenge. A fundamental pillar of this trustworthiness is calibration, which refers to an agent's ability to express confidence that reliably reflects its actual performance. While calibration is well-established for static models, its dynamics in tool-integrated agentic workflows remain underexplored. In this work, we systematically investigate verbalized calibration in tool-use agents, revealing a fundamental confidence dichotomy driven by tool type. Specifically, our pilot study identifies that evidence tools (e.g., web search) systematically induce severe overconfidence due to inherent noise in retrieved information, while verification tools (e.g., code interpreters) can ground reasoning through deterministic feedback and mitigate miscalibration. To robustly improve calibration across tool types, we propose a reinforcement learning (RL) fine-tuning framework that jointly optimizes task accuracy and calibration, supported by a holistic benchmark of reward designs. We demonstrate that our trained agents not only achieve superior calibration but also exhibit robust generalization from local training environments to noisy web settings and to distinct domains such as mathematical reasoning. Our results highlight the necessity of domain-specific calibration strategies for tool-use agents. More broadly, this work establishes a foundation for building self-aware agents that can reliably communicate uncertainty in high-stakes, real-world deployments.
- Abstract(参考訳): 大規模言語モデル(LLM)に基づく自律エージェントは、マルチターンタスクを処理するために急速に進化している。
この信頼性の基本的な柱はキャリブレーションであり、エージェントが実際のパフォーマンスを確実に反映する信頼を表現する能力を指す。
キャリブレーションは静的モデルでは十分に確立されているが、ツール統合エージェントワークフローのダイナミクスはいまだに解明されていない。
本研究では,ツールタイプによって駆動される基本的信頼度二分法を明らかにするために,ツール使用エージェントの言語的キャリブレーションを体系的に検討する。
具体的には,Web検索などのエビデンスツールが,検索した情報に固有のノイズが原因で,体系的に過信を生じさせるのに対して,検証ツール(コードインタプリタなど)は決定論的フィードバックを通じて推論を下し,誤校正を軽減できることを示す。
ツールタイプ間のキャリブレーションを堅牢に改善するために,タスクの精度とキャリブレーションを協調的に最適化する強化学習(RL)ファインチューニングフレームワークを提案する。
我々は,訓練エージェントが優れた校正を達成するだけでなく,局所的な訓練環境からノイズの多いWeb設定,数学的推論などの異なる領域への堅牢な一般化を示すことを示した。
本研究は,ツール・ユース・エージェントのためのドメイン固有の校正戦略の必要性を強調した。
より広範に、この研究は、高度で現実的なデプロイメントにおいて確実なコミュニケーションを可能にする、自己認識エージェントを構築するための基盤を確立します。
関連論文リスト
- ET-Agent: Incentivizing Effective Tool-Integrated Reasoning Agent via Behavior Calibration [68.89572566071575]
ETAgentはエージェントのツール使用行動を調整するためのトレーニングフレームワークである。
過誤行動パターンを最適行動に段階的に校正するように設計されている。
論文 参考訳(メタデータ) (2026-01-11T11:05:26Z) - Structured Uncertainty guided Clarification for LLM Agents [126.26213027785813]
LLMエージェントは、ツールコール機能を備えた大きな言語モデルを拡張するが、曖昧なユーザ命令は、しばしば誤った呼び出しやタスクの失敗につながる。
本稿では,ツールコールパラメータに対する構造的不確かさの定式化,完全情報の期待値(EVPI)を目標としたPOMDPのモデル化,冗長性防止のためのアスペクトベースコストモデルを提案する。
我々のSAGE-Agentは、この構造化された不確実性を活用し、より優れた効率を達成するために、曖昧なタスクのカバレッジを7~39%増加させ、明確な質問を1.5~2.7$times$に減らした。
論文 参考訳(メタデータ) (2025-11-11T21:50:44Z) - Improving Large Language Models Function Calling and Interpretability via Guided-Structured Templates [56.73907811047611]
大規模言語モデル(LLM)は強力な推論とツール使用能力を示している。
LLMは、誤ったパラメータ化、悪いツールの選択、ユーザーの意図の誤解釈によって、現実世界のツールインタラクションで失敗することが多い。
我々は、構造化推論テンプレートを利用して、関数呼び出しを生成するためのより故意なステップバイステップ命令を通してLCMをガイドするカリキュラムに着想を得たフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-22T17:55:14Z) - Feedback-Driven Tool-Use Improvements in Large Language Models via Automated Build Environments [70.42705564227548]
大規模言語モデル(LLM)のための環境自動構築パイプラインを提案する。
これにより、外部ツールに頼ることなく、詳細な測定可能なフィードバックを提供する高品質なトレーニング環境の作成が可能になる。
また、ツール使用の精度とタスク実行の完全性の両方を評価する検証可能な報酬機構も導入する。
論文 参考訳(メタデータ) (2025-08-12T09:45:19Z) - Confidence Calibration in Vision-Language-Action Models [2.230383995796716]
信頼できるロボットの振る舞いは、高いレベルのタスク成功と、それが成功する可能性の確実な定量化を必要とする。
本稿では,視覚言語行動(VLA)基礎モデルにおける信頼度校正に関する最初の体系的研究について述べる。
論文 参考訳(メタデータ) (2025-07-23T10:26:10Z) - More Vulnerable than You Think: On the Stability of Tool-Integrated LLM Agents [24.84276066855418]
本研究では,ツール実行プロセス全体を通して,エージェントがエラーに対して脆弱であるかどうかを検討する。
エージェントは各段階でエラーの影響を受けやすく,オープンソースモデルに基づくエージェントは,プロプライエタリモデルに基づくエージェントよりも脆弱である。
論文 参考訳(メタデータ) (2025-06-27T07:13:29Z) - Verbalized Confidence Triggers Self-Verification: Emergent Behavior Without Explicit Reasoning Supervision [12.287123198288079]
大規模言語モデル(LLM)の安全な配置には不確実性校正が不可欠である
我々は,スカラー信頼ラベルのみを用いた教師付き微調整が,言語モデルの自己検証行動を引き出すのに十分であることがわかった。
キャリブレーションされた不確実性に基づいて,テスト時間スケーリングによる性能向上を図った簡易な再考手法を提案する。
論文 参考訳(メタデータ) (2025-06-04T08:56:24Z) - Aurora: Are Android Malware Classifiers Reliable and Stable under Distribution Shift? [51.12297424766236]
AURORAは、その信頼性と運用上のレジリエンスに基づいて、マルウェア分類器を評価するためのフレームワークである。
AURORAは、ポイント・イン・タイムのパフォーマンスを超えるように設計されたメトリクスのセットによって補完される。
さまざまなドリフトのデータセットにわたるSOTAフレームワークの脆弱性は、ホワイトボードへの復帰の必要性を示唆している。
論文 参考訳(メタデータ) (2025-05-28T20:22:43Z) - Object-Level Verbalized Confidence Calibration in Vision-Language Models via Semantic Perturbation [26.580361841501514]
視覚言語モデル(VLM)は様々なマルチモーダルタスクに優れるが、しばしばキャリブレーションに苦しむ。
この誤判定は、特にモデルが不正確または製造された情報を確実に提供した場合、ユーザーの信頼を損なう。
本稿では,文節摂動(CSP)フレームワークを新たに提案し,オブジェクト中心クエリの言語的信頼度を校正する手法を提案する。
論文 参考訳(メタデータ) (2025-04-21T04:01:22Z) - Trust, but Verify: Using Self-Supervised Probing to Improve
Trustworthiness [29.320691367586004]
我々は、訓練されたモデルに対する自信の過剰な問題をチェックおよび緩和することのできる、自己教師型探索の新しいアプローチを導入する。
既存の信頼性関連手法に対して,プラグイン・アンド・プレイ方式で柔軟に適用可能な,シンプルで効果的なフレームワークを提供する。
論文 参考訳(メタデータ) (2023-02-06T08:57:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。