論文の概要: Internal Representations as Indicators of Hallucinations in Agent Tool Selection
- arxiv url: http://arxiv.org/abs/2601.05214v1
- Date: Thu, 08 Jan 2026 18:38:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:53.338762
- Title: Internal Representations as Indicators of Hallucinations in Agent Tool Selection
- Title(参考訳): エージェントツール選択における幻覚の指標としての内的表現
- Authors: Kait Healy, Bharathi Srinivasan, Visakh Madathil, Jing Wu,
- Abstract要約: 大規模言語モデル(LLM)は、ツール呼び出しとツールの使用において顕著な能力を示している。
LLMは、誤ったツールを選択し、不正なパラメータを提供し、"ツールバイパス"の振る舞いを示す幻覚に悩まされる。
LLMの内部表現を利用して,ツールコールの幻覚をリアルタイムに検出する,計算効率のよいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 5.2107604548805915
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have shown remarkable capabilities in tool calling and tool usage, but suffer from hallucinations where they choose incorrect tools, provide malformed parameters and exhibit 'tool bypass' behavior by performing simulations and generating outputs instead of invoking specialized tools or external systems. This undermines the reliability of LLM based agents in production systems as it leads to inconsistent results, and bypasses security and audit controls. Such hallucinations in agent tool selection require early detection and error handling. Unlike existing hallucination detection methods that require multiple forward passes or external validation, we present a computationally efficient framework that detects tool-calling hallucinations in real-time by leveraging LLMs' internal representations during the same forward pass used for generation. We evaluate this approach on reasoning tasks across multiple domains, demonstrating strong detection performance (up to 86.4\% accuracy) while maintaining real-time inference capabilities with minimal computational overhead, particularly excelling at detecting parameter-level hallucinations and inappropriate tool selections, critical for reliable agent deployment.
- Abstract(参考訳): 大きな言語モデル(LLM)は、ツール呼び出しやツールの使用において顕著な能力を示しているが、不正なツールを選択し、不正なパラメータを提供し、シミュレーションを実行し、特殊なツールや外部システムを呼び出す代わりに出力を生成することで、"ツールバイパス"の振る舞いを示す幻覚に悩まされている。
これにより、LCMベースのエージェントの信頼性が損なわれ、一貫性のない結果につながり、セキュリティや監査制御を回避できる。
エージェントツールの選択におけるこのような幻覚は、早期検出とエラー処理を必要とする。
複数のフォワードパスや外部バリデーションを必要とする既存の幻覚検出方法とは異なり、生成に使用する同じフォワードパス中にLCMの内部表現を活用することで、リアルタイムにツール呼び出し幻覚を検出する計算効率の良いフレームワークを提案する。
我々は,複数の領域にわたる推論タスクに対するこのアプローチを評価し,高い検出性能(最大86.4倍の精度)を示しながら,計算オーバーヘッドを最小限に抑えながら,特にパラメータレベルの幻覚や不適切なツール選択の検出に優れており,信頼性の高いエージェント配置に不可欠である。
関連論文リスト
- How Can Input Reformulation Improve Tool Usage Accuracy in a Complex Dynamic Environment? A Study on $τ$-bench [58.114899897566964]
マルチターンの会話環境では、大きな言語モデル(LLM)は、一貫性のある推論とドメイン固有のポリシーへの固執にしばしば苦労する。
本稿では,関連するドメインルールを付加したユーザクエリを自動的に再構成するIRMA(Input-Reformulation Multi-Agent)フレームワークを提案する。
IRMAはReAct、Function Calling、Self-Reflectionをそれぞれ16.1%、12.7%、19.1%で大きく上回っている。
論文 参考訳(メタデータ) (2025-08-28T15:57:33Z) - Learning Auxiliary Tasks Improves Reference-Free Hallucination Detection in Open-Domain Long-Form Generation [78.78421340836915]
オープンドメイン長文応答における参照なし幻覚検出を系統的に検討する。
その結果,内的状態は事実と幻覚的内容とを確実に区別するには不十分であることが判明した。
RATE-FTと呼ばれる新しいパラダイムを導入し、モデルが幻覚検出のメインタスクと共同で学習するための補助的なタスクで微調整を強化する。
論文 参考訳(メタデータ) (2025-05-18T07:10:03Z) - Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。
MeCoは、表現空間内の高レベル認知信号をキャプチャすることで、メタ認知スコアを定量化する。
MeCoは微調整不要で、最小限のコストがかかる。
論文 参考訳(メタデータ) (2025-02-18T15:45:01Z) - Reducing Tool Hallucination via Reliability Alignment [31.761771794788462]
大きな言語モデル(LLM)は、言語生成を超えて、外部ツールと対話し、自動化と現実世界のアプリケーションを可能にする機能を拡張した。
モデルが不適切なツールを選択するか、それらを誤用するツール幻覚は、誤ったタスクの実行、計算コストの増大、システムの信頼性の低下につながる重要な課題を引き起こす。
RelyToolBenchを導入し、特殊なテストケースと新しいメトリクスを統合し、幻覚を意識したタスクの成功と効率を評価する。
最後に、信頼性アライメントフレームワークであるRelignを提案する。このフレームワークは、ツール使用のアクション空間を拡張して、不決定なアクションを含むようにし、LCMがツールの使用を遅らせたり、明確化を求めたり、ツールの選択を調整することを可能にする。
論文 参考訳(メタデータ) (2024-12-05T13:10:54Z) - Learning to Ask: When LLM Agents Meet Unclear Instruction [55.65312637965779]
大きな言語モデル(LLM)は、言語スキルだけでは達成不可能なタスクに対処するための外部ツールを活用することができる。
我々は、不完全な命令下でのLLMツールの使用性能を評価し、エラーパターンを分析し、Noisy ToolBenchと呼ばれる挑戦的なツール使用ベンチマークを構築した。
Ask-when-Needed (AwN) という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-31T23:06:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。