Fugu-MT 論文翻訳(概要): Internal Representations as Indicators of Hallucinations in Agent Tool Selection

論文の概要: Internal Representations as Indicators of Hallucinations in Agent Tool Selection

arxiv url: http://arxiv.org/abs/2601.05214v1
Date: Thu, 08 Jan 2026 18:38:45 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-09 17:01:53.338762
Title: Internal Representations as Indicators of Hallucinations in Agent Tool Selection
Title（参考訳）: エージェントツール選択における幻覚の指標としての内的表現
Authors: Kait Healy, Bharathi Srinivasan, Visakh Madathil, Jing Wu,
Abstract要約: 大規模言語モデル(LLM)は、ツール呼び出しとツールの使用において顕著な能力を示している。 LLMは、誤ったツールを選択し、不正なパラメータを提供し、"ツールバイパス"の振る舞いを示す幻覚に悩まされる。 LLMの内部表現を利用して,ツールコールの幻覚をリアルタイムに検出する,計算効率のよいフレームワークを提案する。
参考スコア（独自算出の注目度）: 5.2107604548805915
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) have shown remarkable capabilities in tool calling and tool usage, but suffer from hallucinations where they choose incorrect tools, provide malformed parameters and exhibit 'tool bypass' behavior by performing simulations and generating outputs instead of invoking specialized tools or external systems. This undermines the reliability of LLM based agents in production systems as it leads to inconsistent results, and bypasses security and audit controls. Such hallucinations in agent tool selection require early detection and error handling. Unlike existing hallucination detection methods that require multiple forward passes or external validation, we present a computationally efficient framework that detects tool-calling hallucinations in real-time by leveraging LLMs' internal representations during the same forward pass used for generation. We evaluate this approach on reasoning tasks across multiple domains, demonstrating strong detection performance (up to 86.4\% accuracy) while maintaining real-time inference capabilities with minimal computational overhead, particularly excelling at detecting parameter-level hallucinations and inappropriate tool selections, critical for reliable agent deployment.
Abstract（参考訳）: 大きな言語モデル(LLM)は、ツール呼び出しやツールの使用において顕著な能力を示しているが、不正なツールを選択し、不正なパラメータを提供し、シミュレーションを実行し、特殊なツールや外部システムを呼び出す代わりに出力を生成することで、"ツールバイパス"の振る舞いを示す幻覚に悩まされている。これにより、LCMベースのエージェントの信頼性が損なわれ、一貫性のない結果につながり、セキュリティや監査制御を回避できる。エージェントツールの選択におけるこのような幻覚は、早期検出とエラー処理を必要とする。複数のフォワードパスや外部バリデーションを必要とする既存の幻覚検出方法とは異なり、生成に使用する同じフォワードパス中にLCMの内部表現を活用することで、リアルタイムにツール呼び出し幻覚を検出する計算効率の良いフレームワークを提案する。我々は,複数の領域にわたる推論タスクに対するこのアプローチを評価し,高い検出性能(最大86.4倍の精度)を示しながら,計算オーバーヘッドを最小限に抑えながら,特にパラメータレベルの幻覚や不適切なツール選択の検出に優れており,信頼性の高いエージェント配置に不可欠である。

関連論文リスト

RIVA: Leveraging LLM Agents for Reliable Configuration Drift Detection [3.494935876363005]
既存のエージェントシステムは、彼らが呼び出すツールが常に正しい出力を返すと暗黙的に仮定している。我々は,ツールが誤りや誤解を招く出力を生成する場合でも,堅牢なIaC検証を行う,新しいマルチエージェントシステムであるRIVAを紹介する。この結果から,多種多様なツールコールの相互検証により,実運用環境におけるより信頼性の高い自律的インフラストラクチャ検証が可能であることが示唆された。
論文参考訳（メタデータ） (2026-03-02T19:28:27Z)
ForgeryVCR: Visual-Centric Reasoning via Efficient Forensic Tools in MLLMs for Image Forgery Detection and Localization [62.03035862528452]
ForgeryVCRは、視覚中心推論(Visual-Centric Reasoning)を通じて、知覚できないトレースを明示的な視覚中間体に物質化するフレームワークである。 ForgeryVCRは、検出タスクとローカライゼーションタスクの両方において、最先端(SOTA)のパフォーマンスを達成する。
論文参考訳（メタデータ） (2026-02-15T11:14:47Z)
The Bitter Lesson of Diffusion Language Models for Agentic Workflows: A Comprehensive Reality Check [54.08619694620588]
本稿では,2つの異なるエージェントパラダイムであるEmbodied AgentsとTool-Calling AgentsにまたがるdLLMの包括的評価を行う。 Agentboard と BFCL では,現在の dLLM が信頼できるエージェントバックボーンとして機能しないという,"ビットレッスン" が報告されている。
論文参考訳（メタデータ） (2026-01-19T11:45:39Z)
ET-Agent: Incentivizing Effective Tool-Integrated Reasoning Agent via Behavior Calibration [68.89572566071575]
ETAgentはエージェントのツール使用行動を調整するためのトレーニングフレームワークである。過誤行動パターンを最適行動に段階的に校正するように設計されている。
論文参考訳（メタデータ） (2026-01-11T11:05:26Z)
Toward Faithful Retrieval-Augmented Generation with Sparse Autoencoders [39.5490415037017]
Retrieval-Augmented Generation (RAG) は、大規模言語モデル(LLM)の事実性を改善する。既存のRAGの幻覚検出法は、しばしば大規模な検出器の訓練に頼っている。 RAGLensは、RAG出力を正確にフラグする軽量幻覚検出器である。
論文参考訳（メタデータ） (2025-12-09T18:33:22Z)
How Can Input Reformulation Improve Tool Usage Accuracy in a Complex Dynamic Environment? A Study on $τ$-bench [58.114899897566964]
マルチターンの会話環境では、大きな言語モデル(LLM)は、一貫性のある推論とドメイン固有のポリシーへの固執にしばしば苦労する。本稿では,関連するドメインルールを付加したユーザクエリを自動的に再構成するIRMA(Input-Reformulation Multi-Agent)フレームワークを提案する。 IRMAはReAct、Function Calling、Self-Reflectionをそれぞれ16.1%、12.7%、19.1%で大きく上回っている。
論文参考訳（メタデータ） (2025-08-28T15:57:33Z)
More Vulnerable than You Think: On the Stability of Tool-Integrated LLM Agents [24.84276066855418]
本研究では,ツール実行プロセス全体を通して,エージェントがエラーに対して脆弱であるかどうかを検討する。エージェントは各段階でエラーの影響を受けやすく,オープンソースモデルに基づくエージェントは,プロプライエタリモデルに基づくエージェントよりも脆弱である。
論文参考訳（メタデータ） (2025-06-27T07:13:29Z)
Learning Auxiliary Tasks Improves Reference-Free Hallucination Detection in Open-Domain Long-Form Generation [78.78421340836915]
オープンドメイン長文応答における参照なし幻覚検出を系統的に検討する。その結果,内的状態は事実と幻覚的内容とを確実に区別するには不十分であることが判明した。 RATE-FTと呼ばれる新しいパラダイムを導入し、モデルが幻覚検出のメインタスクと共同で学習するための補助的なタスクで微調整を強化する。
論文参考訳（メタデータ） (2025-05-18T07:10:03Z)
Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。 MeCoは、表現空間内の高レベル認知信号をキャプチャすることで、メタ認知スコアを定量化する。 MeCoは微調整不要で、最小限のコストがかかる。
論文参考訳（メタデータ） (2025-02-18T15:45:01Z)
Reducing Tool Hallucination via Reliability Alignment [31.761771794788462]
大きな言語モデル(LLM)は、言語生成を超えて、外部ツールと対話し、自動化と現実世界のアプリケーションを可能にする機能を拡張した。モデルが不適切なツールを選択するか、それらを誤用するツール幻覚は、誤ったタスクの実行、計算コストの増大、システムの信頼性の低下につながる重要な課題を引き起こす。 RelyToolBenchを導入し、特殊なテストケースと新しいメトリクスを統合し、幻覚を意識したタスクの成功と効率を評価する。最後に、信頼性アライメントフレームワークであるRelignを提案する。このフレームワークは、ツール使用のアクション空間を拡張して、不決定なアクションを含むようにし、LCMがツールの使用を遅らせたり、明確化を求めたり、ツールの選択を調整することを可能にする。
論文参考訳（メタデータ） (2024-12-05T13:10:54Z)
Learning to Ask: When LLM Agents Meet Unclear Instruction [55.65312637965779]
大きな言語モデル(LLM)は、言語スキルだけでは達成不可能なタスクに対処するための外部ツールを活用することができる。我々は、不完全な命令下でのLLMツールの使用性能を評価し、エラーパターンを分析し、Noisy ToolBenchと呼ばれる挑戦的なツール使用ベンチマークを構築した。 Ask-when-Needed (AwN) という新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-08-31T23:06:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。