論文の概要: Spectral Guardrails for Agents in the Wild: Detecting Tool Use Hallucinations via Attention Topology
- arxiv url: http://arxiv.org/abs/2602.08082v1
- Date: Sun, 08 Feb 2026 18:56:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.973178
- Title: Spectral Guardrails for Agents in the Wild: Detecting Tool Use Hallucinations via Attention Topology
- Title(参考訳): 野生のエージェントのための分光ガードレール:注意的トポロジーによる幻覚検出ツール
- Authors: Valentin Noël,
- Abstract要約: 本稿では,教師付きアプローチを補完する注目トポロジのスペクトル分析に基づくフリーガードレールのトレーニングを提案する。
Llama 3.1 8Bでは,マルチ機能検出による97.7%のリコール,86.1%のリコール,81.0%の精度のバランス配置を実現している。
Llama 3.1 8Bの故障は、スペクトル的に破滅的であり、検出しやすく、Mistral 7Bは最高の識別を行う。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deploying autonomous agents in the wild requires reliable safeguards against tool use failures. We propose a training free guardrail based on spectral analysis of attention topology that complements supervised approaches. On Llama 3.1 8B, our method achieves 97.7\% recall with multi-feature detection and 86.1\% recall with 81.0\% precision for balanced deployment, without requiring any labeled training data. Most remarkably, we discover that single layer spectral features act as near-perfect hallucination detectors: Llama L26 Smoothness achieves 98.2\% recall (213/217 hallucinations caught) with a single threshold, and Mistral L3 Entropy achieves 94.7\% recall. This suggests hallucination is not merely a wrong token but a thermodynamic state change: the model's attention becomes noise when it errs. Through controlled cross-model evaluation on matched domains ($N=1000$, $T=0.3$, same General domain, hallucination rates 20--22\%), we reveal the ``Loud Liar'' phenomenon: Llama 3.1 8B's failures are spectrally catastrophic and dramatically easier to detect, while Mistral 7B achieves the best discrimination (AUC 0.900). These findings establish spectral analysis as a principled, efficient framework for agent safety.
- Abstract(参考訳): 自律エージェントを野生に展開するには、ツール使用障害に対する信頼性の高い保護が必要である。
本稿では,教師付きアプローチを補完する注目トポロジのスペクトル分析に基づくフリーガードレールのトレーニングを提案する。
Llama 3.1 8Bでは、ラベル付きトレーニングデータを必要とせず、多機能検出による97.7\%リコールと、81.0\%リコールの精度で86.1\%リコールを実現している。
Llama L26 Smoothnessは98.2\%のリコール(213/217の幻覚)を1つの閾値で達成し、Mistral L3 Entropyは94.7\%のリコールを達成する。
これは幻覚は単に間違ったトークンではなく、熱力学的状態の変化であることを示している。
一致したドメイン(N=1000$,$T=0.3$,同じ一般ドメイン,幻覚率20~22\%)のクロスモデル評価を通じて,Llama 3.1 8Bの故障はスペクトル的に破滅的であり,検出し易く,Mistral 7Bは最高の差別(AUC 0.900)を達成する。
これらの知見は, エージェント安全性の原則的, 効率的な枠組みとして, スペクトル分析を確立した。
関連論文リスト
- Geometry of Reason: Spectral Signatures of Valid Mathematical Reasoning [0.0]
本研究では,注意パターンのスペクトル分析により,大規模言語モデルにおける有効な数学的推論を学習なしで検出する手法を提案する。
この方法は、トレーニングデータ、微調整、あるいは学習された分類器を必要としない。
これらの知見は,ハロゲン化検出とAI安全監視への即時適用による検証を推論するための基本的枠組みとして,スペクトルグラフ解析を確立した。
論文 参考訳(メタデータ) (2026-01-02T18:49:37Z) - The Semantic Illusion: Certified Limits of Embedding-Based Hallucination Detection in RAG Systems [0.0]
幻覚予測をRAG検出に適用し、スコアを有限サンプルカバレッジ保証付き決定セットに変換する。
分布尾レンズを用いてこの障害を分析し,NLIモデルが許容可能なAUC(0.81)を達成する一方で,「最も厳しい」幻覚は,忠実な応答と意味的に区別できないことを示した。
論文 参考訳(メタデータ) (2025-12-17T04:22:28Z) - HalluDetect: Detecting, Mitigating, and Benchmarking Hallucinations in Conversational Systems in the Legal Domain [28.691566712713808]
大規模言語モデル(LLM)は、業界で広く使われているが、幻覚の傾向が強く、重要なアプリケーションにおける信頼性を制限している。
本研究は,LLaMA 3.1 8B Instructを用いて構築したコンシューマーグリーバンスチャットボットの幻覚低減について述べる。
LLMに基づく幻覚検出システムであるHaluDetectを開発し、F1スコアは68.92%、ベースライン検出器は22.47%向上した。
論文 参考訳(メタデータ) (2025-09-15T06:23:36Z) - Semantic Energy: Detecting LLM Hallucination Beyond Entropy [106.92072182161712]
大規模言語モデル(LLM)は、現実のアプリケーションにますますデプロイされているが、幻覚の影響を受けやすいままである。
不確実性推定は、そのような幻覚を検出するための実現可能なアプローチである。
本稿では,新しい不確実性推定フレームワークであるセマンティック・エナジーを紹介する。
論文 参考訳(メタデータ) (2025-08-20T07:33:50Z) - Uncertainty-Aware Attention Heads: Efficient Unsupervised Uncertainty Quantification for LLMs [129.79394562739705]
大型言語モデル(LLM)は、顕著な流布を示すが、しばしば「幻覚」として知られる致命的な誤りを引き起こす。
本稿では,非教師的アプローチであるRAUQ(Recurrent Attention-based Uncertainty Quantification)を提案する。
4つのLLMと12の質問応答、要約、翻訳タスクにわたる実験は、RAUQが優れた結果をもたらすことを示した。
論文 参考訳(メタデータ) (2025-05-26T14:28:37Z) - SelfCheckAgent: Zero-Resource Hallucination Detection in Generative Large Language Models [0.16385815610837165]
SelfCheckAgentは、3つの異なるエージェントを統合する新しいフレームワークである。
これらのエージェントは幻覚検出に対する堅牢な多次元アプローチを提供する。
このフレームワークには三角形戦略も組み込まれており、SelfCheckAgentの強みを高めている。
論文 参考訳(メタデータ) (2025-02-03T20:42:32Z) - Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。
拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。
MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文 参考訳(メタデータ) (2024-05-01T12:03:39Z) - A Stitch in Time Saves Nine: Detecting and Mitigating Hallucinations of
LLMs by Validating Low-Confidence Generation [76.34411067299331]
大規模な言語モデルは、しばしば信頼性を著しく損なう「ハロシン化」する傾向がある。
生成過程における幻覚を積極的に検出・緩和する手法を提案する。
提案手法は, GPT-3.5モデルの幻覚を平均47.5%から14.5%に低減する。
論文 参考訳(メタデータ) (2023-07-08T14:25:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。