論文の概要: Tool Receipts, Not Zero-Knowledge Proofs: Practical Hallucination Detection for AI Agents
- arxiv url: http://arxiv.org/abs/2603.10060v1
- Date: Mon, 09 Mar 2026 20:45:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:32.602897
- Title: Tool Receipts, Not Zero-Knowledge Proofs: Practical Hallucination Detection for AI Agents
- Title(参考訳): ゼロ知識証明ではなくツールの受容:AIエージェントのための実践的幻覚検出
- Authors: Abhinaba Basu,
- Abstract要約: NabaOSは対話型エージェントのための軽量な検証フレームワークである。
ソースによってAI応答内のすべてのクレームを分類する。
製造されたツールの実行の94.2%、誤り回数の87.6%、虚偽の欠席債権の78.4%を検知する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI agents that execute tasks via tool calls frequently hallucinate results - fabricating tool executions, misstating output counts, or presenting inferences as facts. Recent approaches to verifiable AI inference rely on zero-knowledge proofs, which provide cryptographic guarantees but impose minutes of proving time per query, making them impractical for interactive agents. We propose NabaOS, a lightweight verification framework inspired by Indian epistemology (Nyaya Shastra), which classifies every claim in an LLM response by its epistemic source (pramana): direct tool output (pratyaksha), inference (anumana), external testimony (shabda), absence (abhava), or ungrounded opinion. Our runtime generates HMAC-signed tool execution receipts that the LLM cannot forge, then cross-references claims against these receipts to detect hallucinations in real time. We evaluate on NyayaVerifyBench, a new benchmark of 1,800 agent response scenarios across four languages with injected hallucinations of six types. NabaOS detects 94.2% of fabricated tool references, 87.6% of count misstatements, and 91.3% of false absence claims, with <15ms verification overhead per response. For deep delegation (agents performing multi-step web tasks), our cross-checking protocol catches 78.4% of URL fabrications via independent re-fetching. We compare against five approaches: zkLLM (cryptographic proofs, 180s/query), TOPLOC (locality-sensitive hashing), SPEX (sampling-based proof of execution), tensor commitments, and self-consistency checking. NabaOS achieves the best cost-latency-coverage trade-off for interactive agents: 94.2% coverage at <15ms versus zkLLM's near-perfect coverage at 180,000ms. For interactive agents, practical receipt-based verification provides better cost-benefit than cryptographic proofs, and epistemic classification gives users actionable trust signals rather than binary judgments.
- Abstract(参考訳): ツールコールを通じてタスクを実行するAIエージェントは、頻繁に幻覚的な結果を生成する。
AI推論の検証への最近のアプローチはゼロ知識証明に依存しており、暗号的な保証を提供するが、クエリ毎の証明時間は数分かかるため、対話的なエージェントには実用的ではない。
インドの認識学(Nyaya Shastra)にインスパイアされた軽量な検証フレームワークであるNabaOSを提案する。これはLLM応答におけるすべてのクレームを,直接ツール出力(pratyaksha)、推論(anumana)、外部証言(shabda)、不在(abhava)、根拠のない意見(ungrounded opinion)によって分類する。
我々のランタイムは、LLMが偽造できないHMAC署名のツール実行レシートを生成し、その後、これらのレシートに対する要求を相互参照して、リアルタイムで幻覚を検出する。
NyayaVerifyBenchは,6種類の幻覚を注入した4言語にまたがる1,800件のエージェント応答シナリオのベンチマークである。
NabaOSは、製造されたツール参照の94.2%、カウントミスステートメントの87.6%、偽不在クレームの91.3%を検知する。
ディープデリゲート(マルチステップのWebタスクを実行するエージェント)では、我々のクロスチェックプロトコルが独立した再フェッチによって78.4%のURL作成をキャッチします。
我々は、zkLLM(暗号証明、180s/クエリ)、TOPLOC(局所性に敏感なハッシュ)、SPEX(サンプルベースの実行証明)、テンソルコミットメント、自己整合性チェックの5つのアプローチを比較した。
NabaOSは、対話型エージェントの最高のレイテンシーカバレッジトレードオフを実現している: 94.2%は15ms、zkLLMは180,000msである。
対話型エージェントでは、実用的なレシートベースの検証により、暗号的証明よりも費用対効果が向上し、エピステマ分類により、二項判定よりも行動可能な信頼信号が提供される。
関連論文リスト
- Can Adversarial Code Comments Fool AI Security Reviewers -- Large-Scale Empirical Study of Comment-Based Attacks and Defenses Against LLM Code Analysis [0.0]
敵対的なコメントは、検出精度に小さな、統計的に重要でない効果をもたらす。
複雑な敵戦略は単純な操作的コメントに勝るものではない。
コメントストリッピングは、有用なコンテキストを削除することで、より弱いモデルの検出を減らす。
論文 参考訳(メタデータ) (2026-02-18T00:34:17Z) - ReasAlign: Reasoning Enhanced Safety Alignment against Prompt Injection Attack [52.17935054046577]
本稿では、間接的インジェクション攻撃に対する安全性アライメントを改善するためのモデルレベルのソリューションであるReasAlignを提案する。
ReasAlignには、ユーザクエリの分析、競合する命令の検出、ユーザの意図したタスクの継続性を維持するための構造化された推論ステップが組み込まれている。
論文 参考訳(メタデータ) (2026-01-15T08:23:38Z) - SmartSnap: Proactive Evidence Seeking for Self-Verifying Agents [45.71333459905404]
SmartSnapは、受動的でポストホックな検証から、エージェント自身による積極的な自己検証へのパラダイムシフトである。
両ミッションで設計された新しいタイプのエージェントである「自己検証エージェント」を導入し、タスクを完了し、検証された証拠でその達成を証明した。
モデルファミリとスケールにわたるモバイルタスクの実験は、SmartSnapパラダイムによって、スケーラブルなLLM駆動エージェントのトレーニングが可能になることを実証しています。
論文 参考訳(メタデータ) (2025-12-26T14:51:39Z) - AI Security Beyond Core Domains: Resume Screening as a Case Study of Adversarial Vulnerabilities in Specialized LLM Applications [71.27518152526686]
大きな言語モデル(LLM)はテキストの理解と生成に優れており、コードレビューやコンテンツモデレーションといった自動タスクに最適である。
LLMは履歴書やコードなどの入力データに隠された「逆命令」で操作でき、意図したタスクから逸脱する。
本稿では,特定の攻撃タイプに対して80%以上の攻撃成功率を示すとともに,この脆弱性を再開スクリーニングで評価するためのベンチマークを提案する。
論文 参考訳(メタデータ) (2025-12-23T08:42:09Z) - HalluDetect: Detecting, Mitigating, and Benchmarking Hallucinations in Conversational Systems in the Legal Domain [28.691566712713808]
大規模言語モデル(LLM)は、業界で広く使われているが、幻覚の傾向が強く、重要なアプリケーションにおける信頼性を制限している。
本研究は,LLaMA 3.1 8B Instructを用いて構築したコンシューマーグリーバンスチャットボットの幻覚低減について述べる。
LLMに基づく幻覚検出システムであるHaluDetectを開発し、F1スコアは68.92%、ベースライン検出器は22.47%向上した。
論文 参考訳(メタデータ) (2025-09-15T06:23:36Z) - VulAgent: Hypothesis-Validation based Multi-Agent Vulnerability Detection [55.957275374847484]
VulAgentは仮説検証に基づくマルチエージェント脆弱性検出フレームワークである。
セマンティクスに敏感なマルチビュー検出パイプラインを実装しており、それぞれが特定の分析の観点から一致している。
平均して、VulAgentは全体的な精度を6.6%改善し、脆弱性のある固定されたコードペアの正確な識別率を最大450%向上させ、偽陽性率を約36%削減する。
論文 参考訳(メタデータ) (2025-09-15T02:25:38Z) - Towards Robust Fact-Checking: A Multi-Agent System with Advanced Evidence Retrieval [1.515687944002438]
デジタル時代における誤報の急速な拡散は、世論に重大な課題をもたらす。
従来の人間主導のファクトチェック手法は信頼できるが、オンラインコンテンツの量と速度に苦慮している。
本稿では, 精度, 効率, 説明性を向上する自動ファクトチェックのための新しいマルチエージェントシステムを提案する。
論文 参考訳(メタデータ) (2025-06-22T02:39:27Z) - Defending against Indirect Prompt Injection by Instruction Detection [109.30156975159561]
InstructDetectorは、LLMの動作状態を利用して潜在的なIPI攻撃を特定する、新しい検出ベースのアプローチである。
InstructDetectorは、ドメイン内設定で99.60%、ドメイン外設定で96.90%の検出精度を達成し、攻撃成功率をBIPIAベンチマークで0.03%に下げる。
論文 参考訳(メタデータ) (2025-05-08T13:04:45Z) - FactCHD: Benchmarking Fact-Conflicting Hallucination Detection [64.4610684475899]
FactCHD は LLM からファクトコンフリクトの幻覚を検出するために設計されたベンチマークである。
FactCHDは、バニラ、マルチホップ、比較、セット操作など、さまざまな事実パターンにまたがる多様なデータセットを備えている。
Llama2 に基づくツール強化 ChatGPT と LoRA-tuning による反射的考察を合成する Truth-Triangulator を提案する。
論文 参考訳(メタデータ) (2023-10-18T16:27:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。