論文の概要: Hallucination Mitigation with Agentic AI, Nested Learning, and AI Sustainability via Semantic Caching
- arxiv url: http://arxiv.org/abs/2605.29055v1
- Date: Wed, 27 May 2026 20:01:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:55.433919
- Title: Hallucination Mitigation with Agentic AI, Nested Learning, and AI Sustainability via Semantic Caching
- Title(参考訳): エージェントAI、ネステッドラーニング、およびセマンティックキャッシングによるAI持続可能性による幻覚軽減
- Authors: Diego Gosmar, Deborah A. Dahl,
- Abstract要約: 本稿では,連続記憶システム(CMS)を用いたHOPEにインスパイアされたNested Learningアーキテクチャを適用する。
3段階のエージェントパイプラインを, FCDFactual Claim density, FGR, THS (Total Hallucination Score) と OSR (Observability Score Ratio) で評価した。
セマンティックキャッシュは、930以上の潜在的なコール(47.3%のヒット率)で440のキャッシュヒットを達成し、LCMの呼び出しを490に削減し、エネルギーとCO2eフットプリントを削減し、マルチステージレビューパイプラインを運用規模で運用可能にする。
- 参考スコア(独自算出の注目度): 0.42970700836450487
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hallucination remains a major reliability barrier for production LLM systems, particularly in multi-agent pipelines where unsupported claims can propagate unchecked across stages. This paper adapts a HOPE-inspired Nested Learning architecture with Continuum Memory Systems (CMS) and semantic similarity caching to a hybrid benchmark of 310 prompts combining 217 epistemic-uncertainty prompts and 93 fabrication-induction stress-test prompts. A three-stage agentic pipeline orchestrated via the Open Floor Protocol (OFP) is evaluated with five KPIs -- FCD (Factual Claim Density), FGR (Factual Grounding References), FDF (Fictional Disclaimer Frequency), ECS (Explicit Contextualization Score), and OSR (Observability Score Ratio) -- aggregated into THS (Total Hallucination Score) across five weighting configurations to study mitigation-observability trade-offs. FDF, ECS, OSR, and FGR are subtracted as mitigation signals, so that a more negative THS indicates stronger mitigation. The FrontEndAgent is configured as a high-stochasticity generator (temperature = 1.0) to produce a realistic hallucination baseline, while the SecondLevelReviewer and ThirdLevelReviewer operate as progressive correctors. This asymmetric design yields end-to-end THS reductions of -31.3% to -35.9% across five weighting configurations. Semantic caching achieves 440 cache hits over 930 potential calls (47.3% hit rate), reducing LLM invocations to 490, lowering energy and CO2e footprint, and making multi-stage review pipelines operationally viable at production scale. ExtremeObservability attains the most negative final THS (-0.0709), confirming that observability-heavy configurations reinforce rather than compromise mitigation. These findings suggest that memory-augmented multi-agent designs can jointly improve factual reliability, operational efficiency, and auditability without model retraining.
- Abstract(参考訳): 幻覚はLLMシステムの主要な信頼性障壁であり、特に複数のエージェントパイプラインでは未確認の状態を段階的に伝播することができる。
本稿では,HOPEにヒントを得たNested Learning Architecture with Continuum Memory Systems (CMS) and semantic similarity cache to a hybrid benchmark of 310 prompts with 217 epistemic-uncertainty prompts and 93 fabrication-induction stress-test prompts。
Open Floor Protocol(OFP)を介して編成された3段階のエージェントパイプラインは、FCD(Factual Claim Density)、FGR(Factual Grounding References)、FDF(Fictional Disclaimer Frequency)、ECS(Explicit Contextualization Score)、OSR(Observability Score Ratio)の5つのKPIで評価され、緩和と可観測のトレードオフを研究するために、THS(Total Hallucination Score)に集約される。
FDF、ECS、OSR、FGRは緩和信号として減算され、より負のTHSが強い緩和を示す。
FrontEndAgentは、現実的な幻覚ベースラインを生成するために、高確率ジェネレータ(温度 = 1.0)として構成され、SecondLevelReviewerとThirdLevelReviewerはプログレッシブな修正器として動作する。
この非対称な設計は、5つの重み付け構成で-31.3%から-35.9%のTHS削減をもたらす。
セマンティックキャッシュは、930以上の潜在的なコール(47.3%のヒット率)で440のキャッシュヒットを達成し、LCMの呼び出しを490に削減し、エネルギーとCO2eフットプリントを削減し、マルチステージレビューパイプラインを運用規模で運用可能にする。
ExtremeObservabilityは最も負のTHS(-0.0709)を獲得し、可観測性に富んだ構成が妥協の緩和よりも強化されることを確認する。
これらの結果から, メモリ拡張型マルチエージェント設計は, モデル再トレーニングを伴わずに, 信頼性, 運用効率, 監査性を両立させることができることが示唆された。
関連論文リスト
- WISV: Wireless-Informed Semantic Verification for Distributed Speculative Decoding in Device-Edge LLM Inference [56.297697169678095]
WISV(Wireless-Informed Semantic Verification)は、分散投機的復号化フレームワークである。
WISVは最大60.8%の許容長の増加、37.3%の対話ラウンドの削減、31.4%のエンドツーエンドレイテンシの改善を実現している。
NVIDIA Jetson AGX OrinとA40搭載サーバからなるハードウェアテストベッド上でWISVを検証する。
論文 参考訳(メタデータ) (2026-04-20T01:29:56Z) - Controllable and Verifiable Tool-Use Data Synthesis for Agentic Reinforcement Learning [82.89535601592739]
マルチレベル検証を用いた自己進化型合成により,信頼性の高い基本ツール利用軌跡を生成する2段階パイプラインを提案する。
これらの拡張は、トラクタツール、間接的または曖昧なユーザクエリ、ノイズ、マルチフォーマット、あるいは誤ったツール出力を導入します。
本設計では,標準事例に対する参照マッチングによる報酬の自動計算と,エラー検出などの特別な動作に対する軽量な判断支援検証を実現する。
論文 参考訳(メタデータ) (2026-04-10T18:38:52Z) - Partial Number Theoretic Transform Masking in Post Quantum Cryptography Hardware: A Security Margin Analysis [0.0]
ML-DSAとML-KEMのハードウェアアクセラレータAdams Bridgeは、Inverse Number Theoretic Transformレイヤの1をマスクし、残りの部分はシャッフルに頼っている。
著者らは,信頼度の高い7つの分析トラックをまたいだサイドチャネル文学に対するこれらの主張を,信頼性の高い証拠を用いて評価した。
論文 参考訳(メタデータ) (2026-04-04T17:38:34Z) - Beyond Final Answers: CRYSTAL Benchmark for Transparent Multimodal Reasoning Evaluation [3.23600523782706]
CRYSTAL (Clear Reasoning via Yielded Steps, Traceability, and Logic)は6,372インスタンスの診断ベンチマークである。
本稿では,意味的類似性マッチングによるステップレベルの精度とリコールをスコアするMatch F1と,乱れた推論連鎖をペナルティ化するOrdered Match F1の2つの相補的指標を提案する。
CPR-CurriculumはGRPOによるMatch F1の32%の改善を実現している。
論文 参考訳(メタデータ) (2026-03-13T15:48:15Z) - Predictive Coding and Information Bottleneck for Hallucination Detection in Large Language Models [0.8552050317027305]
大規模言語モデル(LLM)における幻覚は、高レベルのデプロイメントにとって重要な障壁である。
ニューロサイエンスにインスパイアされた信号設計と教師付き機械学習を組み合わせたハイブリッド検出フレームワークである[Model Name]を紹介する。
論文 参考訳(メタデータ) (2026-01-22T05:00:21Z) - Prompt Injection Mitigation with Agentic AI, Nested Learning, and AI Sustainability via Semantic Caching [0.42970700836450487]
本論文は, TIVS (Total Injection Vulnerability Score) を導入した作業を基にしたものである。
HOPEにインスパイアされたNested Learningアーキテクチャにおいて、防御効果が透明性とどのように相互作用するかを調査する。
実験の結果,高いリスクを伴わないセキュアな応答が得られた。
論文 参考訳(メタデータ) (2026-01-19T16:10:11Z) - Efficient Jailbreak Mitigation Using Semantic Linear Classification in a Multi-Staged Pipeline [1.2802720336459552]
プロンプトインジェクションとジェイルブレイク攻撃は、大規模言語モデル(LLM)ベースのシステムに永続的なセキュリティ上の課題をもたらす。
我々は,これらの脅威を軽量で多段階のパイプラインを通じて軽減する,効率的かつ体系的に評価された防衛アーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-12-22T04:00:35Z) - Long-horizon Reasoning Agent for Olympiad-Level Mathematical Problem Solving [65.02106674311908]
本稿では,マルチラウンド階層的推論を行う長期水平数学エージェントであるIntern-S1-MOを紹介する。
コンパクトメモリをレムマの形で維持することにより、Intern-S1-MOはレムマリッチ推論空間をより自由に探索することができる。
実験の結果、インターンS1-MOはIMO2025の非幾何学的問題で35点中26点を得ることができ、銀メダリストのパフォーマンスに匹敵することがわかった。
論文 参考訳(メタデータ) (2025-12-11T15:26:28Z) - EfficientLLM: Efficiency in Large Language Models [64.3537131208038]
大規模言語モデル(LLM)は大きな進歩を導いてきたが、その増加とコンテキストウィンドウは計算、エネルギー、金銭的コストを禁止している。
本稿では,新しいベンチマークであるEfficientLLMを紹介する。
論文 参考訳(メタデータ) (2025-05-20T02:27:08Z) - The Dual-use Dilemma in LLMs: Do Empowering Ethical Capacities Make a Degraded Utility? [54.18519360412294]
大きな言語モデル(LLM)は、安全のための有害な要求を拒否することと、ユーティリティのための正当な要求を収容することのバランスをとる必要がある。
本稿では,DPO(Direct Preference Optimization)に基づくアライメントフレームワークを提案する。
我々は,DeepSeek-R1をベンチマークでテストした結果を解析し,この高い評価を得たモデルがもたらす批判的倫理的懸念を明らかにする。
論文 参考訳(メタデータ) (2025-01-20T06:35:01Z) - Towards a Competitive End-to-End Speech Recognition for CHiME-6 Dinner
Party Transcription [73.66530509749305]
本稿では,難しい場合であっても,ハイブリッドベースラインに近い性能を示すエンドツーエンドアプローチについて論じる。
CTC-Attention と RNN-Transducer のアプローチと RNN と Transformer のアーキテクチャを比較し,解析する。
RNN-Transducerをベースとしたベストエンド・ツー・エンドモデルでは、ビームサーチの改善とともに、LF-MMI TDNN-F CHiME-6 Challengeのベースラインよりも品質が3.8%向上した。
論文 参考訳(メタデータ) (2020-04-22T19:08:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。