論文の概要: MAVEN: Multi-Agent Verification-Elaboration Network with In-Step Epistemic Auditing
- arxiv url: http://arxiv.org/abs/2605.07646v1
- Date: Fri, 08 May 2026 12:11:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:39.032516
- Title: MAVEN: Multi-Agent Verification-Elaboration Network with In-Step Epistemic Auditing
- Title(参考訳): MAVEN: 段階的疫学監査を併用したマルチエージェント検証・実験ネットワーク
- Authors: Yinsheng Yao, Jiehao Tang, Zhaozhen Yang, Dawei Cheng,
- Abstract要約: MAVENは、LLMを明示的な役割分離を通じて意図的な推論に変換するように設計されたフレームワークである。
MAVEN は GEMINI-3.1-Pro などの潜在推論モデルより一貫して優れている。
MAVENは完全にモデルに依存しず、強力で伝達可能な推論ブースターとして機能する。
- 参考スコア(独自算出の注目度): 18.35295672031847
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While explicit reasoning trajectories enhance model interpretability, existing paradigms often rely on monolithic chains that lack intermediate verification, allowing early errors to cascade unchecked. This lack of modularity impedes granular auditing and compromises the epistemic trust required for high-stakes applications. We propose MAVEN (Multi-Agent Verification-Elaboration Network with In-Step Epistemic Auditing), a blackboard-inspired framework designed to transform LLMs into deliberate reasoners through explicit role-decoupling. At its core, MAVEN operationalizes an adversarial Skeptic-Researcher-Judge loop, simulating expert deliberation by functionally separating logical defense from factual grounding. Experiments on OpenBookQA, TruthfulQA, HALUEVAL and StrategyQA benchmarks demonstrate that MAVEN delivers superior reasoning quality across four fine-grained metrics. Notably, MAVEN consistently outperforms latent reasoning models such as GEMINI-3.1-Pro and consensus-based baselines (e.g., ReConcile) by generating explicitly structured, modular, and verifiable deliberation trajectories, rather than relying on implicit internal states or post-hoc consensus. Moreover, comprehensive evaluations confirm that MAVEN is fully model-agnostic, serving as a strong and transferable reasoning booster that yields substantial performance improvements across diverse backbone models.
- Abstract(参考訳): 明確な推論軌道はモデルの解釈可能性を高めるが、既存のパラダイムは中間検証に欠けるモノリシックな連鎖に依存しており、早期のエラーを未確認にすることができる。
このモジュラリティの欠如は、詳細な監査を妨げ、ハイテイクなアプリケーションに必要な疫学的な信頼を損なう。
我々は,MAVEN(Multi-Agent Verification-Elaboration Network with In-Step Epistemic Auditing)を提案する。
MAVENの核心は、現実の根拠から論理的防御を機能的に分離し、専門家による議論をシミュレートする、敵対的懐疑的・調査・判断ループを運用している。
OpenBookQA、TruthfulQA、HALUEVAL、StrategyQAベンチマークの実験は、MAVENが4つの詳細なメトリクスに対して優れた推論品質を提供することを示した。
特に、MAVENは暗黙の内的状態やポストホックのコンセンサスに頼るのではなく、明示的に構造化され、モジュール化され、検証可能な熟考軌道を生成することで、GEMINI-3.1-Proやコンセンサスベースのベースライン(例えばReConcile)のような潜在推論モデルよりも一貫して優れている。
さらに、総合的な評価により、MAVENは完全にモデルに依存しないことが確認され、多様なバックボーンモデル間で大幅な性能改善をもたらす強力な、転送可能な推論ブースターとして機能する。
関連論文リスト
- Multimodal Fact-Level Attribution for Verifiable Reasoning [80.60864342985748]
マルチモーダル大言語モデル(MLLM)は、多段階推論と長文生成を含む実世界のタスクにますます利用されている。
既存のマルチモーダルグラウンドベンチマークと評価手法は、複雑なマルチモーダル推論における属性評価に失敗する。
我々は、直接観察以上の推論を必要とする設定において、ファクトレベルのマルチモーダル属性を評価するためのベンチマークであるMuRGAtを紹介する。
論文 参考訳(メタデータ) (2026-02-12T03:10:02Z) - VERGE: Formal Refinement and Guidance Engine for Verifiable LLM Reasoning [4.3414302048068745]
本稿では,大規模言語モデルとSMTソルバを組み合わせたニューロシンボリック・フレームワークを提案する。
本稿では,(1)形式的意味的等価性チェックによるマルチモデルコンセンサス,(2)適切な検証戦略に異なるクレーム型を指示するセマンティックルーティング,(3)最小補正サブセットによる正確な論理的エラーローカライゼーション,の3点を紹介する。
GPT-OSS-120Bモデルでは、VERGEはシングルパスアプローチと比較して、一連の推論ベンチマークにおいて平均18.7%の性能向上を示す。
論文 参考訳(メタデータ) (2026-01-27T20:59:11Z) - A Comprehensive Evaluation of LLM Reasoning: From Single-Model to Multi-Agent Paradigms [20.241519889633285]
大規模言語モデル(LLM)は、推論パラダイムが重要な役割を果たす推論システムとして、ますます多くデプロイされている。
我々は、直接単モデル生成、CoT拡張単モデル推論、代表MASなど、推論パラダイムを包括的かつ統一的に評価する。
MIMeBenchは、2つの基本的な未探索セマンティック機能をターゲットにした新しいオープンエンドベンチマークである。
論文 参考訳(メタデータ) (2026-01-19T17:23:45Z) - Adversarial Yet Cooperative: Multi-Perspective Reasoning in Retrieved-Augmented Language Models [72.4149653187766]
本稿ではAdrialversa Reasoning RAG(ARR)というReasoner-Verifierフレームワークを提案する。
ReasonerとVerifierは、回収された証拠を推論し、プロセス認識の利点によってガイドされながら、互いの論理を批判する。
複数のベンチマーク実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2026-01-08T06:57:03Z) - Towards Comprehensive Stage-wise Benchmarking of Large Language Models in Fact-Checking [64.97768177044355]
大規模言語モデル(LLM)は、現実のファクトチェックシステムにますます多くデプロイされている。
FactArenaは、完全に自動化されたアリーナスタイルの評価フレームワークである。
本研究では,静的クレーム検証精度とエンドツーエンドのファクトチェック能力の相違点を明らかにした。
論文 参考訳(メタデータ) (2026-01-06T02:51:56Z) - Reasoning Relay: Evaluating Stability and Interchangeability of Large Language Models in Mathematical Reasoning [8.01259760303241]
部分的に完了した推論連鎖が他のモデルによって確実に継続できるかどうかを検討する。
トークンレベルのログ確率しきい値を使用して、ベースラインモデルから推論を早期、中、後期に切り離します。
我々の研究は、推論モデルの新たな行動特性としてのインターチェンジビリティを示唆している。
論文 参考訳(メタデータ) (2025-12-16T02:56:44Z) - TRACE: A Framework for Analyzing and Enhancing Stepwise Reasoning in Vision-Language Models [9.607579442309639]
本稿では,トランスペアレント推論と一貫性評価のためのフレームワークであるTRACEを紹介する。
TRACEleverages Auxiliary Reasoning Setsは複雑な問題を分解する。
実験の結果, ARS間の整合性は最終回答の正しさと相関していることがわかった。
TRACEは信頼できない推論パスと信頼できない推論パスを区別する信頼領域を定義する。
論文 参考訳(メタデータ) (2025-12-05T18:40:18Z) - TIM-PRM: Verifying multimodal reasoning with Tool-Integrated PRM [45.91545449507256]
MLLM(Multimodal Large Language Models)は、数学的推論において優れた性能を発揮する。
視覚幻覚や論理的不整合に弱いままであり、標準的な結果に基づく監督が軽減に失敗する。
TIM-PRMは,受動的分類タスクから能動的ツール強化調査へ検証を変換する新しいエージェントフレームワークである。
論文 参考訳(メタデータ) (2025-11-28T09:01:38Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。