論文の概要: Universe Routing: Why Self-Evolving Agents Need Epistemic Control
- arxiv url: http://arxiv.org/abs/2603.14799v1
- Date: Mon, 16 Mar 2026 03:58:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:36.041241
- Title: Universe Routing: Why Self-Evolving Agents Need Epistemic Control
- Title(参考訳): 自己進化するエージェントはなぜてんかんのコントロールが必要なのか?
- Authors: Zhaohui Geoffrey Wang,
- Abstract要約: 現在の終身エージェントの致命的な失敗モードは、知識の欠如ではなく、理由を判断できないことである。
我々はこれを宇宙ルーティング問題として定式化し、特殊解法を呼び出す前に、質問を相互排他的な信念空間に分類する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A critical failure mode of current lifelong agents is not lack of knowledge, but the inability to decide how to reason. When an agent encounters "Is this coin fair?" it must recognize whether to invoke frequentist hypothesis testing or Bayesian posterior inference - frameworks that are epistemologically incompatible. Mixing them produces not minor errors, but structural failures that propagate across decision chains. We formalize this as the universe routing problem: classifying questions into mutually exclusive belief spaces before invoking specialized solvers. Our key findings challenge conventional assumptions: (1) hard routing to heterogeneous solvers matches soft MoE accuracy while being 7x faster because epistemically incompatible frameworks cannot be meaningfully averaged; (2) a 465M-parameter router achieves a 2.3x smaller generalization gap than keyword-matching baselines, indicating semantic rather than surface-level reasoning; (3) when expanding to new belief spaces, rehearsal-based continual learning achieves zero forgetting, outperforming EWC by 75 percentage points, suggesting that modular epistemic architectures are fundamentally more amenable to lifelong learning than regularization-based approaches. These results point toward a broader architectural principle: reliable self-evolving agents may require an explicit epistemic control layer that governs reasoning framework selection.
- Abstract(参考訳): 現在の生涯のエージェントにとって重要な失敗モードは、知識の欠如ではなく、理由を判断できないことである。
エージェントが「このコインはフェアか?」に遭遇したとき、頻繁な仮説テストやベイズ的後部推論(認識論的に非互換なフレームワーク)を実行するかどうかを認識する必要がある。
これらを混在させると、小さなエラーではなく、決定連鎖を越えて伝播する構造的失敗が発生する。
我々はこれを宇宙ルーティング問題として定式化し、特殊解法を呼び出す前に、質問を相互排他的な信念空間に分類する。
2) 465Mパラメータールータは、キーワードマッチングベースラインよりも2.3倍小さい一般化ギャップを達成し、新しい信念空間に拡張すると、リハーサルベースの連続学習は、忘れをなくし、75ポイントのEWCを上回り、モジュラー・エピステマティックアーキテクチャは、正規化ベースのアプローチよりもライフロングラーニングに基本的に適していることを示唆する。
信頼性の高い自己進化型エージェントは、推論フレームワークの選択を管理する明示的なてんかん制御層を必要とする可能性がある。
関連論文リスト
- Reforming the Mechanism: Editing Reasoning Patterns in LLMs with Circuit Reshaping [51.33479921152361]
大規模言語モデル(LLM)は、信頼性を損なう欠点のある推論能力を示すことが多い。
推論を改善する既存のアプローチは一般的に、一般的なモノリシックなスキルとして扱い、非効率で特定の推論エラーをターゲットできない広範囲なトレーニングを適用する。
本稿では,LLMにおける特定の推論パターンを選択的に修正し,他の推論経路を保存するためのパラダイムであるReasoning Editingを紹介する。
論文 参考訳(メタデータ) (2026-03-06T22:51:39Z) - FormalJudge: A Neuro-Symbolic Paradigm for Agentic Oversight [21.731032636844237]
本稿では,双方向のフォーマル・オブ・サートアーキテクチャを用いたニューロシンボリック・フレームワークを提案する。
行動安全,マルチドメイン制約順守,エージェントによる上向き偽装検出の3つのベンチマークにまたがって検証を行った。
論文 参考訳(メタデータ) (2026-02-11T18:48:11Z) - Agentic Uncertainty Quantification [76.94013626702183]
本稿では,言語化された不確実性をアクティブな双方向制御信号に変換する統合されたデュアルプロセスエージェントUQ(AUQ)フレームワークを提案する。
システム1(Uncertainty-Aware Memory, UAM)とシステム2(Uncertainty-Aware Reflection, UAR)は、これらの説明を合理的な手段として利用し、必要な時にのみターゲットの推論時間解決をトリガーする。
論文 参考訳(メタデータ) (2026-01-22T07:16:26Z) - CoG: Controllable Graph Reasoning via Relational Blueprints and Failure-Aware Refinement over Knowledge Graphs [53.199517625701475]
CoGはDual-Process Theoryにインスパイアされたトレーニング不要のフレームワークで、直観と熟考の相互作用を模倣している。
CoGは精度と効率の両方において最先端のアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2026-01-16T07:27:40Z) - Consistency Is Not Always Correct: Towards Understanding the Role of Exploration in Post-Training Reasoning [75.79451512757844]
基礎モデルは幅広い知識を示すが、タスク固有の推論は限定的である。
RLVRと推論スケーリングは、RLVRや推論スケーリングのようなトレーニング後の戦略を動機付けます。
RLVRはスキューズ効果を誘発し,推論エントロピーを減少させ,正しい経路を忘れることを示した。
論文 参考訳(メタデータ) (2025-11-10T18:25:26Z) - Towards Error Centric Intelligence I, Beyond Observational Learning [0.0]
AGIの進歩はデータやスケールよりも理論に限定されていると我々は主張する。
まず、基礎、知識の定義、学習、知性、反事実能力、そしてAGIを作ることから始めます。
我々は、エージェントのアクションの下で、明示的かつ暗黙的なエラーがどのように進化するかについて、問題を3つの質問として再考した。
論文 参考訳(メタデータ) (2025-10-16T20:33:55Z) - Hallucination Detection via Internal States and Structured Reasoning Consistency in Large Language Models [7.18947815679122]
内部状態探索と整合検証は、大きな言語モデルにおける幻覚を検出するために用いられる。
両手法のギャップを埋める統一的なフレームワークを開発する。
私たちのフレームワークは一貫して、強力なベースラインをはるかに上回ります。
論文 参考訳(メタデータ) (2025-10-13T15:31:21Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - Deliberative Reasoning Network: An Uncertainty-Driven Paradigm for Belief-Tracked Inference with Pretrained Language Models [7.095344389368656]
Deliberative Reasoning Network (DRN) は、確率から不確実性への論理的推論を再構成する新しいパラダイムである。
DRNは、信念状態を明示的に追跡し、競合する仮説の不確実性を定量化することによって、本質的な解釈可能性を達成する。
我々は、DRNを、より信頼できるAIシステムを構築するための、基礎的で検証可能なシステム2推論コンポーネントとして位置付ける。
論文 参考訳(メタデータ) (2025-08-06T11:33:35Z) - When Disagreements Elicit Robustness: Investigating Self-Repair Capabilities under LLM Multi-Agent Disagreements [56.29265568399648]
我々は、不一致が早期のコンセンサスを防ぎ、探索されたソリューション空間を拡張することを主張する。
タスククリティカルなステップの相違は、ソリューションパスのトポロジによってコラボレーションを損なう可能性がある。
論文 参考訳(メタデータ) (2025-02-21T02:24:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。