論文の概要: VeriTrace: Evolving Mental Models for Deep Research Agents
- arxiv url: http://arxiv.org/abs/2605.26081v1
- Date: Mon, 25 May 2026 17:46:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:20.627547
- Title: VeriTrace: Evolving Mental Models for Deep Research Agents
- Title(参考訳): VeriTrace: ディープリサーチエージェントのためのメンタルモデル
- Authors: Haolang Zhao, Yunbo Long, Lukas Beckenbauer, Alexandra Brintrup,
- Abstract要約: ディープリサーチエージェントは、膨大な、相互依存的で広範囲に不確実な情報に直面します。
既存のシステムは、進化する中間表現がどのようなものになるべきかを探索するが、その進化は暗黙の推論に任せる。
エージェントのメンタルモデルは、タスク理解と現実を継続的に整合させる明示的なフィードバックを通じて進化すべきである、と我々は主張する。
- 参考スコア(独自算出の注目度): 43.43659414477917
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep research agents face vast, interdependent, and pervasively uncertain information. Existing systems explore what evolving intermediate representations should look like, but leave their evolution to the LLM's implicit reasoning. Without explicit regulation, the intermediate layer is easily contaminated by mixed-quality information and propagates errors along its dependencies, so model scale often ends up substituting for absent regulation. We argue that an agent's mental model should instead evolve through explicit feedback that continuously aligns task understanding with reality, and identify three regulatory loops: interpretive update, deviation feedback, and schema revision. We realise this in VeriTrace, a cognitive-graph framework that explicitly implements the three loops. Using matched Qwen3.5-27B backbones, VeriTrace improves over the strongest matched baseline by 4.22 pp on DeepResearch Bench (DRB) Insight (1.49 pp Overall) and by 5.9 pp Overall win rate on DeepConsult. With Config-DeepSeek, it achieves the strongest reproducible open-source result on DRB.
- Abstract(参考訳): ディープリサーチエージェントは、膨大な、相互依存的で広範囲に不確実な情報に直面します。
既存のシステムは、進化する中間表現がどのようなものになるべきかを探索するが、その進化はLLMの暗黙の推論に任せる。
明示的な規制なしでは、中間層は混合品質の情報によって容易に汚染され、依存関係に沿ってエラーを伝播するので、モデルスケールは、しばしば欠落した規制に代わる。
エージェントのメンタルモデルは、タスク理解と現実を継続的に整合させる明示的なフィードバックを通じて進化し、解釈的更新、逸脱フィードバック、スキーマ修正の3つの規制ループを特定するべきである、と我々は主張する。
3つのループを明示的に実装した認知グラフフレームワークであるVeriTraceでこれを実現する。
マッチしたQwen3.5-27Bバックボーンを使用して、VeriTraceは、DeepResearch Bench (DRB) Insightで4.22pp、DeepConsultで5.9ppで勝利した。
Config-DeepSeekでは、DRB上で最も再現性のあるオープンソース成果を達成している。
関連論文リスト
- Towards On-Policy Data Evolution for Visual-Native Multimodal Deep Search Agents [23.436701309802533]
マルチモーダル・ディープ・サーチは、テキストや視覚的コンテキストの進化に対して、検索、ツールの使用、視覚的推論をチェーンすることで、オープンワールドの問題を解決するためにエージェントを必要とする。
既存のツール利用ハーネスは、検索、ブラウジング、変換によって返される画像を一時的な出力として扱うため、中間的な視覚的証拠は後続のツールでは再消費できない。
本稿では,画像バンク参照プロトコルを中心としたビジュアルネイティブエージェントを導入し,ツールが返却したすべてのイメージをアドレス可能な参照として登録する。
On-policy Data Evolution (ODE)はクローズドループデータジェネレータを実行する。
論文 参考訳(メタデータ) (2026-05-11T16:49:36Z) - Beyond the Attention Stability Boundary: Agentic Self-Synthesizing Reasoning Protocols [6.357772907811544]
SSRP(Self- Synthesizing Reasoning Protocols)は、アーキテクチャ計画と手続き実行の分離を実装するメタ認知フレームワークである。
提案する実験層は,浅電流に基づく検索パイロット,高エントロピーSOP,セマンティックハイジャック3ホップ多要素合成タスクの3種類である。
以上の結果から,GPT 5.4の非定常バニラ基準線が0.1%に崩壊し,SSRPは715X耐力限界を達成した。
論文 参考訳(メタデータ) (2026-04-27T14:13:30Z) - AgentV-RL: Scaling Reward Modeling with Agentic Verifier [63.55502685076245]
試験時間スケーリング(TTS)によるLCM推論を強化する検証器が実証されている。
本稿では,報酬モデリングを多ターンツール拡張型検討プロセスに変換するフレームワークであるエージェント検証を提案する。
Agentic Verifier は並列およびシーケンシャルTS の両方で一貫した性能向上が得られることを示す。
論文 参考訳(メタデータ) (2026-04-17T12:27:36Z) - A Systematic Empirical Study of Grokking: Depth, Architecture, Activation, and Regularization [0.0]
暗記からニューラルネットワークの一般化への遅れた遷移をグロッキングすることは、まだ理解されていない。
モジュラー加算に関する因子を系統的に分散させる制御された研究(mod 97)を提案する。
我々の中心的な発見は、グラッキングダイナミクスはアーキテクチャーによって決定されるのではなく、安定性と正規化の間の相互作用によって決定されることである。
論文 参考訳(メタデータ) (2026-03-26T04:16:01Z) - AgentIR: Reasoning-Aware Retrieval for Deep Research Agents [76.29382561831105]
ディープリサーチエージェントは、各検索の前に明示的な自然言語推論を生成する。
Reasoning-Aware Retrievalは、クエリと一緒にエージェントの推論トレースを埋め込む。
DR-Synthは、標準的なQAデータセットからDeep Researchレトリバーのトレーニングデータを生成する。
AgentIR-4Bは、オープンウェイトエージェントであるTongyi-DeepResearchで68%の精度を達成する。
論文 参考訳(メタデータ) (2026-03-04T18:47:26Z) - Probing the Trajectories of Reasoning Traces in Large Language Models [4.599673637363014]
本研究では,大規模言語モデルにおける推論トレースの軌跡を探索するプロトコルを提案する。
得られた推論トークンの比率が大きくなるにつれて、精度と決定のコミットメントが一貫して増加することが分かっています。
軌道探索が推論モデルのより効率的かつ安全な展開のための診断を提供することを示す。
論文 参考訳(メタデータ) (2026-01-30T16:45:16Z) - Inference-Time Scaling of Verification: Self-Evolving Deep Research Agents via Test-Time Rubric-Guided Verification [71.98473277917962]
近年のDeep Research Agents (DRA) の進歩は、自動知識発見と問題解決に変化をもたらしている。
本稿では,政策モデルのアウトプットを反復的に検証することで,エージェントの能力を自己進化させる手法を提案する。
検証の非対称性を生かしたルーブリックスに基づく結果報酬検証器であるDeepVerifierを提案する。
論文 参考訳(メタデータ) (2026-01-22T09:47:31Z) - Beneficial Reasoning Behaviors in Agentic Search and Effective Post-training to Obtain Them [23.986035712600657]
エージェント探索における効果的な推論行動パターンを研究するための推論駆動パイプラインを提案する。
我々は,情報検証,権限評価,適応探索,エラー回復の4つの有益な推論行動を特定する。
Llama3.2-3B と Qwen3-1.7B では, RL を用いたエージェントサーチモデルを直接訓練した場合と比較して, 行動プライミングが 35% 以上の利得を示す。
論文 参考訳(メタデータ) (2025-10-08T00:20:35Z) - On the Role of Feedback in Test-Time Scaling of Agentic AI Workflows [71.92083784393418]
エージェントAI(自律的な計画と行動を行うシステム)は広く普及しているが、複雑なタスクにおけるタスクの成功率は低いままである。
推論時のアライメントは、サンプリング、評価、フィードバックの3つのコンポーネントに依存します。
本稿では,様々な形態の批判から抽出されたフィードバックを繰り返し挿入するIterative Agent Decoding(IAD)を紹介する。
論文 参考訳(メタデータ) (2025-04-02T17:40:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。