論文の概要: EVE-Agent: Evidence-Verifiable Self-Evolving Agents
- arxiv url: http://arxiv.org/abs/2605.22905v1
- Date: Thu, 21 May 2026 17:47:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.038237
- Title: EVE-Agent: Evidence-Verifiable Self-Evolving Agents
- Title(参考訳): EVE-Agent:Evidence-Verible Self-Evolving Agents
- Authors: Yamato Arai, Yuma Ichikawa,
- Abstract要約: データフリーの自己進化型検索エージェントは、独自の質問を生成し、回答し、人間のアノテーションなしで自身のフィードバックから改善するシステムへのスケーラブルなルートを提供する。
我々は、エビデンス検証は、検索エージェントにおける信頼できる自己進化の前提条件であると主張している。
本稿では,エビデンス検証型自己進化エージェントであるEVE-Agentについて紹介する。
- 参考スコア(独自算出の注目度): 9.238700679836855
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Self-evolving agents should not train on examples they cannot justify. Data-free self-evolving search agents offer a scalable route to systems that generate their own questions, answer them, and improve from their own feedback without human annotations. Yet, without verifiable evidence, this loop can reward fluent but unsupported examples, turning the self-generated curriculum into an opaque and potentially unreliable training signal. We argue that evidence verifiability is a prerequisite for trustworthy self-evolution in search agents: each generated instance should include not only an answer but also a source-grounded span whose contribution to that answer can be measured. We introduce EVE-Agent, an Evidence-Verifiable Self-Evolving Agent that operationalizes this principle through a modification to the proposer--solver framework. The proposer generates a question, an answer, and a verbatim evidence span. An evidence verifier then rewards the span according to the marginal accuracy gain when the evidence is provided. This produces a training signal that favors evidence that genuinely helps answer the question, without requiring oracle answers, human labels, or external annotations. EVE-Agent leaves the backbone model, retriever, search tool, and optimization framework unchanged. Experiments show that EVE-Agent substantially improves evidence-grounded correctness over prior self-evolving search agents. The resulting curriculum is not merely self-generated but auditable by construction: each training example carries an inspectable source span that explains why it should be trusted.
- Abstract(参考訳): 自己進化エージェントは、正当化できない例をトレーニングするべきではない。
データフリーの自己進化型検索エージェントは、独自の質問を生成し、回答し、人間のアノテーションなしで自身のフィードバックから改善するシステムへのスケーラブルなルートを提供する。
しかし、確実な証拠がなければ、このループは流動性に欠ける実例を報い、自己生成カリキュラムを不透明で信頼性の低い訓練信号に変えることができる。
我々は、エビデンス検証は、検索エージェントにおける信頼できる自己進化の前提条件であると主張している。
本稿では,エビデンス検証型自己進化エージェントであるEVE-Agentについて紹介する。
提案者は、質問、回答、および口頭証拠を広範囲に生成する。
証拠検証者は、証拠が提供されるときの限界精度ゲインに応じて、そのスパンを報奨する。
これは、オラクルの回答、人間のラベル、または外部のアノテーションを必要とせずに、真に質問に答える証拠を好む訓練信号を生成する。
EVE-Agentはバックボーンモデル、レトリバー、検索ツール、最適化フレームワークをそのまま残している。
実験により、EVE-Agentは、先行する自己進化型検索エージェントよりも証拠的正当性を大幅に改善することが示された。
結果として得られたカリキュラムは、単に自己生成されるのではなく、建設によって監査可能である:それぞれのトレーニング例は、なぜ信頼できるべきかを説明する検査可能なソーススパンを持っている。
関連論文リスト
- AgentV-RL: Scaling Reward Modeling with Agentic Verifier [63.55502685076245]
試験時間スケーリング(TTS)によるLCM推論を強化する検証器が実証されている。
本稿では,報酬モデリングを多ターンツール拡張型検討プロセスに変換するフレームワークであるエージェント検証を提案する。
Agentic Verifier は並列およびシーケンシャルTS の両方で一貫した性能向上が得られることを示す。
論文 参考訳(メタデータ) (2026-04-17T12:27:36Z) - GRACE: Reinforcement Learning for Grounded Response and Abstention under Contextual Evidence [9.80421132842862]
Retrieval-Augmented Generation (RAG)は、外部知識を統合してLarge Language Models (LLM)を強化する
RAGは、明確な根拠のない正しい答えを提供することと、検索された文脈が不十分な場合に製造された応答を生成するという2つの重大な欠陥に感受性がある。
本稿では,両方の欠陥を同時に軽減する強化学習フレームワークGRACEを提案する。
論文 参考訳(メタデータ) (2026-01-08T02:47:33Z) - SmartSnap: Proactive Evidence Seeking for Self-Verifying Agents [45.71333459905404]
SmartSnapは、受動的でポストホックな検証から、エージェント自身による積極的な自己検証へのパラダイムシフトである。
両ミッションで設計された新しいタイプのエージェントである「自己検証エージェント」を導入し、タスクを完了し、検証された証拠でその達成を証明した。
モデルファミリとスケールにわたるモバイルタスクの実験は、SmartSnapパラダイムによって、スケーラブルなLLM駆動エージェントのトレーニングが可能になることを実証しています。
論文 参考訳(メタデータ) (2025-12-26T14:51:39Z) - E-valuator: Reliable Agent Verifiers with Sequential Hypothesis Testing [7.984665398116918]
ブラックボックス検証器のスコアを偽アラームレートの証明可能な制御で決定ルールに変換する方法であるe-valuatorを導入する。
評価者は、エージェントの軌道のすべてのステップで統計的に有効であるシーケンシャルな仮説テストを開発するために、プロセスからのツールに基づいて構築される。
E-valuatorは6つのデータセットと3つのエージェントをまたいだ他の戦略よりも高い統計的パワーとより良い誤報率制御を提供することを示す。
論文 参考訳(メタデータ) (2025-12-02T05:59:18Z) - Agent0-VL: Exploring Self-Evolving Agent for Tool-Integrated Vision-Language Reasoning [52.99434388759101]
ツール統合推論による継続的改善を実現する自己進化型視覚言語エージェントを提案する。
Agent0-VLは、ツールの使用法を推論だけでなく、自己評価や自己修復にも取り入れている。
実験の結果,Agent0-VLはベースモデルよりも12.5%向上していることがわかった。
論文 参考訳(メタデータ) (2025-11-25T04:15:14Z) - Look As You Think: Unifying Reasoning and Visual Evidence Attribution for Verifiable Document RAG via Reinforcement Learning [55.232400251303794]
Look As You Think (LAT)は、モデルをトレーニングし、一貫した帰属性を持った検証可能な推論パスを生成するための強化学習フレームワークである。
LATはシングルイメージとマルチイメージの両方でバニラモデルを一貫して改善し、平均ゲインは8.23%、IoU@0.5では47.0%となる。
論文 参考訳(メタデータ) (2025-11-15T02:50:23Z) - Learning to Seek Evidence: A Verifiable Reasoning Agent with Causal Faithfulness Analysis [10.749786847079163]
医学のような高度な領域におけるAIモデルの説明は、しばしば信頼性を欠いているため、信頼を妨げる可能性がある。
本稿では,対話型エージェントを提案する。
このポリシーは強化学習を用いて最適化され、効率的かつ一般化可能なモデルとなる。
論文 参考訳(メタデータ) (2025-11-03T10:21:35Z) - Hybrid Reinforcement: When Reward Is Sparse, It's Better to Be Dense [36.71358559780692]
HEROは、検証者信号と報酬モデルスコアを構造化された方法で統合する強化学習フレームワークである。
HEROはRMのみのベースラインと検証者のみのベースラインを一貫して上回り、検証可能なタスクと検証しにくいタスクの両方で大きな利益を上げている。
論文 参考訳(メタデータ) (2025-10-08T17:09:41Z) - Towards Self-Evolving Benchmarks: Synthesizing Agent Trajectories via Test-Time Exploration under Validate-by-Reproduce Paradigm [60.36837655498119]
本稿では,トラジェクトリをベースとしたエージェント・ベンチマーク・複雑度進化フレームワークを提案する。
このフレームワークは、既存のベンチマークから元のタスクを受け取り、エージェントがそれをより難しい新しいタスクに進化させるよう促す。
GAIAベンチマークの実験では、TRACEフレームワークはタスクの複雑さを継続的に向上し、正確性の信頼性を向上させる。
論文 参考訳(メタデータ) (2025-10-01T01:52:52Z) - Your Agent May Misevolve: Emergent Risks in Self-evolving LLM Agents [58.69865074060139]
エージェントの自己進化が意図しない方法で逸脱し、望ましくない結果や有害な結果に至る場合について検討する。
我々の経験から、誤進化は広範囲にわたるリスクであり、最上位のLSM上に構築されたエージェントにも影響を及ぼすことが判明した。
我々は、より安全で信頼性の高い自己進化型エージェントを構築するためのさらなる研究を促すための潜在的な緩和戦略について議論する。
論文 参考訳(メタデータ) (2025-09-30T14:55:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。