論文の概要: SmartSnap: Proactive Evidence Seeking for Self-Verifying Agents
- arxiv url: http://arxiv.org/abs/2512.22322v1
- Date: Fri, 26 Dec 2025 14:51:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:29.994556
- Title: SmartSnap: Proactive Evidence Seeking for Self-Verifying Agents
- Title(参考訳): SmartSnap: 自己検証エージェントの積極的なエビデンス
- Authors: Shaofei Cai, Yulei Qin, Haojia Lin, Zihan Xu, Gang Li, Yuchen Shi, Zongyi Li, Yong Mao, Siqi Cai, Xiaoyu Tan, Yitao Liang, Ke Li, Xing Sun,
- Abstract要約: SmartSnapは、受動的でポストホックな検証から、エージェント自身による積極的な自己検証へのパラダイムシフトである。
両ミッションで設計された新しいタイプのエージェントである「自己検証エージェント」を導入し、タスクを完了し、検証された証拠でその達成を証明した。
モデルファミリとスケールにわたるモバイルタスクの実験は、SmartSnapパラダイムによって、スケーラブルなLLM駆動エージェントのトレーニングが可能になることを実証しています。
- 参考スコア(独自算出の注目度): 45.71333459905404
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Agentic reinforcement learning (RL) holds great promise for the development of autonomous agents under complex GUI tasks, but its scalability remains severely hampered by the verification of task completion. Existing task verification is treated as a passive, post-hoc process: a verifier (i.e., rule-based scoring script, reward or critic model, and LLM-as-a-Judge) analyzes the agent's entire interaction trajectory to determine if the agent succeeds. Such processing of verbose context that contains irrelevant, noisy history poses challenges to the verification protocols and therefore leads to prohibitive cost and low reliability. To overcome this bottleneck, we propose SmartSnap, a paradigm shift from this passive, post-hoc verification to proactive, in-situ self-verification by the agent itself. We introduce the Self-Verifying Agent, a new type of agent designed with dual missions: to not only complete a task but also to prove its accomplishment with curated snapshot evidences. Guided by our proposed 3C Principles (Completeness, Conciseness, and Creativity), the agent leverages its accessibility to the online environment to perform self-verification on a minimal, decisive set of snapshots. Such evidences are provided as the sole materials for a general LLM-as-a-Judge verifier to determine their validity and relevance. Experiments on mobile tasks across model families and scales demonstrate that our SmartSnap paradigm allows training LLM-driven agents in a scalable manner, bringing performance gains up to 26.08% and 16.66% respectively to 8B and 30B models. The synergizing between solution finding and evidence seeking facilitates the cultivation of efficient, self-verifying agents with competitive performance against DeepSeek V3.1 and Qwen3-235B-A22B.
- Abstract(参考訳): エージェント強化学習(RL)は複雑なGUIタスク下での自律エージェント開発において大きな期待を持っているが、そのスケーラビリティはタスク完了の検証によって著しく妨げられている。
既存のタスク検証は、受動的でポストホックなプロセスとして扱われる:検証者(ルールベースのスコアリングスクリプト、報酬または批評家モデル、LCM-as-a-Judge)は、エージェントが成功するかどうかを判断するために、エージェントの全インタラクション軌跡を分析する。
無関係でノイズの多い歴史を含む冗長な文脈の処理は、検証プロトコルに困難をもたらし、したがって禁止的なコストと信頼性を低下させる。
このボトルネックを克服するために,SmartSnapを提案する。この受動的でポストホックな検証から,エージェント自体による積極的な自己検証へのパラダイムシフトである。
これは、タスクを完了させるだけでなく、修正されたスナップショットエビデンスでその達成を証明するために、二重ミッションで設計された新しいタイプのエージェントである。
提案した3C Principles (Completeness, Conciseness, Creativity) によってガイドされたエージェントは,オンライン環境へのアクセシビリティを活用して,最小限の決定的なスナップショットセット上で自己検証を行う。
これらの証拠は、一般のLCM-as-a-Judge検証のための唯一の材料として提供され、それらの妥当性と妥当性が決定される。
モデルファミリーとスケールにわたるモバイルタスクの実験では、SmartSnapパラダイムにより、LLM駆動エージェントをスケーラブルな方法でトレーニングすることが可能で、それぞれ8Bモデルと30Bモデルに対して、パフォーマンスが26.08%、16.66%向上することが示された。
ソリューション発見とエビデンス探索の相乗効果は、DeepSeek V3.1 と Qwen3-235B-A22B に対する競争力のある効率的な自己検証剤の栽培を促進する。
関連論文リスト
- Verifiability-First Agents: Provable Observability and Lightweight Audit Agents for Controlling Autonomous LLM Systems [0.0]
本稿では,暗号およびシンボリック手法を用いてエージェントアクションの実行時の検証を統合する,検証可能性第一アーキテクチャを提案する。
また、制約付き推論を用いて意図と行動の連続的な検証を行う監査エージェントを組み込む。
当社のアプローチでは,評価の焦点を,誤適応の可能性から,誤適応の迅速かつ確実な検出と再伝達にシフトしています。
論文 参考訳(メタデータ) (2025-12-19T06:12:43Z) - E-valuator: Reliable Agent Verifiers with Sequential Hypothesis Testing [7.984665398116918]
ブラックボックス検証器のスコアを偽アラームレートの証明可能な制御で決定ルールに変換する方法であるe-valuatorを導入する。
評価者は、エージェントの軌道のすべてのステップで統計的に有効であるシーケンシャルな仮説テストを開発するために、プロセスからのツールに基づいて構築される。
E-valuatorは6つのデータセットと3つのエージェントをまたいだ他の戦略よりも高い統計的パワーとより良い誤報率制御を提供することを示す。
論文 参考訳(メタデータ) (2025-12-02T05:59:18Z) - AgentFold: Long-Horizon Web Agents with Proactive Context Management [98.54523771369018]
LLM ベースの Web エージェントは情報検索を大いに約束するが,その有効性はコンテキスト管理における基本的なトレードオフによって妨げられる。
本稿では,プロアクティブなコンテキスト管理を中心としたエージェントパラダイムであるAgentFoldを紹介する。
単純な微調整により,BrowseCompでは36.2%,BrowseComp-ZHでは47.3%を達成した。
論文 参考訳(メタデータ) (2025-10-28T17:51:50Z) - Towards Self-Evolving Benchmarks: Synthesizing Agent Trajectories via Test-Time Exploration under Validate-by-Reproduce Paradigm [60.36837655498119]
本稿では,トラジェクトリをベースとしたエージェント・ベンチマーク・複雑度進化フレームワークを提案する。
このフレームワークは、既存のベンチマークから元のタスクを受け取り、エージェントがそれをより難しい新しいタスクに進化させるよう促す。
GAIAベンチマークの実験では、TRACEフレームワークはタスクの複雑さを継続的に向上し、正確性の信頼性を向上させる。
論文 参考訳(メタデータ) (2025-10-01T01:52:52Z) - Towards Robust Fact-Checking: A Multi-Agent System with Advanced Evidence Retrieval [1.515687944002438]
デジタル時代における誤報の急速な拡散は、世論に重大な課題をもたらす。
従来の人間主導のファクトチェック手法は信頼できるが、オンラインコンテンツの量と速度に苦慮している。
本稿では, 精度, 効率, 説明性を向上する自動ファクトチェックのための新しいマルチエージェントシステムを提案する。
論文 参考訳(メタデータ) (2025-06-22T02:39:27Z) - AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。
テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。
アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文 参考訳(メタデータ) (2025-04-29T17:36:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。