論文の概要: Agent0-VL: Exploring Self-Evolving Agent for Tool-Integrated Vision-Language Reasoning
- arxiv url: http://arxiv.org/abs/2511.19900v2
- Date: Wed, 26 Nov 2025 05:14:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 14:46:34.437327
- Title: Agent0-VL: Exploring Self-Evolving Agent for Tool-Integrated Vision-Language Reasoning
- Title(参考訳): Agent0-VL:ツール付き視覚言語推論のための自己進化エージェントの探索
- Authors: Jiaqi Liu, Kaiwen Xiong, Peng Xia, Yiyang Zhou, Haonian Ji, Lu Feng, Siwei Han, Mingyu Ding, Huaxiu Yao,
- Abstract要約: ツール統合推論による継続的改善を実現する自己進化型視覚言語エージェントを提案する。
Agent0-VLは、ツールの使用法を推論だけでなく、自己評価や自己修復にも取り入れている。
実験の結果,Agent0-VLはベースモデルよりも12.5%向上していることがわかった。
- 参考スコア(独自算出の注目度): 52.99434388759101
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language agents have achieved remarkable progress in a variety of multimodal reasoning tasks; however, their learning remains constrained by the limitations of human-annotated supervision. Recent self-rewarding approaches attempt to overcome this constraint by allowing models to act as their own critics or reward providers. Yet, purely text-based self-evaluation struggles to verify complex visual reasoning steps and often suffers from evaluation hallucinations. To address these challenges, inspired by recent advances in tool-integrated reasoning, we propose Agent0-VL, a self-evolving vision-language agent that achieves continual improvement with tool-integrated reasoning. Agent0-VL incorporates tool usage not only into reasoning but also into self-evaluation and self-repair, enabling the model to introspect, verify, and refine its reasoning through evidence-grounded analysis. It unifies two synergistic roles within a single LVLM: a Solver that performs multi-turn tool-integrated reasoning, and a Verifier that generates structured feedback and fine-grained self-rewards through tool-grounded critique. These roles interact through a Self-Evolving Reasoning Cycle, where tool-based verification and reinforcement learning jointly align the reasoning and evaluation distributions for stable self-improvement. Through this zero-external-reward evolution, Agent0-VL aligns its reasoning and verification behaviors without any human annotation or external reward models, achieving continual self-improvement. Experiments on geometric problem solving and visual scientific analysis show that Agent0-VL achieves an 12.5% improvement over the base model. Our code is available at https://github.com/aiming-lab/Agent0.
- Abstract(参考訳): 視覚言語エージェントは、様々なマルチモーダル推論タスクにおいて顕著な進歩を遂げてきたが、その学習は人間の注釈による監督の限界によって制限されている。
最近の自己回帰アプローチは、モデルが独自の批評家や報奨提供者として振る舞うことを可能にすることで、この制約を克服しようと試みている。
しかし、純粋にテキストベースの自己評価は、複雑な視覚的推論のステップを検証するのに苦労し、しばしば評価幻覚に悩まされる。
ツール統合推論の最近の進歩に触発されたこれらの課題に対処するため,ツール統合推論による継続的な改善を実現する自己進化型視覚言語エージェントであるAgent0-VLを提案する。
Agent0-VLは、推論だけでなく、自己評価や自己修復にもツールの使用を取り入れており、モデルが根拠に基づく分析を通じて推論を検査、検証、洗練することができる。
単一のLVLMの中で2つの相乗的役割を統一する: マルチターンツール統合推論を実行するソルバーと、ツールグラウンドの批判を通じて構造化されたフィードバックときめ細かい自己回帰を生成する検証器である。
これらの役割は、ツールベースの検証と強化学習が、安定した自己改善のための推論と評価の分布を協調的に調整するセルフ進化推論サイクルを通じて相互作用する。
このゼロ・エクター・リワード進化を通じて、Agent0-VLはその推論と検証の振る舞いを人間のアノテーションや外部報酬モデルなしで調整し、継続的な自己改善を達成する。
幾何学的問題解決と視覚科学的分析の実験は、Agent0-VLがベースモデルよりも12.5%改善していることを示している。
私たちのコードはhttps://github.com/aiming-lab/Agent0.comで利用可能です。
関連論文リスト
- Agent0: Unleashing Self-Evolving Agents from Zero Data via Tool-Integrated Reasoning [84.70211451226835]
大規模言語モデル(LLM)エージェントは、人間の計算データへの依存によって制約される。
我々は,外部データを持たない高性能エージェントを進化させる完全自律型フレームワークであるAgent0を紹介する。
Agent0は推論能力を大幅に向上させ、Qwen3-8B-Baseモデルを数学的推論で18%改善し、一般的な推論ベンチマークで24%改善した。
論文 参考訳(メタデータ) (2025-11-20T05:01:57Z) - On the Convergence of Moral Self-Correction in Large Language Models [26.724972162483855]
大きな言語モデル(LLM)は、そのように指示されたときの応答を改善することができる。
LLMは、内在的な自己補正と呼ばれるプロセスである応答品質を改善するために、内部知識に頼らなければならない。
我々は,多ラウンド相互作用による性能収束という,本質的な自己補正のキーとなる特徴を明らかにする。
論文 参考訳(メタデータ) (2025-10-08T17:46:27Z) - Trust, But Verify: A Self-Verification Approach to Reinforcement Learning with Verifiable Rewards [67.86091419220816]
大規模言語モデル(LLM)は複雑な推論において非常に有望である。
一般的な問題は表面的な自己回帰であり、モデルが自身の出力をしっかりと検証できない。
本稿では、RISE(Reinforce Reasoning with Self-Verification)という新しいオンラインRLフレームワークについて紹介する。
論文 参考訳(メタデータ) (2025-05-19T17:59:31Z) - GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training [62.536191233049614]
検証結果報酬(RLVR)を用いた強化学習は、大規模言語モデル(LLM)におけるチェーン・オブ・ソート(CoT)推論を効果的にスケールアップした。
本研究は、24点やALFWorldの具体化タスクなど、複雑なカードゲームに関する広範な実験を通じてこの問題を調査する。
報酬が行動結果にのみ基づく場合、RLはVLMにおけるCoT推論の動機付けに失敗し、代わりに思考崩壊と呼ばれる現象が生じる。
論文 参考訳(メタデータ) (2025-03-11T15:17:02Z) - Deception in LLMs: Self-Preservation and Autonomous Goals in Large Language Models [0.0]
大規模言語モデルの最近の進歩には、計画と推論能力が組み込まれている。
これにより、数学的および論理的タスクにおける誤りを低減し、精度を向上した。
本研究では,OpenAIのo1に似た推論トークンを出力するモデルであるDeepSeek R1について検討した。
論文 参考訳(メタデータ) (2025-01-27T21:26:37Z) - Self-Evolving Critique Abilities in Large Language Models [59.861013614500024]
本稿では,Large Language Models (LLM) の批判能力の向上について検討する。
SCRITは、LCMを自己生成データで訓練し、批判能力を進化させるフレームワークである。
分析の結果,SCRITの性能はデータやモデルサイズと正の相関関係にあることが明らかとなった。
論文 参考訳(メタデータ) (2025-01-10T05:51:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。