論文の概要: V-Zero: Self-Improving Multimodal Reasoning with Zero Annotation
- arxiv url: http://arxiv.org/abs/2601.10094v1
- Date: Thu, 15 Jan 2026 05:47:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:19.007656
- Title: V-Zero: Self-Improving Multimodal Reasoning with Zero Annotation
- Title(参考訳): V-Zero:ゼロアノテーションによる自己改善マルチモーダル推論
- Authors: Han Wang, Yi Yang, Jingyuan Hu, Minfeng Zhu, Wei Chen,
- Abstract要約: V-Zeroは、ラベルなしの画像による自己改善を容易にする一般的なポストトレーニングフレームワークである。
質問者は、直感的な推測と推論結果を対比する2トラック推論報酬を活用することで、高品質で挑戦的な質問を合成することを学ぶ。
V-ZeroはQwen2.5-VL-7B-Instructで一貫した性能向上を実現し、+1.7の視覚数学的推論と+2.6の一般ビジョン中心を改善した。
- 参考スコア(独自算出の注目度): 12.164262183956156
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in multimodal learning have significantly enhanced the reasoning capabilities of vision-language models (VLMs). However, state-of-the-art approaches rely heavily on large-scale human-annotated datasets, which are costly and time-consuming to acquire. To overcome this limitation, we introduce V-Zero, a general post-training framework that facilitates self-improvement using exclusively unlabeled images. V-Zero establishes a co-evolutionary loop by instantiating two distinct roles: a Questioner and a Solver. The Questioner learns to synthesize high-quality, challenging questions by leveraging a dual-track reasoning reward that contrasts intuitive guesses with reasoned results. The Solver is optimized using pseudo-labels derived from majority voting over its own sampled responses. Both roles are trained iteratively via Group Relative Policy Optimization (GRPO), driving a cycle of mutual enhancement. Remarkably, without a single human annotation, V-Zero achieves consistent performance gains on Qwen2.5-VL-7B-Instruct, improving visual mathematical reasoning by +1.7 and general vision-centric by +2.6, demonstrating the potential of self-improvement in multimodal systems. Code is available at https://github.com/SatonoDia/V-Zero
- Abstract(参考訳): マルチモーダル学習の最近の進歩は、視覚言語モデル(VLM)の推論能力を大幅に向上させた。
しかし、最先端のアプローチは、大規模な人間アノテーション付きデータセットに大きく依存しており、取得にはコストと時間を要する。
この制限を克服するために,ラベルなし画像を用いた自己改善を容易にする一般的なポストトレーニングフレームワークであるV-Zeroを紹介する。
V-Zeroは、質問者と解答者という2つの異なる役割をインスタンス化することによって、共進化ループを確立する。
質問者は、直感的な推測と推論結果を対比する2トラック推論報酬を活用することで、高品質で挑戦的な質問を合成することを学ぶ。
Solverは、自身のサンプルレスポンスに対する多数決から派生した擬似ラベルを使って最適化されている。
双方の役割は、グループ相対政策最適化(GRPO)を通じて反復的に訓練され、相互強化のサイクルを駆動する。
注目すべきなのは、V-Zeroは単一の人間のアノテーションなしで、Qwen2.5-VL-7B-Instructで一貫したパフォーマンス向上を実現し、+1.7で視覚数学的推論を改善し、+2.6で一般的な視覚中心を改良し、マルチモーダルシステムにおける自己改善の可能性を示していることである。
コードはhttps://github.com/SatonoDia/V-Zeroで入手できる。
関連論文リスト
- Self-Improving VLM Judges Without Human Annotations [74.29324865147838]
自己合成データのみを用いて,人間の好みのアノテーションを使わずにVLM判断モデルを自己学習する枠組みを提案する。
提案手法は,Llama-3.2-11Bマルチモーダル判定を0.38から0.51に改善する。
これらの注釈のない結果の全体的な強みは、VLM能力の急速な向上とともに進化する将来の自己判断の可能性を示している。
論文 参考訳(メタデータ) (2025-12-02T20:52:19Z) - VisPlay: Self-Evolving Vision-Language Models from Images [16.43670977857598]
強化学習(RL)は、複雑なタスクにおける視覚言語モデル(VLM)を改善するための原則的なフレームワークを提供する。
我々は、VLMが大量のラベルのない画像データを用いて推論能力を自律的に改善できる自己進化型RLフレームワークであるVisPlayを紹介した。
論文 参考訳(メタデータ) (2025-11-19T17:55:15Z) - Vision-Zero: Scalable VLM Self-Improvement via Strategic Gamified Self-Play [27.15191616995172]
Vision-Zeroは視覚言語モデル(VLM)の自己改善を可能にするフレームワークで、任意の画像ペアから生成される競合視覚ゲームを通じて実現されている。
Vision-Zeroは"Who Is the Spy"スタイルのゲームでVLMを訓練し、モデルが複数の役割にわたる戦略的推論とアクションを行う。
既存のゲーミフィケーションフレームワークとは異なり、Vision-Zeroは任意の画像からゲームを生成することができる。
論文 参考訳(メタデータ) (2025-09-29T21:55:55Z) - R-Zero: Self-Evolving Reasoning LLM from Zero Data [47.8125954446991]
自己進化型大規模言語モデル(LLM)は、自身の経験から自律的に生成、精製、学習することで、超知性へのスケーラブルなパスを提供する。
このようなモデルを訓練するための既存の方法は、いまだに膨大な人為的なタスクやラベルに大きく依存している。
R-Zeroは、完全に自律的なフレームワークで、スクラッチから独自のトレーニングデータを生成する。
論文 参考訳(メタデータ) (2025-08-07T03:38:16Z) - Absolute Zero: Reinforced Self-play Reasoning with Zero Data [57.30662797376754]
検証可能な報奨付き強化学習(RLVR)は,大規模言語モデルの推論能力を高めることを約束している。
本稿では,AZR(Absolute Zero Reasoner)について紹介する。
AZRは、コーディングおよび数学的推論タスクにおける全体的なSOTA性能を達成し、既存のゼロセットモデルより優れている。
論文 参考訳(メタデータ) (2025-05-06T09:08:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。