論文の概要: Vision-Zero: Scalable VLM Self-Improvement via Strategic Gamified Self-Play
- arxiv url: http://arxiv.org/abs/2509.25541v1
- Date: Mon, 29 Sep 2025 21:55:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.345758
- Title: Vision-Zero: Scalable VLM Self-Improvement via Strategic Gamified Self-Play
- Title(参考訳): Vision-Zero: 戦略的ゲーミフィケーションによるスケーラブルなVLM自己改善
- Authors: Qinsi Wang, Bo Liu, Tianyi Zhou, Jing Shi, Yueqian Lin, Yiran Chen, Hai Helen Li, Kun Wan, Wentian Zhao,
- Abstract要約: Vision-Zeroは視覚言語モデル(VLM)の自己改善を可能にするフレームワークで、任意の画像ペアから生成される競合視覚ゲームを通じて実現されている。
Vision-Zeroは"Who Is the Spy"スタイルのゲームでVLMを訓練し、モデルが複数の役割にわたる戦略的推論とアクションを行う。
既存のゲーミフィケーションフレームワークとは異なり、Vision-Zeroは任意の画像からゲームを生成することができる。
- 参考スコア(独自算出の注目度): 27.15191616995172
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although reinforcement learning (RL) can effectively enhance the reasoning capabilities of vision-language models (VLMs), current methods remain heavily dependent on labor-intensive datasets that require extensive manual construction and verification, leading to extremely high training costs and consequently constraining the practical deployment of VLMs. To address this challenge, we propose Vision-Zero, a domain-agnostic framework enabling VLM self-improvement through competitive visual games generated from arbitrary image pairs. Specifically, Vision-Zero encompasses three main attributes: (1) Strategic Self-Play Framework: Vision-Zero trains VLMs in "Who Is the Spy"-style games, where the models engage in strategic reasoning and actions across multiple roles. Through interactive gameplay, models autonomously generate their training data without human annotation. (2) Gameplay from Arbitrary Images: Unlike existing gamified frameworks, Vision-Zero can generate games from arbitrary images, thereby enhancing the model's reasoning ability across diverse domains and showing strong generalization to different tasks. We demonstrate this versatility using three distinct types of image datasets: CLEVR-based synthetic scenes, charts, and real-world images. (3) Sustainable Performance Gain: We introduce Iterative Self-Play Policy Optimization (Iterative-SPO), a novel training algorithm that alternates between Self-Play and reinforcement learning with verifiable rewards (RLVR), mitigating the performance plateau often seen in self-play-only training and achieving sustained long-term improvements. Despite using label-free data, Vision-Zero achieves state-of-the-art performance on reasoning, chart question answering, and vision-centric understanding tasks, surpassing other annotation-based methods. Models and code has been released at https://github.com/wangqinsi1/Vision-Zero.
- Abstract(参考訳): 強化学習(RL)は、視覚言語モデル(VLM)の推論能力を効果的に向上させることができるが、現在の手法は、広範囲な手作業による構築と検証を必要とする労働集約的なデータセットに大きく依存している。
この課題に対処するために、任意の画像ペアから生成された競合視覚ゲームを通してVLMの自己改善を可能にするドメインに依存しないフレームワークであるVision-Zeroを提案する。
具体的には、(1)戦略的なセルフプレイフレームワーク: ビジョンゼロは「Who Is the Spy」スタイルのゲームでVLMを訓練する。
インタラクティブなゲームプレイを通じて、モデルは人間のアノテーションなしで、自律的にトレーニングデータを生成する。
2) Arbitrary Imagesによるゲームプレイ:既存のゲーム化フレームワークとは異なり、Vision-Zeroは任意の画像からゲームを生成することができる。
我々は、CLEVRベースの合成シーン、チャート、現実世界の画像の3つの異なるタイプの画像データセットを用いて、この汎用性を実証する。
(3) 持続的なパフォーマンス向上: 反復的自己遊び政策最適化(Iterative-SPO)を導入する。これは、自己遊びと強化学習を、検証可能な報酬(RLVR)で交互に行い、自己遊びのみのトレーニングでしばしば見られるパフォーマンス高原を緩和し、持続的な長期的改善を実現する新しいトレーニングアルゴリズムである。
ラベルのないデータを使用しても、Vision-Zeroは推論、チャート質問応答、視覚中心の理解タスクにおける最先端のパフォーマンスを達成し、他のアノテーションベースのメソッドを上回ります。
モデルとコードはhttps://github.com/wangqinsi1/Vision-Zero.comでリリースされた。
関連論文リスト
- Autoregressive Semantic Visual Reconstruction Helps VLMs Understand Better [44.15671594378141]
自動回帰視覚再構成(ASVR)を導入し,統合された自己回帰フレームワーク内での視覚的・テキスト的モダリティの同時学習を実現する。
ASVRは14のマルチモーダルベンチマークの平均スコアでLLaVA-1.5を5%改善する。
論文 参考訳(メタデータ) (2025-06-10T17:57:50Z) - From Generation to Generalization: Emergent Few-Shot Learning in Video Diffusion Models [65.0487600936788]
ビデオ拡散モデル(VDM)は高品質なコンテンツを合成できる強力な生成ツールとして登場した。
我々は、VDMが自然に構造化された表現を探索し、視覚世界を暗黙的に理解することを主張する。
提案手法は,各タスクを視覚遷移に変換し,短い入力シーケンス上でLoRA重みのトレーニングを可能にする。
論文 参考訳(メタデータ) (2025-06-08T20:52:34Z) - Vision-Language Model Dialog Games for Self-Improvement [7.601039502641712]
VLM Dialog Gamesは、視覚言語モデル(VLM)のための、新しくスケーラブルな自己改善フレームワークである。
ゲームインタラクションの成功をフィルタすることにより、私たちは、インターリーブされた画像とテキストの高品質なデータセットを自動的にキュレートする。
この合成データの微調整は、下流タスクのパフォーマンス向上とデータセット間の一般化につながることを実証する。
論文 参考訳(メタデータ) (2025-02-04T21:58:07Z) - COSMOS: Cross-Modality Self-Distillation for Vision Language Pre-training [49.2684130383925]
視覚言語事前学習のためのCOSMOS: CrOSs-modality Self-distillationを提案する。
新たなテキストクロッピング戦略とクロスアテンションモジュールを自己教師型学習フレームワークに統合する。
さまざまなゼロショットダウンストリームタスクにおいて、以前の強いベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2024-12-02T18:56:06Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [61.143381152739046]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - Heuristic Vision Pre-Training with Self-Supervised and Supervised
Multi-Task Learning [0.0]
マルチタスク方式で自己教師型と教師型の両方の視覚的プレテキストタスクを採用することで、新しい事前学習フレームワークを提案する。
その結果、事前学習したモデルでは、複数の視覚的タスクにおいて、最先端(SOTA)結果と同等以上の結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-10-11T14:06:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。