論文の概要: VisPlay: Self-Evolving Vision-Language Models from Images
- arxiv url: http://arxiv.org/abs/2511.15661v1
- Date: Wed, 19 Nov 2025 17:55:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 15:51:28.92985
- Title: VisPlay: Self-Evolving Vision-Language Models from Images
- Title(参考訳): VisPlay:画像から自己進化型視覚ランゲージモデル
- Authors: Yicheng He, Chengsong Huang, Zongxia Li, Jiaxin Huang, Yonghui Yang,
- Abstract要約: 強化学習(RL)は、複雑なタスクにおける視覚言語モデル(VLM)を改善するための原則的なフレームワークを提供する。
我々は、VLMが大量のラベルのない画像データを用いて推論能力を自律的に改善できる自己進化型RLフレームワークであるVisPlayを紹介した。
- 参考スコア(独自算出の注目度): 16.43670977857598
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) provides a principled framework for improving Vision-Language Models (VLMs) on complex reasoning tasks. However, existing RL approaches often rely on human-annotated labels or task-specific heuristics to define verifiable rewards, both of which are costly and difficult to scale. We introduce VisPlay, a self-evolving RL framework that enables VLMs to autonomously improve their reasoning abilities using large amounts of unlabeled image data. Starting from a single base VLM, VisPlay assigns the model into two interacting roles: an Image-Conditioned Questioner that formulates challenging yet answerable visual questions, and a Multimodal Reasoner that generates silver responses. These roles are jointly trained with Group Relative Policy Optimization (GRPO), which incorporates diversity and difficulty rewards to balance the complexity of generated questions with the quality of the silver answers. VisPlay scales efficiently across two model families. When trained on Qwen2.5-VL and MiMo-VL, VisPlay achieves consistent improvements in visual reasoning, compositional generalization, and hallucination reduction across eight benchmarks, including MM-Vet and MMMU, demonstrating a scalable path toward self-evolving multimodal intelligence. The project page is available at https://bruno686.github.io/VisPlay/
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、複雑な推論タスクにおいて視覚言語モデル(VLM)を改善するための原則的なフレームワークを提供する。
しかしながら、既存のRLアプローチは、検証可能な報酬を定義するために、人間の注釈付きラベルやタスク固有のヒューリスティックに頼っていることが多い。
我々は、VLMが大量のラベルのない画像データを使用して推論能力を自律的に改善できる自己進化型RLフレームワークであるVisPlayを紹介した。
単一のベースVLMから始めて、VisPlayはモデルを2つの相互作用する役割に割り当てる。
これらの役割はグループ相対政策最適化(GRPO)と共同で訓練され、これは多様性と困難報酬を取り入れ、生成された質問の複雑さと銀の答えの質のバランスをとる。
VisPlayは2つのモデルファミリで効率的にスケールする。
Qwen2.5-VLとMiMo-VLでトレーニングすると、VisPlayは、MM-VetやMMMUを含む8つのベンチマークで視覚的推論、構成の一般化、幻覚の低減を一貫して改善し、自己進化するマルチモーダルインテリジェンスへのスケーラブルな道を示す。
プロジェクトページはhttps://bruno686.github.io/VisPlay/で公開されている。
関連論文リスト
- Agentic Jigsaw Interaction Learning for Enhancing Visual Perception and Reasoning in Vision-Language Models [63.69856480318313]
AGILEは、対話的なプロセスとしてジグソー解決を定式化し、モデルが環境に徐々に関与できるようにする。
我々は AGILE がジグソータスクの性能を大幅に向上させることを示す。
また、9つの一般的な視覚タスクに対して強力な一般化を示し、平均3.1%の改善を実現した。
論文 参考訳(メタデータ) (2025-10-01T17:58:05Z) - Vision-Zero: Scalable VLM Self-Improvement via Strategic Gamified Self-Play [27.15191616995172]
Vision-Zeroは視覚言語モデル(VLM)の自己改善を可能にするフレームワークで、任意の画像ペアから生成される競合視覚ゲームを通じて実現されている。
Vision-Zeroは"Who Is the Spy"スタイルのゲームでVLMを訓練し、モデルが複数の役割にわたる戦略的推論とアクションを行う。
既存のゲーミフィケーションフレームワークとは異なり、Vision-Zeroは任意の画像からゲームを生成することができる。
論文 参考訳(メタデータ) (2025-09-29T21:55:55Z) - VisionThink: Smart and Efficient Vision Language Model via Reinforcement Learning [95.89543460132413]
視覚言語モデル(VLM)は、視覚トークンの数を増やすことで性能を改善した。
しかし、現実世界のシナリオの多くは、このような膨大な数の視覚トークンを必要としない。
視覚的トークン圧縮(VisionThink)のための新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2025-07-17T17:59:55Z) - Demystifying the Visual Quality Paradox in Multimodal Large Language Models [49.154146792279946]
最近のMLLM(Multimodal Large Language Models)は、視覚言語タスクのベンチマークに優れていますが、入力された視覚的品質がその応答をどのように形作るかについてはほとんど分かっていません。
本研究は,MLLMを先導する最初の体系的な研究と,視覚言語ベンチマークのスイートを対象とする。
モデル,タスク,さらには個々のインスタンスのパフォーマンスさえも,人間の知覚した忠実さから逸脱した画像を改善することができる。
論文 参考訳(メタデータ) (2025-06-18T17:14:07Z) - Understand, Think, and Answer: Advancing Visual Reasoning with Large Multimodal Models [26.14137626882127]
大規模マルチモーダルモデル(LMM)は、視覚言語と視覚中心のタスクの両方において、目覚しい視覚的理解性能を示す。
本稿では,LMMが複雑な構成問題を解くための統一的な視覚推論機構を提案する。
トレーニングされたモデルであるGriffon-Rには、エンドツーエンドの自動理解、自己思考、推論の回答能力があります。
論文 参考訳(メタデータ) (2025-05-27T05:50:25Z) - Game-RL: Synthesizing Multimodal Verifiable Game Data to Boost VLMs' General Reasoning [89.93384726755106]
視覚言語強化学習(RL)は主に狭い領域に焦点を当てている。
ビデオゲームは本質的に、検証が容易なリッチなビジュアル要素とメカニクスを提供します。
ビデオゲームにおけるマルチモーダルかつ検証可能な報酬を完全に活用するために,Game-RLを提案する。
論文 参考訳(メタデータ) (2025-05-20T03:47:44Z) - What is the Visual Cognition Gap between Humans and Multimodal LLMs? [63.81347276258992]
MLLM(Multimodal Large Language Models)の視覚認知能力を評価し,その性能を人間の視覚認知研究と比較した。
我々の比較実験では、MLLMと人間の知能のギャップが明らかになっている。
我々は,MaRs-VQAとQwen2-VCogベースラインモデルの公開が,人間の視覚認知能力を持つ次世代MLLMに向けて進展をもたらすと考えている。
論文 参考訳(メタデータ) (2024-06-14T22:02:21Z) - Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。