論文の概要: ViPER: Empowering the Self-Evolution of Visual Perception Abilities in Vision-Language Model
- arxiv url: http://arxiv.org/abs/2510.24285v1
- Date: Tue, 28 Oct 2025 10:42:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:37.026407
- Title: ViPER: Empowering the Self-Evolution of Visual Perception Abilities in Vision-Language Model
- Title(参考訳): ViPER:視覚言語モデルにおける視覚知覚能力の自己進化
- Authors: Juntian Zhang, Song Jin, Chuanqi Cheng, Yuhan Liu, Yankai Lin, Xun Zhang, Yufei Zhang, Fei Jiang, Guojun Yin, Wei Lin, Rui Yan,
- Abstract要約: ViPERは、自己評価と自己予測を通じて反復的な進化を可能にするように設計されたセルフブートストラッピングフレームワークである。
Qwen-Viperは、汎用性を維持しながら、さまざまな視覚言語シナリオにおける優れたパフォーマンスを一貫して示す。
- 参考スコア(独自算出の注目度): 61.29164681694533
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The limited capacity for fine-grained visual perception presents a critical bottleneck for Vision-Language Models (VLMs) in real-world applications. Addressing this is challenging due to the scarcity of high-quality data and the limitations of existing methods: supervised fine-tuning (SFT) often compromises general capabilities, while reinforcement fine-tuning (RFT) prioritizes textual reasoning over visual perception. To bridge this gap, we propose a novel two-stage task that structures visual perception learning as a coarse-to-fine progressive process. Based on this task formulation, we develop ViPER, a self-bootstrapping framework specifically designed to enable iterative evolution through self-critiquing and self-prediction. By synergistically integrating image-level and instance-level reconstruction with a two-stage reinforcement learning strategy, ViPER establishes a closed-loop training paradigm, where internally synthesized data directly fuel the enhancement of perceptual ability. Applied to the Qwen2.5-VL family, ViPER produces the Qwen-Viper series. With an average gain of 1.7% on seven comprehensive benchmarks spanning various tasks and up to 6.0% on fine-grained perception, Qwen-Viper consistently demonstrates superior performance across different vision-language scenarios while maintaining generalizability. Beyond enabling self-improvement in perceptual capabilities, ViPER provides concrete evidence for the reciprocal relationship between generation and understanding, a breakthrough to developing more autonomous and capable VLMs.
- Abstract(参考訳): 微粒な視覚知覚のための限られた能力は、現実世界のアプリケーションにおいて視覚言語モデル(VLM)にとって重要なボトルネックとなる。
教師付き微調整(SFT)はしばしば一般的な能力を損なうが、強化微調整(RFT)は視覚的知覚よりもテキスト推論を優先する。
このギャップを埋めるために,視覚認識学習を粗い段階から細かな段階の進行過程として構築する新しい2段階タスクを提案する。
このタスクの定式化に基づいて,自己記述と自己予測による反復的進化を可能にするために設計されたセルフブートストラップフレームワークであるViPERを開発した。
画像レベルとインスタンスレベルの再構築と2段階の強化学習戦略を相乗的に統合することにより、ViPERはクローズドループトレーニングパラダイムを確立し、内部的に合成されたデータが知覚能力の強化を直接促進する。
Qwen2.5-VLシリーズに採用され、ViPerはQwen-Viperシリーズを生産している。
Qwen-Viperは、様々なタスクにまたがる7つの総合ベンチマークで平均1.7%、微妙な知覚で最大6.0%向上した。
知覚能力の自己改善を可能にすることに加えて、ViPERは、より自律的で有能なVLMを開発するためのブレークスルーである、生成と理解の間の相互関係の具体的な証拠を提供する。
関連論文リスト
- Agentic Jigsaw Interaction Learning for Enhancing Visual Perception and Reasoning in Vision-Language Models [63.69856480318313]
AGILEは、対話的なプロセスとしてジグソー解決を定式化し、モデルが環境に徐々に関与できるようにする。
我々は AGILE がジグソータスクの性能を大幅に向上させることを示す。
また、9つの一般的な視覚タスクに対して強力な一般化を示し、平均3.1%の改善を実現した。
論文 参考訳(メタデータ) (2025-10-01T17:58:05Z) - dVLA: Diffusion Vision-Language-Action Model with Multimodal Chain-of-Thought [66.78110237549087]
VLA(Vision-Language-Action)モデルは、ロボット工学の次世代パラダイムとして登場しつつある。
単一システムにおける視覚認識,言語推論,ロボット制御を統一する拡散型VLAであるdVLAを紹介する。
論文 参考訳(メタデータ) (2025-09-30T02:36:11Z) - End-to-End Vision Tokenizer Tuning [73.3065542220568]
低レベルの再構築のために最適化された視覚トークンーは、様々な表現と意味論を必要とする下流タスクである。
視覚トークン化の損失は、ターゲットタスクの表現ボトルネックになる可能性がある。
本研究では,視覚トークン化と目標自己回帰タスクを協調的に最適化するエンド・ツー・エンドの視覚トークン化チューニング手法であるETTを提案する。
論文 参考訳(メタデータ) (2025-05-15T17:59:39Z) - VARGPT: Unified Understanding and Generation in a Visual Autoregressive Multimodal Large Language Model [38.61292051733335]
VARGPTは,単一の自己回帰フレームワーク内で視覚的理解と生成を統一する,新しいマルチモーダル大規模言語モデルである。
VarGPTは視覚理解のための次世代予測パラダイムと、視覚自己回帰生成のための次世代予測パラダイムを採用している。
特に、VARGPTは自己回帰的視覚生成と命令-画像合成の能力を自然にサポートし、視覚的理解と生成の両タスクにおいてその汎用性を示す。
論文 参考訳(メタデータ) (2025-01-21T17:50:43Z) - ViT-Lens: Towards Omni-modal Representations [64.66508684336614]
ViT-Lens-2は、モダリティ増加の表現学習のためのフレームワークである。
ViT-Lens-2は3Dポイントクラウド,奥行き,オーディオ,触覚,脳波の表現を学習できることを示す。
ViT-Lens-2をシームレスにMultimodal Foundation Modelsに統合することにより、テキストと画像生成へのAny-modalityを可能にする。
論文 参考訳(メタデータ) (2023-11-27T18:52:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。