論文の概要: Youtu-VL: Unleashing Visual Potential via Unified Vision-Language Supervision
- arxiv url: http://arxiv.org/abs/2601.19798v1
- Date: Tue, 27 Jan 2026 17:01:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.409594
- Title: Youtu-VL: Unleashing Visual Potential via Unified Vision-Language Supervision
- Title(参考訳): Youtu-VL:Unified Vision-Language Supervisionによる視覚電位の解放
- Authors: Zhixiang Wei, Yi Li, Zhehan Kan, Xinghua Jiang, Zuwei Long, Shifeng Liu, Hongze Shen, Wei Liu, Xiaoyu Tan, Haojia Lin, Yubo Zhu, Qianyu Li, Di Yin, Haoyu Cao, Weibo Gu, Xin Li, Yinsong Liu, Deqiang Jiang, Xing Sun, Yunsheng Wu, Mingkong Tang, Shuangyin Liu, Lexiang Tang, Haodong Lin, Junru Lu, Jiarui Qin, Lingfeng Qiao, Ruizhi Qiao, Bo Ke, Jianfeng He, Ke Li, Yangning Li, Yunhang Shen, Mengdan Zhang, Peixian Chen, Kun Yin, Bing Liu, Yunfei Wu, Huang Chen, Zhongpeng Cai, Xiaotian Li,
- Abstract要約: 本稿では,VLUAS(Vision-Language Unified Autoregressive Supervision)パラダイムを活用するフレームワークであるYoutu-VLを紹介する。
Youtu-VLは視覚的詳細と言語的内容の両方に統一的な自己回帰的監督を適用している。
我々は、このパラダイムを視覚中心のタスクに拡張し、標準のVLMがタスク固有の追加なしで視覚中心のタスクを実行できるようにした。
- 参考スコア(独自算出の注目度): 79.06371915084833
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the significant advancements represented by Vision-Language Models (VLMs), current architectures often exhibit limitations in retaining fine-grained visual information, leading to coarse-grained multimodal comprehension. We attribute this deficiency to a suboptimal training paradigm inherent in prevailing VLMs, which exhibits a text-dominant optimization bias by conceptualizing visual signals merely as passive conditional inputs rather than supervisory targets. To mitigate this, we introduce Youtu-VL, a framework leveraging the Vision-Language Unified Autoregressive Supervision (VLUAS) paradigm, which fundamentally shifts the optimization objective from ``vision-as-input'' to ``vision-as-target.'' By integrating visual tokens directly into the prediction stream, Youtu-VL applies unified autoregressive supervision to both visual details and linguistic content. Furthermore, we extend this paradigm to encompass vision-centric tasks, enabling a standard VLM to perform vision-centric tasks without task-specific additions. Extensive empirical evaluations demonstrate that Youtu-VL achieves competitive performance on both general multimodal tasks and vision-centric tasks, establishing a robust foundation for the development of comprehensive generalist visual agents.
- Abstract(参考訳): VLM(Vision-Language Models)に代表される顕著な進歩にもかかわらず、現在のアーキテクチャはしばしば細粒度の視覚情報を保持する限界を示し、粗粒度のマルチモーダル理解をもたらす。
我々は、この欠陥をVLMに固有の準最適訓練パラダイムとみなし、視覚信号は、監督対象ではなく、受動的条件入力としてのみ概念化することで、テキスト優先の最適化バイアスを示す。
これを緩和するために、我々はビジョン・ランゲージ統一自己回帰スーパービジョン(VLUAS)パラダイムを利用したYoutu-VLを紹介し、最適化の目的を「ビジョン・アズ・インプット」から「ビジョン・アズ・ターゲット」に根本的にシフトさせる。
「'' 視覚トークンを直接予測ストリームに統合することにより、Youtu-VLは視覚的詳細と言語的コンテンツの両方に統一された自己回帰的監視を適用します。
さらに、このパラダイムを視覚中心タスクにまで拡張し、標準のVLMがタスク固有の追加を伴わずに視覚中心タスクを実行できるようにした。
広汎な経験的評価は、Youtu-VLが一般的なマルチモーダルタスクとビジョン中心タスクの両方で競争性能を達成し、包括的総合視覚エージェントの開発のための堅牢な基盤を確立していることを示している。
関連論文リスト
- ReViP: Reducing False Completion in Vision-Language-Action Models with Vision-Proprioception Rebalance [50.05984919728878]
本稿では、視覚的接地と摂動下での堅牢性を高めるために、視覚-受容器リバランスを備えた新しいVLAフレームワークReViPを提案する。
具体的には、タスクステージオブザーバとして外部VLMを使用して、視覚的な観察からリアルタイムなタスク中心の視覚的手がかりを抽出する。
本稿では,オブジェクトドロップのような制御された設定を持つLIBERO上に構築された最初のFalse-Completion Benchmark Suiteを提案する。
論文 参考訳(メタデータ) (2026-01-23T11:31:07Z) - Attention Guided Alignment in Efficient Vision-Language Models [56.20286899428444]
VLM(Large Vision-Language Models)は、事前訓練された視覚エンコーダとLLM(Large Language Models)の効果的なマルチモーダルアライメントに依存している。
本稿では,効率的なVLMにおける注意パターンの包括的解析について述べる。
本稿では,Attention-Guided Efficient Vision-Language Models (AGE-VLM)を紹介する。
論文 参考訳(メタデータ) (2025-11-21T21:36:48Z) - Don't Blind Your VLA: Aligning Visual Representations for OOD Generalization [42.41263928527529]
VLA(Vision-Language-Action)モデルは、伝達可能な世界知識と視覚言語基盤を持つエージェントを支援できる。
しかし、これらのVLMがアクションモダリティに適合している場合、元の視覚的表現や知識がどの程度保存されているかははっきりしない。
本稿では,VLA微調整中の表現保持の系統的研究を行い,行動微調整が視覚的表現の劣化につながることを示す。
論文 参考訳(メタデータ) (2025-10-29T15:20:10Z) - ViPER: Empowering the Self-Evolution of Visual Perception Abilities in Vision-Language Model [61.29164681694533]
ViPERは、自己評価と自己予測を通じて反復的な進化を可能にするように設計されたセルフブートストラッピングフレームワークである。
Qwen-Viperは、汎用性を維持しながら、さまざまな視覚言語シナリオにおける優れたパフォーマンスを一貫して示す。
論文 参考訳(メタデータ) (2025-10-28T10:42:57Z) - VL-SAE: Interpreting and Enhancing Vision-Language Alignment with a Unified Concept Set [80.50996301430108]
視覚言語表現のアライメントは、強いマルチモーダル推論能力を持つ現在のビジョン言語モデルを実現する。
視覚言語表現をその隠れアクティベーションにエンコードするスパースオートエンコーダVL-SAEを提案する。
解釈において、視覚と言語表現のアライメントは、意味論と概念を比較することで理解することができる。
論文 参考訳(メタデータ) (2025-10-24T10:29:31Z) - Vlaser: Vision-Language-Action Model with Synergistic Embodied Reasoning [124.48672228625821]
Vlaser - 相乗的具体的推論機能を備えたビジョン・ランゲージ・アクション・モデルを紹介する。
Vlaserは、様々な具体的推論ベンチマークで最先端のパフォーマンスを達成する。
提案手法は,WidowXベンチマークの最先端結果と,Google Robotベンチマークの競合性能を実現する。
論文 参考訳(メタデータ) (2025-10-13T05:51:22Z) - UP-VLA: A Unified Understanding and Prediction Model for Embodied Agent [14.089700378708756]
textbfUP-VLA, textbfUnified VLA model training with multi-modal textbfUnderstanding and future textbfPrediction objectives。
UP-VLAはCalvin ABC-Dベンチマークの33%の改善を実現している。
論文 参考訳(メタデータ) (2025-01-31T03:20:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。