論文の概要: Autoregressive Semantic Visual Reconstruction Helps VLMs Understand Better
- arxiv url: http://arxiv.org/abs/2506.09040v1
- Date: Tue, 10 Jun 2025 17:57:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:43.067954
- Title: Autoregressive Semantic Visual Reconstruction Helps VLMs Understand Better
- Title(参考訳): 自己回帰的セマンティックな視覚再構成は、VLMの理解を向上する
- Authors: Dianyi Wang, Wei Song, Yikun Wang, Siyuan Wang, Kaicheng Yu, Zhongyu Wei, Jiaqi Wang,
- Abstract要約: 自動回帰視覚再構成(ASVR)を導入し,統合された自己回帰フレームワーク内での視覚的・テキスト的モダリティの同時学習を実現する。
ASVRは14のマルチモーダルベンチマークの平均スコアでLLaVA-1.5を5%改善する。
- 参考スコア(独自算出の注目度): 44.15671594378141
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Typical large vision-language models (LVLMs) apply autoregressive supervision solely to textual sequences, without fully incorporating the visual modality into the learning process. This results in three key limitations: (1) an inability to utilize images without accompanying captions, (2) the risk that captions omit critical visual details, and (3) the challenge that certain vision-centric content cannot be adequately conveyed through text. As a result, current LVLMs often prioritize vision-to-language alignment while potentially overlooking fine-grained visual information. While some prior works have explored autoregressive image generation, effectively leveraging autoregressive visual supervision to enhance image understanding remains an open challenge. In this paper, we introduce Autoregressive Semantic Visual Reconstruction (ASVR), which enables joint learning of visual and textual modalities within a unified autoregressive framework. We show that autoregressively reconstructing the raw visual appearance of images does not enhance and may even impair multimodal understanding. In contrast, autoregressively reconstructing the semantic representation of images consistently improves comprehension. Notably, we find that even when models are given continuous image features as input, they can effectively reconstruct discrete semantic tokens, resulting in stable and consistent improvements across a wide range of multimodal understanding benchmarks. Our approach delivers significant performance gains across varying data scales (556k-2M) and types of LLM bacbones. Specifically, ASVR improves LLaVA-1.5 by 5% in average scores across 14 multimodal benchmarks. The code is available at https://github.com/AlenjandroWang/ASVR.
- Abstract(参考訳): 典型的な大きな視覚言語モデル(LVLM)は、学習プロセスに視覚的モダリティを完全に組み込むことなく、テキストシーケンスのみに自己回帰的監督を適用する。
その結果,(1)キャプションを伴わずに画像が利用できないこと,(2)キャプションが重要な視覚的詳細を省略するリスク,(3)特定の視覚中心のコンテンツがテキストを通して適切に伝達できないこと,の3つの重要な制限が生じる。
結果として、現在のLVLMは視覚から言語へのアライメントを優先し、微粒な視覚情報を見落としてしまうことがある。
いくつかの先行研究は自己回帰的画像生成を探求しているが、画像理解を高めるために自己回帰的視覚的監督を効果的に活用することは未解決の課題である。
本稿では,自動回帰的視覚再構成(ASVR)を導入し,統合された自己回帰的枠組み内での視覚的・テキスト的モダリティの同時学習を実現する。
画像の生の視覚的外観を自己回帰的に再構成することは、強化せず、マルチモーダルな理解を損なう可能性もある。
対照的に、画像の意味表現を自己回帰的に再構築することは、理解を継続的に改善する。
特に,モデルに連続した画像特徴を入力として与えても,個々の意味的トークンを効果的に再構成することができ,様々なマルチモーダル理解ベンチマークにおいて安定的かつ一貫した改善が得られた。
提案手法は, 様々なデータスケール (556k-2M) と LLM のバクボーンの種類に対して, 大幅な性能向上をもたらす。
具体的には、14のマルチモーダルベンチマークの平均スコアにおいて、ASVRはLLaVA-1.5を5%改善する。
コードはhttps://github.com/AlenjandroWang/ASVRで入手できる。
関連論文リスト
- Text Speaks Louder than Vision: ASCII Art Reveals Textual Biases in Vision-Language Models [93.46875303598577]
視覚言語モデル(VLM)は、マルチモーダル情報処理において急速に進歩しているが、競合する信号の整合性は未解明のままである。
この研究は、VLMがASCIIアートをどう処理するかを考察する。
論文 参考訳(メタデータ) (2025-04-02T10:47:07Z) - Semantic-Clipping: Efficient Vision-Language Modeling with Semantic-Guidedd Visual Selection [53.558449071113245]
Vision-Language Models (VLM) は、アライメントされたビジュアルエンコーダを利用して、画像をビジュアルトークンに変換することで、バックボーン大言語モデル (LLM) によるテキストと同じように処理することができる。
視覚言語モデリングの最近の進歩は、すべての符号化されたサブイメージをモデルに供給する画像トリミング技術を導入している。
本稿では,既存のVLMとシームレスに統合し,細粒度処理能力を高める軽量で普遍的なフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-14T18:33:31Z) - Symmetrical Visual Contrastive Optimization: Aligning Vision-Language Models with Minimal Contrastive Images [7.823336661261962]
VLM(Large Vision-Language Models)は、画像の内容を無視し、言語モデルに過剰に依存する傾向にある。
本稿では,S-VCO(Symmetrical Visual Contrastive Optimization)を提案する。
論文 参考訳(メタデータ) (2025-02-19T18:05:42Z) - From Visuals to Vocabulary: Establishing Equivalence Between Image and Text Token Through Autoregressive Pre-training in MLLMs [23.011836329934255]
Vision Dynamic Embedding-Guided Pretraining (VDEP)はMLLMのためのハイブリッド自動回帰トレーニングパラダイムである。
提案手法はアーキテクチャ変更なしに標準モデルにシームレスに統合される。
13のベンチマークの実験では、VDEPはベースラインを上回り、既存のメソッドを上回っている。
論文 参考訳(メタデータ) (2025-02-13T09:04:28Z) - Rethinking Homogeneity of Vision and Text Tokens in Large Vision-and-Language Models [29.611769371733672]
本稿では,視覚とテキストの埋め込みを別々に処理する新しい手法であるDe Attention (D-Attn)を提案する。
D-Attn は視覚と視覚の自己注意を対角化し、計算を $mathcalO(|V|2)$から $mathcalO(|V|)$ for $|V|$ に還元する。
論文 参考訳(メタデータ) (2025-02-04T00:46:11Z) - Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。