論文の概要: DV-SFT: Direct Vision Supervision for Fine-Grained Visual Understanding
- arxiv url: http://arxiv.org/abs/2605.26656v1
- Date: Tue, 26 May 2026 07:41:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.735307
- Title: DV-SFT: Direct Vision Supervision for Fine-Grained Visual Understanding
- Title(参考訳): DV-SFT:細粒度視覚理解のためのダイレクトビジョン・スーパービジョン
- Authors: Jianfei Zhao, Feng Zhang, Xin Sun, Chong Feng, Bing Wang, Zhixing Tan,
- Abstract要約: マルチモーダルな大規模言語モデルは通常、接地真実の答えを予測するためにエンドツーエンドで訓練されるが、監督信号はテキストトークンにのみ適用される。
視覚情報のコアキャリアであるビジュアルトークンは、コンテキストの一部として暗黙的に最適化されているだけで、粗い粒度の視覚的理解につながる。
textbfDirect textbfVision textbf Supervised textbfFine-textbfTuning (DV-SFT) を提案する。
- 参考スコア(独自算出の注目度): 14.240098378416995
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal large language models are typically trained end-to-end to predict ground-truth answers, yet supervision signals are applied exclusively to text tokens. Visual tokens, the core carriers of visual information, are optimized only implicitly as part of the context, leading to coarse-grained visual understanding. Prior works attempt to supervise visual inputs but inevitably rely on auxiliary components such as additional decoders or forward passes, because visual tokens lack readily interpretable labels. This limits their practical applicability. In this work, we propose \textbf{D}irect \textbf{V}ision \textbf{S}upervised \textbf{F}ine-\textbf{T}uning (DV-SFT), which constructs explicit, token-level supervision for visual tokens and trains them through the same next-token prediction objective used for text. Specifically, we exploit the direct vision--text correspondence in OCR-related scenarios and automatically label each visual token with the word in its corresponding image patch. DV-SFT treats the MLLM as a black box, requiring no architectural modifications or additional forward passes. Extensive experiments demonstrate the superiority of direct vision supervision. DV-SFT consistently outperforms standard SFT across three in-domain and four out-of-domain benchmarks. Further analyses show that vision supervision effectively enhances fine-grained visual understanding and achieves higher multimodal alignment efficiency.
- Abstract(参考訳): マルチモーダルな大規模言語モデルは通常、接地真実の答えを予測するためにエンドツーエンドで訓練されるが、監督信号はテキストトークンにのみ適用される。
視覚情報のコアキャリアであるビジュアルトークンは、コンテキストの一部として暗黙的に最適化されているだけで、粗い粒度の視覚的理解につながる。
以前は視覚的な入力を監督しようとしたが、視覚トークンには容易に解釈可能なラベルがないため、必然的にデコーダやフォワードパスなどの補助的なコンポーネントに依存していた。
これにより実用性は制限される。
本研究では,視覚的トークンに対する明示的なトークンレベルの監視を構築し,テキストに使用する次の次の予測目標を通したトレーニングを行う,dV-SFT (textbf{D}irect \textbf{V}ision \textbf{S}upervised \textbf{F}ine-\textbf{T}uning)を提案する。
具体的には、OCR関連シナリオにおける直接視覚-テキスト対応を利用し、対応する画像パッチ内の単語に各視覚トークンを自動的にラベル付けする。
DV-SFTはMLLMをブラックボックスとして扱い、アーキテクチャの変更や追加のフォワードパスを必要としない。
広範にわたる実験は、直接視覚監督の優越性を実証している。
DV-SFTは、標準SFTを3つのドメイン内と4つのドメイン外のベンチマークで一貫して上回っている。
さらに,視覚指導は視覚の微粒化を効果的に促進し,マルチモーダルアライメント効率の向上を図っている。
関連論文リスト
- Mostly Text, Smart Visuals: Asymmetric Text-Visual Pruning for Large Vision-Language Models [51.475129418355465]
大規模視覚言語モデルに対する単純で効果的な非対称テキスト・ビジュアル・ウェイト・プルーニング法を提案する。
まず、キャリブレーションプールはすべてのテキストトークンと視覚トークンのサブセットに描画することで適応的に構築される。
論文 参考訳(メタデータ) (2026-03-16T23:23:05Z) - VISTA-Bench: Do Vision-Language Models Really Understand Visualized Text as Well as Pure Text? [51.02924254085878]
VLM(Vision-Language Models)は、テキスト入力と視覚入力のクロスモーダル理解において、優れたパフォーマンスを実現している。
VISTA-Benchは、マルチモーダル認識、推論、および非モーダル理解領域のベンチマークである。
論文 参考訳(メタデータ) (2026-02-04T17:48:55Z) - Thinking with Deltas: Incentivizing Reinforcement Learning via Differential Visual Reasoning Policy [75.66913260900726]
検証可能なリワードによる強化学習は、大規模言語モデルにおいてかなり高度な推論能力を持っている。
既存のパラダイムは、テキスト中心の成果報酬によって推進され、モデルが視覚的知覚をバイパスすることを奨励します。
我々はtextbfDifferential Visual Reasoning Policy によって駆動されるフレームワーク Deltas を用いた textbfThinking を提案する。
論文 参考訳(メタデータ) (2026-01-11T08:25:34Z) - Visual Jigsaw Post-Training Improves MLLMs [58.29961336087896]
大規模言語モデル(MLLM)における視覚的理解を強化するために設計された,汎用的な自己教師型ポストトレーニングフレームワークであるVisual Jigsawを紹介する。
視覚的な入力は分割され、シャッフルされ、モデルは自然言語で正しい置換を生成することで視覚情報を再構築する必要がある。
広範囲な実験により、微粒な知覚、時間的推論、空間的理解が大幅に改善された。
論文 参考訳(メタデータ) (2025-09-29T17:59:57Z) - Rethinking Visual Token Reduction in LVLMs under Cross-modal Misalignment [38.04426918886084]
視覚言語モデル(LVLM)は、視覚入力をパッチレベルのトークンの密度の高いシーケンスとしてエンコードし、微細なセマンティクスをキャプチャする。
これまでは、大型言語モデル(LLM)の前か中のいずれかで、視覚トークンの削減を検討してきた。
トレーニングフリーで視覚のみのプルーニングフレームワークであるVisionDropを導入し、モーダル内(視覚から視覚への)注目に基づいて情報的視覚トークンを選択する。
論文 参考訳(メタデータ) (2025-06-27T14:55:40Z) - Revisit What You See: Disclose Language Prior in Vision Tokens for LVLM Decoding [6.612630497074871]
LVLM(Large Vision-Language Models)は、視覚認識と言語理解を統合することで、マルチモーダルタスクにおける強力なパフォーマンスを実現する。
テキスト生成のガイドとして視覚トークンを参照するトレーニング不要な復号法であるReVisiTを提案する。
論文 参考訳(メタデータ) (2025-06-11T08:46:55Z) - D-Attn: Decomposed Attention for Large Vision-and-Language Models [29.611769371733672]
大規模視覚・言語モデル(LVLM)のためのより柔軟な注意アーキテクチャである分解注意アーキテクチャ(D-Attn)を提案する。
D-AttnはLVLMの1次元因果自認を視覚的・視覚的・視覚的・テキスト的・テキスト的に分解する。
実験と解析によりD-Attnの有効性が検証され、複数の画像ベンチマークで大幅な改善が示された。
論文 参考訳(メタデータ) (2025-02-04T00:46:11Z) - See then Tell: Enhancing Key Information Extraction with Vision Grounding [32.445618057103324]
STNet(See then Tell Net)は、視覚基盤の正確な答えを提供するために設計された、新しいエンドツーエンドモデルである。
モデルの可視性を高めるため、広範囲に構造化されたテーブル認識データセットを収集する。
提案手法は,KIE性能の大幅な向上を実証し,公開データセットの最先端化を実現している。
論文 参考訳(メタデータ) (2024-09-29T06:21:05Z) - Visually-augmented pretrained language models for NLP tasks without
images [77.74849855049523]
既存のソリューションはしばしば視覚的知識増強のために明示的なイメージに依存している。
我々は、新しいtextbfVisually-textbfAugmented fine-tuningアプローチを提案する。
我々のアプローチは、BERT、RoBERTa、BART、T5を異なるスケールで継続的に改善することができる。
論文 参考訳(メタデータ) (2022-12-15T16:13:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。