論文の概要: Boosting Visual Instruction Tuning with Self-Supervised Guidance
- arxiv url: http://arxiv.org/abs/2604.12966v1
- Date: Tue, 14 Apr 2026 16:59:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.573465
- Title: Boosting Visual Instruction Tuning with Self-Supervised Guidance
- Title(参考訳): 自己監督型ガイダンスによる視覚インストラクションチューニングの強化
- Authors: Sophia Sirko-Galouchenko, Monika Wysoczanska, Andrei Bursuc, Nicolas Thome, Spyros Gidaris,
- Abstract要約: マルチモーダル大言語モデル(MLLM)は多くの視覚中心のタスクでうまく機能するが、しばしば視覚中心の問題に悩まされる。
最近の証拠は、この制限は、指導訓練中に視覚情報の未利用から生じることを示唆している。
そこで本稿では,視覚的に基礎をおくタスクを少数用意し,視覚的指導を補助する,シンプルで軽量なアプローチを提案する。
- 参考スコア(独自算出の注目度): 25.75897924846719
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal large language models (MLLMs) perform well on many vision-language tasks but often struggle with vision-centric problems that require fine-grained visual reasoning. Recent evidence suggests that this limitation arises not from weak visual representations, but from under-utilization of visual information during instruction tuning, where many tasks can be partially solved using language priors alone. We propose a simple and lightweight approach that augments visual instruction tuning with a small number of visually grounded self-supervised tasks expressed as natural language instructions. By reformulating classical self-supervised pretext tasks, such as rotation prediction, color matching, and cross-view correspondence, as image-instruction-response triplets, we introduce supervision that cannot be solved without relying on visual evidence. Our approach requires no human annotations, no architectural modifications, and no additional training stages. Across multiple models, training regimes, and benchmarks, injecting only a small fraction (3-10%) of such visually grounded instructions consistently improves performance on vision-centric evaluations. Our findings highlight instruction tuning with visually grounded SSL tasks as a powerful lever for improving visual reasoning in MLLMs through simple adjustments to the training data distribution. Code available at: https://github.com/sirkosophia/V-GIFT
- Abstract(参考訳): MLLM(Multimodal large language model)は多くの視覚言語タスクでうまく機能するが、視覚中心の問題に悩まされることが多い。
近年のエビデンスでは、この制限は、弱い視覚表現ではなく、命令チューニング中の視覚情報の未利用から生じており、多くのタスクは言語先行詞だけで部分的に解決できる。
自然言語命令として表現される視覚的基礎のタスクを少数含み,視覚的指導を補助する,シンプルで軽量な手法を提案する。
回転予測,色マッチング,クロスビュー対応などの古典的自己監督型前提語タスクをイメージインストラクション応答三重項として再構成することにより,視覚的証拠に頼らずに解決できない監督を導入する。
私たちのアプローチでは、人間のアノテーションやアーキテクチャの変更、追加のトレーニング段階は必要ありません。
複数のモデル、トレーニング体制、ベンチマークを通じて、視覚的に基礎付けられた命令のごく一部(3-10%)を注入するだけで、視覚中心の評価におけるパフォーマンスが一貫して向上する。
本研究は,学習データ分布の簡易な調整により,MLLMの視覚的推論を改善するための強力なレバーとして,視覚的に接地したSSLタスクを用いた指導訓練を強調した。
https://github.com/sirkosophia/V-GIFT
関連論文リスト
- Latent Implicit Visual Reasoning [59.39913238320798]
本稿では,視覚的推論トークンの発見と使用をLMMに指示するタスク非依存機構を提案する。
提案手法は直接微調整より優れ,様々な視覚中心のタスクにおいて最先端の結果が得られる。
論文 参考訳(メタデータ) (2025-12-24T14:59:49Z) - Visual Jigsaw Post-Training Improves MLLMs [58.29961336087896]
大規模言語モデル(MLLM)における視覚的理解を強化するために設計された,汎用的な自己教師型ポストトレーニングフレームワークであるVisual Jigsawを紹介する。
視覚的な入力は分割され、シャッフルされ、モデルは自然言語で正しい置換を生成することで視覚情報を再構築する必要がある。
広範囲な実験により、微粒な知覚、時間的推論、空間的理解が大幅に改善された。
論文 参考訳(メタデータ) (2025-09-29T17:59:57Z) - ViCrit: A Verifiable Reinforcement Learning Proxy Task for Visual Perception in VLMs [98.27348724529257]
ViCrit (Visual Caption Hallucination Critic) は、VLMを訓練し、人間の手書き画像キャプションの段落に挿入された微妙で合成的な視覚幻覚をローカライズするRLプロキシタスクである。
ViCrit Taskでトレーニングされたモデルは、さまざまなビジョン言語モデルベンチマークで大幅に向上している。
論文 参考訳(メタデータ) (2025-06-11T19:16:54Z) - Do we Really Need Visual Instructions? Towards Visual Instruction-Free Fine-tuning for Large Vision-Language Models [127.38740043393527]
LVLMのための視覚的命令なし微調整フレームワークであるViFTを提案する。
我々は、タスク解決能力と視覚知覚能力を個別に学習するために、トレーニング中にテキストのみの指示と画像キャプションデータのみを必要とする。
実験結果から,VFTはいくつかの視覚的推論と,それに続く視覚的指示に対して,最先端の性能を達成できることが示された。
論文 参考訳(メタデータ) (2025-02-17T04:38:12Z) - Looking Beyond Text: Reducing Language bias in Large Vision-Language Models via Multimodal Dual-Attention and Soft-Image Guidance [67.26434607115392]
大規模視覚言語モデル(LVLM)は様々な視覚言語タスクにおいて印象的な成果を上げている。
LVLMは言語バイアスによる幻覚に悩まされ、画像や非効果的な視覚的理解に焦点が当てられなくなった。
MDA (Multimodal duAl-attention meChanIsm) aNd soft-image Guidance (IFG) を用いたLVLMの言語バイアスに対処するためのLACingを提案する。
論文 参考訳(メタデータ) (2024-11-21T16:33:30Z) - TWIST & SCOUT: Grounding Multimodal LLM-Experts by Forget-Free Tuning [54.033346088090674]
TWIST と SCOUT は,事前学習したMLLM に視覚的接地能力を持たせるフレームワークである。
モデルを効果的に微調整するために,SCOUTと呼ばれる高品質な合成データセットを生成する。
このデータセットは、ステップバイステップのマルチモーダル推論プロセスを記述する、豊富な監視信号を提供する。
論文 参考訳(メタデータ) (2024-10-14T13:35:47Z) - What Makes for Good Visual Tokenizers for Large Language Models? [26.488269091290597]
優れた視覚的トークン化を実現するための適切な事前学習手法について検討し,LLM(Large Language Models)とMLLM(Multimodal Large Language Models)について検討した。
支配的手法(DeiT, CLIP, MAE, DINO)で事前訓練した視覚トークン化剤について検討する。
GVT(Good Visual Tokenizer)を備えたMLLMは,複数スケールで強力な視覚理解能力を示す。
論文 参考訳(メタデータ) (2023-05-20T16:11:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。