論文の概要: Hide to See: Reasoning-prefix Masking for Visual-anchored Thinking in VLM Distillation
- arxiv url: http://arxiv.org/abs/2605.11651v2
- Date: Wed, 13 May 2026 01:49:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 17:13:58.890414
- Title: Hide to See: Reasoning-prefix Masking for Visual-anchored Thinking in VLM Distillation
- Title(参考訳): 動画で見る「Hide to See」:VLM蒸留における視覚的思考のためのプレフィックス・マスク
- Authors: Seonghoon Yu, Dongjun Nam, Byung-Kwan Lee, Jeany Son,
- Abstract要約: 本稿では,学生に視覚情報に対する思考の定着を促す新しい思考答え蒸留フレームワークを提案する。
蒸留段階では,学生は将来のトークンと有意な推論手段の両方をブロックする有意な推論マスクによって指導される。
実験結果から,本手法は最近のオープンソースのVLM, VLM蒸留, およびマルチモーダル推論ベンチマークにおける自己蒸留法よりも優れていることがわかった。
- 参考スコア(独自算出の注目度): 16.537720911494066
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent think-answer approaches in VLMs, such as Qwen3-VL-Thinking, boost reasoning performance by leveraging intermediate thinking steps before the final answer, but their high computational cost limits real-world deployment. To distill such capabilities into compact think-answer VLMs, a primary objective is to improve the student's ability to utilize visual evidence throughout its reasoning trace. To this end, we introduce a novel think-answer distillation framework that encourages the student to anchor its thinking on visual information by masking the student's salient reasoning prefixes. To compensate for such masked textual cues, the student is encouraged to rely more on visual evidence as an alternative source of information during distillation. Our masking strategies include: 1) token-wise salient reasoning-prefix masking, which masks high-influence reasoning prefixes selectively for each next-token prediction, and 2) self-paced masking budget scheduling, which gradually increases the masking scale according to distillation difficulty, {measured by discrepancy between teacher--student distributions. In the distillation phase, the student is guided by our salient reasoning-prefix mask, which blocks both future tokens and salient reasoning cues, in place of the standard causal mask used for auto-regressive language modeling. Experimental results show that our approach outperforms recent open-source VLMs, VLM distillation, and self-distillation methods on multimodal reasoning benchmarks, while further analyses confirm enhanced visual utilization along the student thinking process.
- Abstract(参考訳): Qwen3-VL-Thinkingのような近年のVLMにおける思考答えアプローチは、最終回答の前に中間的な思考ステップを活用することによって推論性能を向上させるが、計算コストが高いため実世界の展開が制限される。
このような能力をコンパクトなシンク・インサーバーVLM(英語版)に蒸留するために、第一の目的は、学生がその推論トレースを通じて視覚的エビデンスを活用する能力を改善することである。
そこで本研究では,学生が視覚情報に対する思考を抑えるために,学生の有能な推論プレフィックスを隠蔽する新しい思考・回答蒸留フレームワークを提案する。
このようなマスクされたテキストの手がかりを補うために、学生は蒸留中の代替情報源として視覚的証拠に頼ることが奨励されている。
私たちのマスキング戦略は以下のとおりです。
1)次の予測毎に高い影響の推論プレフィックスを選択的にマスキングするトークンワイドな有意な推論-修正マスク
2) 自給式マスキング予算は, 蒸留難度に応じて徐々にマスクの規模を拡大し, 教師と学生の配当の相違によって測定される。
蒸留段階では,自動回帰言語モデリングに使用される標準的な因果マスクの代わりに,将来のトークンと有理推論の両方をブロックする有理推論-修正マスクによって指導される。
実験結果から,近年のオープンソースのVLM, VLM蒸留法, 自己蒸留法, マルチモーダル推論ベンチマークよりも優れており, さらに, 学生の思考過程における視覚的利用が向上していることが確認された。
関連論文リスト
- Mitigating Visual Forgetting via Take-along Visual Conditioning for Multi-modal Long CoT Reasoning [53.790502697674754]
本稿では、画像入力を重要な推論段階に移行する戦略であるTake-Allong Visual Conditioning (TVC)を提案する。
TVCは、推論を通して視覚的なコンポーネントへの注意を維持するのに役立つ。
提案手法は,5つの数学的推論ベンチマークにおいて,最先端の性能を平均で達成する。
論文 参考訳(メタデータ) (2025-03-17T16:45:12Z) - Adapting Vision-Language Model with Fine-grained Semantics for Open-Vocabulary Segmentation [42.020470627552136]
オープン語彙のセグメンテーションは、主にマスク生成ではなく、マスク分類によってボトルネックとなる。
本稿では,この制限に対処するためのFISA法を提案する。
FISAは、視覚符号化プロセスの初期に、この重要な意味情報を明示的に統合することにより、抽出した視覚的特徴をきめ細かな意味認識で強化する。
論文 参考訳(メタデータ) (2024-09-24T17:50:28Z) - Keypoint-based Progressive Chain-of-Thought Distillation for LLMs [46.53906673648466]
思考の連鎖蒸留は、推論能力を大きな言語モデルからより小さな学生モデルに伝達する強力な技術である。
従来の手法では、学生はLLMによって生成されるステップバイステップの合理性を模倣する必要がある。
我々はこれらの問題に対処する統合フレームワークKPODを提案する。
論文 参考訳(メタデータ) (2024-05-25T05:27:38Z) - Hybrid Distillation: Connecting Masked Autoencoders with Contrastive
Learners [102.20090188997301]
コントラスト学習(CL)とマスクド画像モデリング(MIM)の強みを組み合わせたモデルを得る方法について検討する。
識別と多様性の両立を図るため, 単純かつ効果的なハイブリッド蒸留戦略を提案する。
実験の結果、Hybrid Distillは異なるベンチマークで優れた性能が得られることが証明された。
論文 参考訳(メタデータ) (2023-06-28T02:19:35Z) - Hard Patches Mining for Masked Image Modeling [52.46714618641274]
マスク付き画像モデリング(MIM)は、スケーラブルな視覚表現を学習する有望な可能性から、多くの研究の注目を集めている。
我々はMIM事前学習のための新しいフレームワークであるHPM(Hard Patches Mining)を提案する。
論文 参考訳(メタデータ) (2023-04-12T15:38:23Z) - The Role of Masking for Efficient Supervised Knowledge Distillation of Vision Transformers [14.467509261354458]
本稿では,ViT蒸留の監督コストを削減するための簡易な枠組みを開発する。
入力トークンをマスキングすることで、教師のパラメータやアーキテクチャを変更することなく、マスクされたトークンに関連する計算をスキップすることができる。
学生の注意点が最も低いマスキングパッチは極めて有効であり,教師のFLOPの最大50%を学生の精度の低下なしに節約できることがわかった。
論文 参考訳(メタデータ) (2023-02-21T07:48:34Z) - Exploring Target Representations for Masked Autoencoders [78.57196600585462]
目的表現の注意深い選択は、よい表現を学ぶために不要であることを示す。
本研究では,多段階のマスク蒸留パイプラインを提案し,無作為なモデルを教師として利用する。
自己指導型自己指導法を非自明なマージンで上回り, 自己指導型教員(dBOT)によるマスク付き知識蒸留を行う手法を提案する。
論文 参考訳(メタデータ) (2022-09-08T16:55:19Z) - MaskCLIP: Masked Self-Distillation Advances Contrastive Language-Image
Pretraining [138.86293836634323]
MaskCLIPは、新たに提案されたマスク付き自己蒸留をコントラスト言語イメージ事前学習に組み込む。
MaskCLIPは、言語エンコーダの誘導により、線形探索、微調整、ゼロショット性能において優れた結果が得られる。
論文 参考訳(メタデータ) (2022-08-25T17:59:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。