Fugu-MT 論文翻訳(概要): HEED: Density-Weighted Residual Alignment for Hybrid Vision-Language Model Distillation

論文の概要: HEED: Density-Weighted Residual Alignment for Hybrid Vision-Language Model Distillation

arxiv url: http://arxiv.org/abs/2605.17093v1
Date: Sat, 16 May 2026 17:33:24 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-19 23:51:08.348971
Title: HEED: Density-Weighted Residual Alignment for Hybrid Vision-Language Model Distillation
Title（参考訳）: HEED:ハイブリッドビジョンランゲージモデル蒸留のための密度重み付き残留配向
Authors: Yihao Liang, Niraj K. Jha,
Abstract要約: 我々はQwen3-VL-8B-インストラクトを3:1のマンバ-2/アテンションハイブリッドに蒸留する。学生モデルは、MMStar、MMBench、MMMU-Proといったビジュアル推論ベンチマークで教師の2ポイント以内に留まる。学生は依然としてシーンを理解できるが、答えるために必要な細かい文章は失われる。通常のポストトレーニングの後、学生は10ベンチマーク平均で4.12$times$スループットで教師レベルのパフォーマンスに達し、128kコンテキストで68%のメモリ節約を行う。
参考スコア（独自算出の注目度）: 5.501291336853232
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Distilling vision-language models into faster hybrid architectures, such as 3:1 Mamba-2/attention mixes, is now standard practice for making inference efficient. Aggregate benchmarks suggest that this works but they hide selective failures. When we distill Qwen3-VL-8B-Instruct into a 3:1 Mamba-2/attention hybrid, student model stays within 2 points of the teacher across visual reasoning benchmarks like MMStar, MMBench, and MMMU-Pro, while dropping 13 points on optical-character-recognition and document tasks. The student can still understand the scene but loses the fine-grained text needed to answer. We localize much of the failure to a specific kind of position. In a high-resolution image, most patches are sky, wall, or smooth texture, while a small fraction carries text, edges, object boundaries, or other local details. In a token-level diagnostic, the top 10% highest-density patches have 3.6$\times$ larger residual drift than the bottom 10% lowest-density patches and 3.5$\times$ larger teacher-masking answer contribution. Uniform weighting devotes many loss terms to low-information background patches, whereas sparse answer-bearing patches receive no special protection. The required intervention is minimal: we replace uniform residual alignment with density-weighted residual alignment, using patch self-dissimilarity as a training-free proxy for position importance. We call this HEED. Compared with normal end-to-end distillation, HEED increases performance by 8.7 points on OCRBench v2 and 5.13 points on a 10-benchmark average. The gain is realized on different teacher models and hybrid architectures. After standard post-training, the student reaches teacher-level performance on the 10-benchmark average with a 4.12$\times$ throughput and a 68% memory saving at 128k context, with no additional parameters and no inference-time cost.
Abstract（参考訳）: 3:1 Mamba-2/attention mixesなど、視覚言語モデルをより高速なハイブリッドアーキテクチャに拡張することは、推論を効率的にするための標準的なプラクティスとなっている。アグリゲートベンチマークは、これが機能するが、選択的な失敗を隠すことを示唆している。 Qwen3-VL-8B-インストラクトを3:1のマンバ-2/アテンションハイブリッドに蒸留すると、学生モデルはMMStar、MMBench、MMMU-Proといった視覚的推論ベンチマークで教師の2ポイント以内に留まり、光学文字認識と文書タスクの13ポイントを減らした。学生は依然としてシーンを理解できるが、答えるために必要な細かい文章は失われる。私たちはその失敗の多くを特定の位置にローカライズします。高解像度の画像では、ほとんどのパッチは空、壁、スムーズなテクスチャであり、小さな部分ではテキスト、エッジ、オブジェクト境界、その他の局所的な細部を持っている。トークンレベルの診断では、上位10%の高密度パッチは、下位10%の低密度パッチよりも3.6$\times$大きな残留ドリフトを持ち、3.5$\times$大きな教師マスキング回答コントリビューションを持つ。均一重み付けは低情報背景パッチに多くの損失項を割り当てるが、スパースな回答付きパッチは特別な保護を受けない。必要な介入は最小限であり、位置重み付けのための訓練不要のプロキシとしてパッチ自己相似性を用いて、一様残差アライメントを密度重み付き残差アライメントに置き換える。これをHEEDと呼ぶ。通常のエンドツーエンド蒸留と比較して、HEEDはOCRBench v2では8.7ポイント、10ベンチマーク平均では5.13ポイント向上する。利得は、異なる教師モデルとハイブリッドアーキテクチャで実現される。通常のポストトレーニングの後、学生は10ベンチマーク平均で4.12$\times$スループットと128kコンテキストでの68%のメモリ節約で教師レベルのパフォーマンスを達成した。

関連論文リスト

DeltaPrompts: Escaping the Zero-Delta Trap in Multimodal Distillation [49.98710755440242]
蒸留により、コンパクトなビジョンランゲージモデル(VLM)が強力な推論能力を得ることができる。標準チャート/文書推論データセットにおけるプロンプトの最大69%は、事実上ゼロデルタである。既存のデータセットをシードとして再利用し、学生の障害モードを積極的にターゲットとして、より良いプロンプトを生成するためのステージド合成パイプラインを提案する。
論文参考訳（メタデータ） (2026-05-15T02:04:12Z)
TAD: Temporal-Aware Trajectory Self-Distillation for Fast and Accurate Diffusion LLM [18.69783590125584]
拡散大言語モデル(dLLM)は、並列テキスト生成に有望なパラダイムを提供する。彼らは精度のパラレルなトレードオフに直面しており、1フォワード当たりのトークンの増加は世代品質を劣化させることが多い。既存の加速法は精度を犠牲にして速度を上げることが多い。本稿では, 時間認識型自己蒸留フレームワークTADを提案する。
論文参考訳（メタデータ） (2026-05-10T13:38:53Z)
Training a Student Expert via Semi-Supervised Foundation Model Distillation [14.605642634292655]
我々は、事前学習された視覚基盤モデルをコンパクトな専門家に圧縮する半教師付き知識蒸留フレームワークを導入する。この枠組みは,(1)対照校正による自己学習によるVFM(s)のドメイン適応,(2)統合された多目的損失による知識伝達,(3)残留する疑似ラベルバイアスを軽減するための学生の洗練,の3段階に展開する。
論文参考訳（メタデータ） (2026-04-04T19:45:25Z)
Mixture-of-Depths Attention [65.80640499676542]
スケーリングディープは、大規模言語モデル(LLM)のキードライバーである。我々はMix of-Depths attention (MoDA)を紹介する。 MoDAにより、各アテンションヘッドは、現在の層におけるシーケンスKVペアと、前の層からの深さKVペアに出席することができる。
論文参考訳（メタデータ） (2026-03-16T17:59:55Z)
A Boundary-Metric Evaluation Protocol for Whiteboard Stroke Segmentation Under Extreme Imbalance [0.0]
境界対応メトリクスと細いサブセットの株式分析は、損失関数のランク付けと隠されたトレードオフの公開方法を変える。 DeepLabV3-MobileNetV3モデルでは5つの損失がそれぞれ3回トレーニングされ、12のホールドアウトイメージで評価される。オーバーラップベースの損失は、クロスエントロピーでF1を20ポイント以上改善する。
論文参考訳（メタデータ） (2026-02-26T05:16:18Z)
Near-Oracle KV Selection via Pre-hoc Sparsity for Long-Context Inference [54.467557491325046]
本稿では,注意スコアの前にKVエントリを選択し,明示的な精度制御を行うプリホックスパシティ(PrHS)を提案する。 PrHSは検索オーバーヘッドを90%以上削減し、HShareよりも3倍高い精度で検索できる。これはLongBenchの平均劣化率を1%以下に抑え、FLOPを約15%減らし、9.9倍のレイテンシと2.8倍のスループットを得る。
論文参考訳（メタデータ） (2026-02-09T07:05:23Z)
CAST: Contrastive Adaptation and Distillation for Semi-Supervised Instance Segmentation [14.605642634292655]
我々は,限定ラベル付きおよび豊富なラベル付きデータを用いて,事前学習された視覚基盤モデル(VFM)をコンパクトな専門家に圧縮する,半教師付き知識蒸留(SSKD)フレームワークであるCASTを紹介する。 1) 比較校正による自己訓練によるVFM(s)のドメイン適応,(2) 統合された多目的損失による知識伝達,(3) 残留する疑似ラベルバイアスを軽減するための学生の洗練,の3段階に展開する。
論文参考訳（メタデータ） (2025-05-28T02:45:42Z)
Simple yet Effective Semi-supervised Knowledge Distillation from Vision-Language Models via Dual-Head Optimization [47.38380084735716]
大規模な画像テキストペアで事前訓練された視覚教師付きモデル(VLM)は、顕著なゼロ/フェーショット性能を示した。知識蒸留(KD)は、VLM能力を伝達するための自然な枠組みを提供するが、監督と蒸留の損失の間の勾配の衝突に悩まされる。本稿では,異なる信号に対して2つの予測ヘッドを導入するDual-Head Optimization (DHO)を提案する。
論文参考訳（メタデータ） (2025-05-12T15:39:51Z)
A Quadratic Synchronization Rule for Distributed Deep Learning [66.68264684667562]
本研究は、擬似同期規則(QSR)と呼ばれる$H$を決定するための理論基底法を提案する。 ResNet と ViT の実験により、QSR を用いた局所勾配法は、他の同期戦略よりもテスト精度を一貫して向上することが示された。
論文参考訳（メタデータ） (2023-10-22T21:38:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。