論文の概要: DeltaPrompts: Escaping the Zero-Delta Trap in Multimodal Distillation
- arxiv url: http://arxiv.org/abs/2605.15532v2
- Date: Tue, 19 May 2026 17:39:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:08.370063
- Title: DeltaPrompts: Escaping the Zero-Delta Trap in Multimodal Distillation
- Title(参考訳): DeltaPrompts:マルチモーダル蒸留におけるゼロデルタトラップの回避
- Authors: Jaehun Jung, Hyunwoo Kim, Brandon Cui, Ximing Lu, David Acuna, Prithviraj Ammanabrolu, Yejin Choi,
- Abstract要約: 蒸留により、コンパクトなビジョンランゲージモデル(VLM)が強力な推論能力を得ることができる。
標準チャート/文書推論データセットにおけるプロンプトの最大69%は、事実上ゼロデルタである。
既存のデータセットをシードとして再利用し、学生の障害モードを積極的にターゲットとして、より良いプロンプトを生成するためのステージド合成パイプラインを提案する。
- 参考スコア(独自算出の注目度): 49.98710755440242
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Distillation enables compact Vision-Language Models (VLMs) to obtain strong reasoning capabilities, yet the prompts driving this process are typically chosen via simple heuristics or aggregated from off-the-shelf datasets. We reveal a critical inefficiency in this approach: up to 69% of the prompts in standard chart / document reasoning datasets are effectively zero-delta, meaning the teacher and student already induce the exact same answer distribution. Training on these prompts provides minimal learning signal, causing student improvement to rapidly saturate regardless of data scale. To escape the zero-delta trap, we return to first principles: distillation fundamentally minimizes distributional divergence, and thus a prompt is valuable only if it exposes a functional capability gap between the teacher and student. We quantify this gap through answer divergence ($Δ$), demonstrating that non-zero divergence is critical for effective scaling. Building on this insight, we propose a staged synthesis pipeline that repurposes existing datasets as seeds, actively targeting student failure modes to produce better prompts. The result is DeltaPrompts, a diverse dataset of 200k synthetic, high-divergence reasoning problems. We evaluate DeltaPrompts across three distinct settings: on-policy distillation with the target teacher-student pair, transfer to a novel model family without regenerating the data, and off-policy fine-tuning of a non-reasoning model. Across all scenarios, DeltaPrompts drives substantial gains, yielding up to 15% relative improvement even on top of a highly-optimized reasoning model (e.g., Qwen3-VL-8B-Thinking) -- averaged over 10 benchmarks spanning chart, document and perception-centric reasoning.
- Abstract(参考訳): 蒸留により、コンパクトなビジョンランゲージモデル(VLM)が強力な推論能力を得ることができるが、このプロセスを実行するプロンプトは、通常、単純なヒューリスティックまたは既成のデータセットから選択される。
標準チャート/文書推論データセットにおけるプロンプトの最大69%は事実上ゼロデルタであり、教師と学生が既に全く同じ回答分布を誘導している。
これらのプロンプトをトレーニングすることで、学習信号が最小限に抑えられ、データスケールに関係なく、生徒は急速に飽和する。
蒸留は基本的に分布のばらつきを最小化し、教師と学生の間で機能的能力のギャップを露呈した場合に限って、プロンプトは貴重である。
我々は、解の発散(Δ$)を通じてこのギャップを定量化し、非ゼロ発散が効果的なスケーリングに重要であることを示す。
この知見に基づいて、既存のデータセットをシードとして再利用し、より優れたプロンプトを生成するために、学生の障害モードを積極的にターゲットとした、ステージ化された合成パイプラインを提案する。
その結果、DeltaPromptsは200kの合成高分散推論問題からなる多様なデータセットである。
対象とする教師と学生のペアによるオンライン蒸留、データを再生成することなく新しいモデルファミリへの移行、非合理的モデルの非政治微調整の3つの異なる設定でDeltaPromptsを評価した。
すべてのシナリオにおいて、DeltaPromptsは大幅に向上し、高度に最適化された推論モデル(Qwen3-VL-8B-Thinkingなど)上でも、最大15%の相対的な改善を実現している。
関連論文リスト
- SODA: Semi On-Policy Black-Box Distillation for Large Language Models [19.748920924563546]
大きな言語モデルに対するブラックボックスの知識蒸留は厳密なトレードオフをもたらす。
4つのコンパクトQwen2.5およびLlama-3モデルのセミ評価は、このセミオン政治パラダイムを検証する。
トレーニングを10倍速くし、27%のピークGPUメモリを消費し、対向不安定性を完全に排除しながら、この優れた蒸留品質を実現する。
論文 参考訳(メタデータ) (2026-04-04T21:38:22Z) - Probing to Refine: Reinforcement Distillation of LLMs via Explanatory Inversion [84.20493238687187]
単純な模倣を超えて、より深い概念的理解を具現化する新しい枠組みを導入する。
underlinetextitFirst, to address pattern memorization, Explanatory Inversion (EI) generated target explanatory probes'
underlinetextitSecondは、一般化を改善するために、Explainatory GRPO (texttEXGRPO) は、新しいダイアログ構造ユーティリティーボーナスを用いた強化学習アルゴリズムを使用する。
論文 参考訳(メタデータ) (2026-02-26T23:01:46Z) - Towards Efficient CoT Distillation: Self-Guided Rationale Selector for Better Performance with Fewer Rationales [21.91556878201084]
チェイン・オブ・シント(CoT)蒸留は, より大規模な教師モデルから多段階の推論能力を伝達することにより, 小型言語モデル(SLM)推論を強化することを目的としている。
既存の作業は、主にデータ量に焦点を当てた合理的な品質を過小評価しており、ノイズや誤った情報を学生モデルに転送することができる。
textbfModel-textbfOriented textbfRationale textbfSelection textbfDistillation (MoRSD)を提案する。
論文 参考訳(メタデータ) (2025-09-28T02:09:07Z) - Mitigating Spurious Correlations Between Question and Answer via Chain-of-Thought Correctness Perception Distillation [25.195244084313114]
CoPeD (Chain-of-Thought Correctness Perception Distillation) は,学生モデルの推論品質の向上を目的としている。
CoPeDは学生モデルに対して、正しい合理性に基づいて回答を予測し、誤ったときに修正するよう推奨する。
論文 参考訳(メタデータ) (2025-09-06T05:33:17Z) - The Delta Learning Hypothesis: Preference Tuning on Weak Data can Yield Strong Gains [50.66245575710432]
個々のデータポイントからなるペアの嗜好データにより、個々のデータポイントの強度を超える利得が得られることを示す。
私たちの研究は、モデルが一般的に弱いと考えられるペアデータから驚くほどうまく学習できることを示しています。
論文 参考訳(メタデータ) (2025-07-08T17:14:44Z) - Learning from Stochastic Teacher Representations Using Student-Guided Knowledge Distillation [64.15918654558816]
教師表現のフィルタリングと重み付けのための自己蒸留(SSD)訓練戦略を導入し,タスク関連表現のみから抽出する。
UCR Archiveのウェアラブル/バイオサインデータセット、HARデータセット、画像分類データセットなどの実世界の感情コンピューティングに関する実験結果は、提案したSSD手法が最先端の手法より優れていることを示している。
論文 参考訳(メタデータ) (2025-04-19T14:08:56Z) - Mastering Collaborative Multi-modal Data Selection: A Focus on Informativeness, Uniqueness, and Representativeness [63.484378941471114]
我々は、効果的なデータ選択のために、インフォーマル性、ユニーク性、代表性という3つの重要な原則を活用するコラボレーティブフレームワーク、DataTailorを提案する。
様々なベンチマークの実験により、DataTailorはデータの15%でフルデータの微調整のパフォーマンスの101.3%を達成している。
論文 参考訳(メタデータ) (2024-12-09T08:36:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。