論文の概要: TED: Training-Free Experience Distillation for Multimodal Reasoning
- arxiv url: http://arxiv.org/abs/2603.26778v1
- Date: Wed, 25 Mar 2026 01:08:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.5983
- Title: TED: Training-Free Experience Distillation for Multimodal Reasoning
- Title(参考訳): TED:マルチモーダル推論のためのトレーニング不要体験蒸留
- Authors: Shuozhi Yuan, Jinqing Wang, Zihao Liu, Miaomiao Yuan, Haoran Peng, Jin Zhao, Bingwen Wang, Haoyi Wang,
- Abstract要約: TEDは、トレーニングなし、文脈ベースの蒸留フレームワークである。
これは、蒸留の更新ターゲットをモデルパラメータから、学生のプロンプトに注入されたコンテキスト内体験にシフトする。
- 参考スコア(独自算出の注目度): 9.796446482217418
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge distillation is typically realized by transferring a teacher model's knowledge into a student's parameters through supervised or reinforcement-based optimization. While effective, such approaches require repeated parameter updates and large-scale training data, limiting their applicability in resource-constrained environments. In this work, we propose TED, a training-free, context-based distillation framework that shifts the update target of distillation from model parameters to an in-context experience injected into the student's prompt. For each input, the student generates multiple reasoning trajectories, while a teacher independently produces its own solution. The teacher then compares the student trajectories with its reasoning and the ground-truth answer, extracting generalized experiences that capture effective reasoning patterns. These experiences are continuously refined and updated over time. A key challenge of context-based distillation is unbounded experience growth and noise accumulation. TED addresses this with an experience compression mechanism that tracks usage statistics and selectively merges, rewrites, or removes low-utility experiences. Experiments on multimodal reasoning benchmarks MathVision and VisualPuzzles show that TED consistently improves performance. On MathVision, TED raises the performance of Qwen3-VL-8B from 0.627 to 0.702, and on VisualPuzzles from 0.517 to 0.561 with just 100 training samples. Under this low-data, no-update setting, TED achieves performance competitive with fully trained parameter-based distillation while reducing training cost by over 5x, demonstrating that meaningful knowledge transfer can be achieved through contextual experience.
- Abstract(参考訳): 知識蒸留は典型的には教師モデルの知識を教師付きまたは強化に基づく最適化を通じて生徒のパラメータに伝達することによって実現される。
有効ではあるが、そのようなアプローチは繰り返しパラメータの更新と大規模なトレーニングデータを必要とし、リソース制約のある環境での適用性を制限する。
本研究では, モデルパラメーターから学生のプロンプトに注入されたコンテキスト内体験へ, 蒸留の更新対象をシフトさせる, 学習自由な文脈ベース蒸留フレームワークであるTEDを提案する。
各入力に対して、生徒は複数の推論軌跡を生成し、教師は独立して独自の解を生成する。
教師は、学生の軌跡を推論と地味な答えと比較し、効果的な推論パターンを捉えた一般的な経験を抽出する。
これらのエクスペリエンスは、時間とともに継続的に洗練され、更新されます。
文脈に基づく蒸留の鍵となる課題は、経験的成長と雑音蓄積である。
TEDは、利用統計を追跡し、低ユーティリティなエクスペリエンスを選択的にマージ、リライト、削除するエクスペリエンス圧縮メカニズムでこの問題に対処する。
マルチモーダル推論ベンチマークの実験 MathVision と VisualPuzzles はTED が一貫してパフォーマンスを改善していることを示している。
MathVisionでは、TEDはQwen3-VL-8Bのパフォーマンスを0.627から0.702に引き上げ、VisualPuzzlesでは0.517から0.561に、トレーニングサンプルは100に留まった。
この低データの非更新設定の下でTEDは、完全に訓練されたパラメータベースの蒸留と競合し、トレーニングコストを5倍以上削減し、文脈経験を通じて有意義な知識伝達が達成できることを実証する。
関連論文リスト
- Scaling Reasoning Efficiently via Relaxed On-Policy Distillation [49.39199261602195]
REOPOLD(Relaxed On-Policy Distillation)は、標準的なオンライン蒸留の厳密な模倣制約を緩和することで最適化を安定化するフレームワークである。
特に、REOPOLDは、混合型報酬クリッピング、エントロピーベースのトークンレベルのダイナミックサンプリング、および統一的な探索・縮小訓練戦略を通じて、教師の報酬を選択的に活用する。
論文 参考訳(メタデータ) (2026-03-11T16:26:52Z) - Distribution-Aligned Sequence Distillation for Superior Long-CoT Reasoning [48.041170200238206]
DASD-4B-Thinkingは軽量で高機能で完全なオープンソース推論モデルである。
これは、数学、科学的推論、コード生成の挑戦的なベンチマークにおいて、同等規模のオープンソースのモデル間でSOTA性能を達成する。
論文 参考訳(メタデータ) (2026-01-14T02:43:17Z) - VITA: Zero-Shot Value Functions via Test-Time Adaptation of Vision-Language Models [49.78447737655287]
VITAはゼロショット値関数学習法であり、テスト時間適応によって両方の能力を増強する。
オフライン強化学習において,VITAのゼロショット値推定が報酬形成に有効であることを示す。
論文 参考訳(メタデータ) (2025-06-11T18:05:33Z) - Learning from Stochastic Teacher Representations Using Student-Guided Knowledge Distillation [64.15918654558816]
教師表現のフィルタリングと重み付けのための自己蒸留(SSD)訓練戦略を導入し,タスク関連表現のみから抽出する。
UCR Archiveのウェアラブル/バイオサインデータセット、HARデータセット、画像分類データセットなどの実世界の感情コンピューティングに関する実験結果は、提案したSSD手法が最先端の手法より優れていることを示している。
論文 参考訳(メタデータ) (2025-04-19T14:08:56Z) - Progressive distillation induces an implicit curriculum [44.528775476168654]
より良い教師は必ずしも良い生徒を産むとは限らない。
この原理を実証的に検証した1つの変種はプログレッシブ蒸留であり、そこで学生は教師の連続した中間チェックポイントから学習する。
スパースパリティをサンドボックスとして使用することにより、暗黙のカリキュラムをプログレッシブ蒸留によって学生の学習を加速させる1つのメカニズムとして認識する。
論文 参考訳(メタデータ) (2024-10-07T19:49:24Z) - Generative Adversarial Simulator [2.3986080077861787]
強化学習における知識蒸留へのシミュレータフリーアプローチを提案する。
重要な課題は、学生に与えられた行動に対応する事例の多様さを学習させることである。
これは教師と学生の政策の間のシミュレータフリーな知識蒸留の初めての実演である。
論文 参考訳(メタデータ) (2020-11-23T15:31:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。