Fugu-MT 論文翻訳(概要): Beyond Single-Sample: Reliable Multi-Sample Distillation for Video Understanding

論文の概要: Beyond Single-Sample: Reliable Multi-Sample Distillation for Video Understanding

arxiv url: http://arxiv.org/abs/2603.11423v1
Date: Thu, 12 Mar 2026 01:30:37 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-13 14:46:25.80477
Title: Beyond Single-Sample: Reliable Multi-Sample Distillation for Video Understanding
Title（参考訳）: シングルサンプルを超えて:ビデオ理解のための信頼性の高いマルチサンプル蒸留
Authors: Songlin Li, Xin Zhu, Zechao Guan, Peipeng Chen, Jian Yao,
Abstract要約: R-MSD(Reliable Multi-Sample Distillation)は、教師によるサンプリングの分散をモデル化し、蒸留安定性を高めるフレームワークである。本手法は, 対向蒸留目標に適合する品質認識信号を統合することにより, 知識伝達を最大化しながら教師の雑音を効果的にフィルタする。
参考スコア（独自算出の注目度）: 6.759788796474815
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Traditional black-box distillation for Large Vision-Language Models (LVLMs) typically relies on a single teacher response per input, which often yields high-variance responses and format inconsistencies in multimodal or temporal scenarios. To mitigate this unreliable supervision, we propose R-MSD (Reliable Multi-Sample Distillation), a framework that explicitly models teacher sampling variance to enhance distillation stability. Rather than relying on a single teacher response, our approach leverages a task-adaptive teacher pool to provide robust supervision tailored to both closed-ended and open-ended reasoning. By integrating quality-aware signal matching with an adversarial distillation objective, our approach effectively filters teacher noise while maximizing knowledge transfer. Extensive evaluations across comprehensive video understanding benchmarks demonstrate that R-MSD consistently outperforms single sample distillation methods. We additionally include an original SFT+RL 4B baseline under the same training budget, which shows only marginal gains, while our method achieves significant improvements. With a 4B student model, our approach delivers gains on VideoMME (+1.5%), Video-MMMU (+3.2%), and MathVerse (+3.6%).
Abstract（参考訳）: LVLM(Large Vision-Language Models)の伝統的なブラックボックス蒸留は、通常、入力毎に単一の教師の応答に依存しており、多変量または時間的シナリオにおいて高い応答とフォーマットの不整合を生じることが多い。この信頼性の低い監視を緩和するために,教師のサンプリング分散を明示的にモデル化し,蒸留安定性を高めるフレームワークであるR-MSD(Reliable Multi-Sample Distillation)を提案する。一つの教師の反応に頼るのではなく、タスク適応型教師プールを利用して、閉鎖的およびオープンな推論の両方に合わせた堅牢な監督を提供する。本手法は, 対向蒸留目標に適合する品質認識信号を統合することにより, 知識伝達を最大化しながら教師の雑音を効果的にフィルタする。包括的ビデオ理解ベンチマークによる広範囲な評価は、R-MSDが単一試料蒸留法より一貫して優れていることを示している。また,SFT+RL 4Bベースラインを同一トレーニング予算に含め,限界利得しか示さない一方で,本手法は大幅な改善を実現している。 4Bの学生モデルで、私たちのアプローチは VideoMME (+1.5%)、 Video-MMMU (+3.2%)、 MathVerse (+3.6%) に利益をもたらす。

関連論文リスト

Distribution-Aligned Sequence Distillation for Superior Long-CoT Reasoning [48.041170200238206]
DASD-4B-Thinkingは軽量で高機能で完全なオープンソース推論モデルである。これは、数学、科学的推論、コード生成の挑戦的なベンチマークにおいて、同等規模のオープンソースのモデル間でSOTA性能を達成する。
論文参考訳（メタデータ） (2026-01-14T02:43:17Z)
AMoE: Agglomerative Mixture-of-Experts Vision Foundation Model [23.785186661138734]
本研究では,視覚基礎モデルの多教師蒸留について検討し,計算コストの低いトレーニングを可能にする重要な要因を同定する。本稿では,SigLIP2 と DINOv3 から知識を同時に抽出する AMOE (Agglomerative Mixture-of-Experts Vision Foundation Models) について紹介する。非対称な関係知識蒸留損失は,教師の幾何学的特性を保ちながら,効果的な知識伝達を可能にしていることを示す。
論文参考訳（メタデータ） (2025-12-23T08:37:11Z)
MMT-ARD: Multimodal Multi-Teacher Adversarial Distillation for Robust Vision-Language Models [123.90007730845876]
MMT-ARD: Multimodal Multi-Teacher Adversarial Distillation frameworkを提案する。私たちの重要なイノベーションは、クリーンな機能の保存と堅牢な機能の強化を協調的に最適化する、デュアルテスタの知識融合アーキテクチャです。 ImageNetとゼロショットベンチマークの実験では、MT-ARDは頑健な精度を+4.32%、ゼロショットの精度を+3.5%改善している。
論文参考訳（メタデータ） (2025-11-21T17:46:44Z)
AdaSwitch: Adaptive Switching Generation for Knowledge Distillation [58.647880811071495]
スモール言語モデル(SLM)は、厳密な待ち時間と計算制約のあるアプリケーションには不可欠である。トークンレベルでのオン・ポリティクスとオフ・ポリティクス・ジェネレーションを組み合わせた新しいアプローチであるAdaSwitchを提案する。 AdaSwitchは一貫して精度を向上し、SLMを蒸留するための実用的で効果的な方法を提供し、追加のオーバーヘッドを許容する。
論文参考訳（メタデータ） (2025-10-09T06:38:37Z)
Adversarial Distribution Matching for Diffusion Distillation Towards Efficient Image and Video Synthesis [65.77083310980896]
本稿では, 実測値と偽測値の間に潜時予測を整列させる適応分布マッチング (ADM) を提案する。提案手法は,DMD2と比較してSDXLの1ステップ性能に優れ,GPU時間が少ない。 SD3-Medium, SD3.5-Large, CogVideoX に多段階の ADM 蒸留を適用した実験では, 画像と映像の効率的な合成に向けた新しいベンチマークが設定された。
論文参考訳（メタデータ） (2025-07-24T16:45:05Z)
TwT: Thinking without Tokens by Habitual Reasoning Distillation with Multi-Teachers' Guidance [32.6122298575412]
多教師指導による常習的推論蒸留による推論時間コスト削減手法TwTを提案する。提案手法は,教師指導型圧縮戦略により,モデルの習慣行動に対する明確な推論を内包する。実験により,TwTは優れた性能を維持しつつ,推論コストを効果的に低減できることが示された。
論文参考訳（メタデータ） (2025-03-31T15:16:31Z)
Distill Not Only Data but Also Rewards: Can Smaller Language Models Surpass Larger Ones? [58.80794196076336]
大型言語モデル(LLM)の蒸留は、教師による微調整(SFT)を通して教師モデルの応答を伝達するのが一般的である。本稿では, 応答と報酬の両方を伝達する新しい蒸留パイプラインを提案する。本手法は,教師と生徒の両方の反応の固有構造を利用した自己教師機構によって擬似回帰を生成する。
論文参考訳（メタデータ） (2025-02-26T20:50:11Z)
VideoAdviser: Video Knowledge Distillation for Multimodal Transfer Learning [6.379202839994046]
マルチモーダル変換学習は、様々なモーダルの事前訓練された表現を、効果的なマルチモーダル融合のための共通の領域空間に変換することを目的としている。本稿では,マルチモーダル基本モデルから特定のモーダル基本モデルへ,マルチモーダルなプロンプトのマルチモーダルな知識を伝達するためのビデオ知識蒸留手法であるVideoAdviserを提案する。本手法は,映像レベルの感情分析と音声視覚検索の2つの課題において評価する。
論文参考訳（メタデータ） (2023-09-27T08:44:04Z)
Hybrid Distillation: Connecting Masked Autoencoders with Contrastive Learners [102.20090188997301]
コントラスト学習(CL)とマスクド画像モデリング(MIM)の強みを組み合わせたモデルを得る方法について検討する。識別と多様性の両立を図るため, 単純かつ効果的なハイブリッド蒸留戦略を提案する。実験の結果、Hybrid Distillは異なるベンチマークで優れた性能が得られることが証明された。
論文参考訳（メタデータ） (2023-06-28T02:19:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。