論文の概要: Learning from All: Concept Alignment for Autonomous Distillation from Multiple Drifting MLLMs
- arxiv url: http://arxiv.org/abs/2510.04142v1
- Date: Sun, 05 Oct 2025 10:42:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.48733
- Title: Learning from All: Concept Alignment for Autonomous Distillation from Multiple Drifting MLLMs
- Title(参考訳): すべてから学ぶ:多重ドリフトMLLMからの自律蒸留のための概念アライメント
- Authors: Xiaoyu Yang, Jie Lu, En Yu,
- Abstract要約: 本稿では,マルチモーダル大規模言語モデル(MLLM)から抽出する上で,重要かつ過小評価されている課題について述べる。
我々は,概念ドリフトと知識蒸留の理論的関係を開拓し,マルチストリーム推論軌道の次世代予測として,複数のMLLM教師の非定常推論力学を推し進めた。
教師の指導のもと、学生モデルはまず学習し、複数の教師を比較して考えることを好む。
その後、教師のドリフト推論を批判的に反映し、APOを通して概念アライメントを行い、最終的には堅牢で一貫性があり、一般化可能なモデルを生み出す。
- 参考スコア(独自算出の注目度): 21.166882700131293
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper identifies a critical yet underexplored challenge in distilling from multimodal large language models (MLLMs): the reasoning trajectories generated by multiple drifting teachers exhibit concept drift, whereby their reasoning distributions evolve unpredictably and transmit biases to the student model, ultimately compromising its performance. To tackle this issue, we pioneer a theoretical connection between concept drift and knowledge distillation, casting the non-stationary reasoning dynamics from multiple MLLM teachers as next-token prediction of multi-stream reasoning trajectories.Guided by concept drift, we introduce the "learn, compare, critique" paradigm, culminating in autonomous preference optimization (APO). Under the active guidance of the teachers, the student model first learns and self-distils preferred thinking by comparing multiple teachers. It then engages in critical reflection over the drifting inference from teachers, performing concept alignment through APO, ultimately yielding a robust, consistent, and generalizable model.Extensive experiments demonstrate our superior performance of consistency, robustness and generalization within knowledge distillation. Besides, we also contributed a large-scale dataset, CXR-MAX (Multi-teachers Alignment X-rays), comprising 170,982 distilled reasoning trajectories derived from publicly accessible MLLMs based on MIMIC-CXR. Our code and data are public at: https://anonymous.4open.science/r/Autonomous-Distillation/.
- Abstract(参考訳): 本稿では,マルチモーダルな大規模言語モデル (MLLM) から抽出する上で重要な課題として,複数のドリフト教師が生成する推論軌跡が概念ドリフトを示し,それらの推論分布は予測不能に進化し,学生モデルにバイアスを伝達し,最終的にはその性能を損なう。
この問題に対処するために、概念ドリフトと知識蒸留の理論的関係を開拓し、マルチストリーム推論軌道の次世代予測として複数のMLLM教師の非定常推論力学を投入し、概念ドリフトによって「学習、比較、批判」パラダイムを導入し、自律的選好最適化(APO)を達成した。
教師の指導のもと、学生モデルはまず学習し、複数の教師を比較して考えることを好む。
その後、教師のドリフト推論を批判的に反映し、APOを通して概念アライメントを行い、最終的には堅牢で一貫性があり、一般化可能なモデルを生み出します。
また,MIMIC-CXRに基づくMLLMから抽出した170,982個の蒸留推論軌跡を含む大規模データセットCXR-MAX(Multi-Teachers Alignment X-rays)も提供した。
私たちのコードとデータは、https://anonymous.4open.science/r/Autonomous-Distillation/で公開されています。
関連論文リスト
- More Than One Teacher: Adaptive Multi-Guidance Policy Optimization for Diverse Exploration [103.1589018460702]
ガイダンス・オン・デマンド」アプローチは、自己発見の価値を保ちながら探究を広げる。
実験の結果、AMPOは強いベースラインを大幅に上回ることが示された。
ピアサイズの4人の教師を用いて、より強力な1人の教師を活用できる手法に匹敵する結果が得られる。
論文 参考訳(メタデータ) (2025-10-02T17:14:00Z) - ReaLM: Reflection-Enhanced Autonomous Reasoning with Small Language Models [76.28894983518164]
小型言語モデル (SLM) は大規模言語モデル (LLM) に代わる費用対効果がある。
彼らはしばしば、限られた能力と間違いや一貫性のない答えを生み出す傾向があるため、複雑な推論に苦しむ。
本稿では、垂直領域における堅牢かつ自己充足的推論のための強化学習フレームワークであるReaLMを紹介する。
論文 参考訳(メタデータ) (2025-08-17T14:50:23Z) - EduFlow: Advancing MLLMs' Problem-Solving Proficiency through Multi-Stage, Multi-Perspective Critique [10.26163930911606]
教育科学的推論の完全なパイプラインをカバーする最初のエンドツーエンドフレームワークであるEduFlowを紹介します。
コアとなるEduPRMは、プロセス認識の報酬モデルで、タグと正当化によって推論ステップを批判する。
本稿では,ドメイン適応型検索フレームワークであるEduMCTSを提案する。
論文 参考訳(メタデータ) (2025-07-12T18:44:32Z) - Brewing Knowledge in Context: Distillation Perspectives on In-Context Learning [2.6129523822281415]
In-context Learning (ICL) は、大きな言語モデルでウェイトアップなしで新しいタスクを解くことができる。
実証的な成功にもかかわらず、ICLのメカニズムはいまだに理解されていない。
本稿では,ICLを知識蒸留の暗黙の形式として解釈する新たな理論的視点を提案する。
論文 参考訳(メタデータ) (2025-06-13T07:17:41Z) - Learning from Committee: Reasoning Distillation from a Mixture of Teachers with Peer-Review [11.756344944226495]
ピアリビュー(FAIR)アプローチによる新しいフォールト・アウェア・ディストイレーション(Fact-Aware DistIllation)を導入する。
本手法は,教師から合理性を得るのではなく,教師に生徒の過ちを特定・説明するよう求めている。
本手法は,教師が正しい推理を行う確率を低くする。
論文 参考訳(メタデータ) (2024-10-04T17:59:41Z) - MinT: Boosting Generalization in Mathematical Reasoning via Multi-View
Fine-Tuning [53.90744622542961]
数学領域における推論は、小言語モデル(LM)にとって重要な課題である。
多様なアノテーションスタイルで既存の数学的問題データセットを利用する新しい手法を提案する。
実験結果から,LLaMA-7Bモデルが先行手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-07-16T05:41:53Z) - Hybrid Distillation: Connecting Masked Autoencoders with Contrastive
Learners [102.20090188997301]
コントラスト学習(CL)とマスクド画像モデリング(MIM)の強みを組み合わせたモデルを得る方法について検討する。
識別と多様性の両立を図るため, 単純かつ効果的なハイブリッド蒸留戦略を提案する。
実験の結果、Hybrid Distillは異なるベンチマークで優れた性能が得られることが証明された。
論文 参考訳(メタデータ) (2023-06-28T02:19:35Z) - SCOTT: Self-Consistent Chain-of-Thought Distillation [68.40232422158569]
大規模言語モデル(LM)は、チェーン・オブ・シークレット・プロンプトを通じて予測のための自由テキスト論理を生成する。
そこで本研究では,教師モデルから,小規模で自己整合的なCoTモデルを学習するための忠実な知識蒸留法を提案する。
忠実蒸留を確実にするために,教師生成の合理性を用いて,反実的推論目的の学生LMを学習する。
論文 参考訳(メタデータ) (2023-05-03T03:47:00Z) - Self-Supervised Monocular Depth Estimation with Self-Reference
Distillation and Disparity Offset Refinement [15.012694052674899]
自己教師付き単分子深度推定を改善するための2つの新しいアイデアを提案する。
我々は,教師が訓練の時期に合わせて更新したパラメータ最適化モデルを用いて,さらなる指導を行う。
我々は,高次特徴量と低次特徴量とのコンテキスト整合性を利用して,マルチスケールの相違オフセットを得る。
論文 参考訳(メタデータ) (2023-02-20T06:28:52Z) - EmbedDistill: A Geometric Knowledge Distillation for Information
Retrieval [83.79667141681418]
大規模なニューラルモデル(トランスフォーマーなど)は、情報検索(IR)のための最先端のパフォーマンスを達成する
本研究では,大規模教師モデルで学習したクエリとドキュメント間の相対的幾何を利用した新しい蒸留手法を提案する。
提案手法は, 両エンコーダ (DE) とクロスエンコーダ (CE) の2種類の教師モデルから, 95~97%の教師性能を維持できる1/10の非対称な学生への蒸留に成功した。
論文 参考訳(メタデータ) (2023-01-27T22:04:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。