論文の概要: Learning from Diverse Reasoning Paths with Routing and Collaboration
- arxiv url: http://arxiv.org/abs/2508.16861v1
- Date: Sat, 23 Aug 2025 01:15:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.220599
- Title: Learning from Diverse Reasoning Paths with Routing and Collaboration
- Title(参考訳): ルーティングと協調による共振経路の学習
- Authors: Zhenyu Lei, Zhen Tan, Song Wang, Yaochen Zhu, Zihan Chen, Yushun Dong, Jundong Li,
- Abstract要約: 経路品質フィルタリング,条件付きルーティング,ピアラーニングを組み合わせたQR-Distill(Quality-filtered Routing with Cooperative Distillation)を提案する。
従来のシングルパス蒸留法やマルチパス蒸留法よりもQR-ディスティルが優れていることを示す実験がある。
- 参考スコア(独自算出の注目度): 65.77515749498575
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Advances in large language models (LLMs) significantly enhance reasoning capabilities but their deployment is restricted in resource-constrained scenarios. Knowledge distillation addresses this by transferring knowledge from powerful teacher models to compact and transparent students. However, effectively capturing the teacher's comprehensive reasoning is challenging due to conventional token-level supervision's limited scope. Using multiple reasoning paths per query alleviates this problem, but treating each path identically is suboptimal as paths vary widely in quality and suitability across tasks and models. We propose Quality-filtered Routing with Cooperative Distillation (QR-Distill), combining path quality filtering, conditional routing, and cooperative peer teaching. First, quality filtering retains only correct reasoning paths scored by an LLM-based evaluation. Second, conditional routing dynamically assigns paths tailored to each student's current learning state. Finally, cooperative peer teaching enables students to mutually distill diverse insights, addressing knowledge gaps and biases toward specific reasoning styles. Experiments demonstrate QR-Distill's superiority over traditional single- and multi-path distillation methods. Ablation studies further highlight the importance of each component including quality filtering, conditional routing, and peer teaching in effective knowledge transfer. Our code is available at https://github.com/LzyFischer/Distill.
- Abstract(参考訳): 大規模言語モデル(LLM)の進歩は推論能力を著しく向上させるが、その展開はリソース制約のあるシナリオに限定されている。
知識蒸留は、強力な教師モデルからコンパクトで透明な学生に知識を移すことによって、この問題に対処する。
しかし,従来のトークンレベルの監督範囲が限定されているため,教師の包括的推論を効果的に把握することは困難である。
クエリ毎の複数の推論パスを使用することでこの問題が軽減されるが、タスクやモデル間でパスの品質や適合性が大きく異なるため、各パスを同一に扱うことが最適以下である。
経路品質フィルタリング,条件付きルーティング,協調的ピア教育を組み合わせたQR-Distill(Quality-filtered Routing with Cooperative Distillation)を提案する。
第一に、LLMに基づく評価によって得られた正しい推論経路のみを品質フィルタリングが保持する。
第二に、条件付きルーティングは、各生徒の現在の学習状態に合わせて、動的に経路を割り当てる。
最後に、協調的なピア教育は、学生が相互に多様な洞察を蒸留し、特定の推論スタイルに対する知識ギャップとバイアスに対処することを可能にする。
従来のシングルパス蒸留法やマルチパス蒸留法よりもQR-ディスティルが優れていることを示す実験がある。
アブレーション研究は、効果的な知識伝達における品質フィルタリング、条件付きルーティング、ピア教育を含む各コンポーネントの重要性をさらに強調する。
私たちのコードはhttps://github.com/LzyFischer/Distill.comから入手可能です。
関連論文リスト
- Cross-View Consistency Regularisation for Knowledge Distillation [13.918476599394603]
この研究は、半教師付き学習のような分野におけるクロスビュー学習の成功に触発されている。
標準ロジット蒸留フレームワークにインテリアビューおよびクロスビューレギュラー化を導入する。
また,教師の蒸留信号の品質向上のために,信頼性に基づくソフトラベルマイニングを実施している。
論文 参考訳(メタデータ) (2024-12-21T05:41:47Z) - Learning from Committee: Reasoning Distillation from a Mixture of Teachers with Peer-Review [11.756344944226495]
ピアリビュー(FAIR)アプローチによる新しいフォールト・アウェア・ディストイレーション(Fact-Aware DistIllation)を導入する。
本手法は,教師から合理性を得るのではなく,教師に生徒の過ちを特定・説明するよう求めている。
本手法は,教師が正しい推理を行う確率を低くする。
論文 参考訳(メタデータ) (2024-10-04T17:59:41Z) - DQ-LoRe: Dual Queries with Low Rank Approximation Re-ranking for
In-Context Learning [66.85379279041128]
そこで本研究では,Dual Queries と Low-rank approximation Re- rank を利用して,文脈内学習のための例を自動選択するフレームワークを提案する。
DQ-LoRe は GPT-4 の自動選択において最先端の手法よりも優れ、92.5% から94.2% まで性能が向上した。
論文 参考訳(メタデータ) (2023-10-04T16:44:37Z) - MDFlow: Unsupervised Optical Flow Learning by Reliable Mutual Knowledge
Distillation [12.249680550252327]
現在のアプローチでは、継続的な自己スーパービジョンの強化正則化項が課せられている。
本稿では,教師と学生のネットワーク間で信頼ある知識を相互に伝達する新たな相互蒸留フレームワークを提案する。
我々のアプローチはMDFlowと呼ばれ、挑戦的なベンチマーク上で最先端のリアルタイム精度と一般化能力を実現する。
論文 参考訳(メタデータ) (2022-11-11T05:56:46Z) - Solving Continuous Control via Q-learning [54.05120662838286]
深いQ-ラーニングの簡単な修正は、アクター批判的手法による問題を大幅に軽減することを示します。
バンバン動作の離散化と値分解、協調マルチエージェント強化学習(MARL)としての単一エージェント制御のフレーミングにより、このシンプルな批判のみのアプローチは、最先端の連続アクター批判法の性能と一致する。
論文 参考訳(メタデータ) (2022-10-22T22:55:50Z) - Distilling Knowledge via Knowledge Review [69.15050871776552]
教師と学生のネットワーク間の接続経路のクロスレベル要因を研究し、その大きな重要性を明らかにします。
知識蒸留において初めて, クロスステージ接続経路が提案されている。
最終的に設計されたネストでコンパクトなフレームワークは、無視できるオーバーヘッドを必要とし、さまざまなタスクで他のメソッドよりも優れています。
論文 参考訳(メタデータ) (2021-04-19T04:36:24Z) - Show, Attend and Distill:Knowledge Distillation via Attention-based
Feature Matching [14.666392130118307]
ほとんどの研究は、教師と学生の中間的な特徴を手動で結び付け、事前に定義されたリンクを通じて知識を伝達する。
リンクを手動で選択することなく,教師のすべての特徴量を利用した効果的かつ効率的な特徴蒸留手法を提案する。
論文 参考訳(メタデータ) (2021-02-05T03:07:57Z) - Differentiable Feature Aggregation Search for Knowledge Distillation [47.94874193183427]
単教師蒸留フレームワークにおける多教師蒸留を模倣する特徴集約について紹介する。
DFAは、ニューラルネットワーク探索においてDARTSによって動機付けられた2段階の微分可能特徴集合探索法である。
実験の結果,DFAはCIFAR-100およびCINIC-10データセットの既存手法よりも優れていた。
論文 参考訳(メタデータ) (2020-08-02T15:42:29Z) - Transfer Heterogeneous Knowledge Among Peer-to-Peer Teammates: A Model
Distillation Approach [55.83558520598304]
本研究は, モデル蒸留により, 複数の学生間で経験と伝達値関数を再利用する新しい手法を提案する。
また、異種知識を活用するための効率的な通信プロトコルの設計方法について述べる。
提案するフレームワークである学習・指導カテゴリー強化は,学習の進捗を安定化・加速する上で有望な性能を示す。
論文 参考訳(メタデータ) (2020-02-06T11:31:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。