Fugu-MT 論文翻訳(概要): Learning from Committee: Reasoning Distillation from a Mixture of Teachers with Peer-Review

論文の概要: Learning from Committee: Reasoning Distillation from a Mixture of Teachers with Peer-Review

arxiv url: http://arxiv.org/abs/2410.03663v2
Date: Wed, 16 Oct 2024 01:01:58 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-02 20:48:16.564727
Title: Learning from Committee: Reasoning Distillation from a Mixture of Teachers with Peer-Review
Title（参考訳）: 委員会からの学び : ピアレビューによる教師の混合による蒸留の推論
Authors: Zhuochun Li, Yuelyu Ji, Rui Meng, Daqing He,
Abstract要約: ピアリビュー(FAIR)による新しいフォールト・アウェア蒸留法を提案する。本手法では, 教師から金の合理性を得る代わりに, 生徒の過ちを特定・説明するよう教師に求めている。
参考スコア（独自算出の注目度）: 11.756344944226495
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While reasoning capabilities typically emerge in large language models (LLMs) with tens of billions of parameters, recent research focuses on improving smaller open-source models through knowledge distillation (KD) from commercial LLMs. However, many of these studies rely solely on responses from a single LLM as the gold rationale, unlike the natural human learning process, which involves understanding both the correct answers and the reasons behind mistakes. In this paper, we introduce a novel Fault-Aware Distillation via Peer-Review (FAIR) approach: 1) Instead of merely obtaining gold rationales from teachers, our method asks teachers to identify and explain the student's mistakes, providing customized instruction learning data. 2) We design a simulated peer-review process between teacher LLMs, which selects only the generated rationales above the acceptance threshold. This reduces the chance of teachers guessing correctly with flawed rationale, improving instructional data quality. Comprehensive experiments and analysis on mathematical, commonsense, and logical reasoning tasks demonstrate the effectiveness of our method.
Abstract（参考訳）: 最近の研究は、数十億のパラメータを持つ大規模言語モデル(LLM)に推論能力が現れるのに対して、商業LLMからの知識蒸留(KD)を通じて、より小さなオープンソースモデルを改善することに焦点を当てている。しかしながら、これらの研究の多くは、自然な人間の学習プロセスとは異なり、金の理性として単一のLSMからの反応にのみ依存しており、正しい答えと失敗の背後にある理由の両方を理解する必要がある。本稿では, ピアリビュー(FAIR)による新しいフォールト・アウェア蒸留法を提案する。 1) 教師から金の合理性を得る代わりに, 教師に対して, 生徒の誤りを識別し, 説明するよう求め, カスタマイズした指導学習データを提供する。 2) 教師のLLM間の擬似ピアレビュープロセスを設計し, 受理しきい値以上の有理数のみを選択する。これにより、教師が根拠の欠陥を正しく推測する機会が減り、データ品質が向上する。数学的・常識的・論理的推論タスクに関する総合的な実験と分析は,本手法の有効性を実証する。

関連論文リスト

Distilling the Implicit Multi-Branch Structure in LLMs' Reasoning via Reinforcement Learning [63.888013006686364]
教師による微調整(SFT)による教師から生徒への推論経路の蒸留は、大規模言語モデル(LLM)の推論能力を向上させるショートカットを提供する。 GSRM(Generative Structure Reward Model)による強化学習に基づく蒸留フレームワークRLKDを提案する。 GSRMは、推論パスを複数のメタ推論解決ステップに変換し、報酬を計算して、学生と教師の推論の構造的アライメントを測定する。
論文参考訳（メタデータ） (2025-05-22T02:36:36Z)
UNDO: Understanding Distillation as Optimization [9.100811514331498]
UNDO: Understanding Distillation as Optimization frameworkを紹介します。各イテレーションは、生徒の学習不足を直接対象とし、教師に調整された強化された合理性を提供する動機を与える。様々な数学的・常識的推論タスクに関する実証的な評価は、我々の反復蒸留法UNDOが標準の1段階蒸留法を大幅に上回っていることを示している。
論文参考訳（メタデータ） (2025-04-03T12:18:51Z)
Self-Evolution Knowledge Distillation for LLM-based Machine Translation [36.01859033056453]
我々は、自己進化KDと呼ばれる蒸留戦略を提案する。このアプローチの核心は、教師の分布と基礎的真理の1ホット分布を、事前知識として学生の分布に動的に統合することである。実験の結果,WMT22テストセットでは,4つの翻訳方向の約1.4のSacreBLEU点が平均的に改善されていることがわかった。
論文参考訳（メタデータ） (2024-12-19T12:24:15Z)
Make LLMs better zero-shot reasoners: Structure-orientated autonomous reasoning [52.83539473110143]
本稿では,Large Language Models (LLM) の質問をよりよく理解するための構造指向分析手法を提案する。複雑な質問応答タスクの信頼性をさらに向上するために,多エージェント推論システム,構造指向自律推論エージェント(SARA)を提案する。大規模な実験により,提案システムの有効性が検証された。
論文参考訳（メタデータ） (2024-10-18T05:30:33Z)
LINKED: Eliciting, Filtering and Integrating Knowledge in Large Language Model for Commonsense Reasoning [21.12539851761666]
大規模言語モデル(LLM)は、知識集約的なタスクにおけるパフォーマンスの低下を示すことがある。大規模言語モデル(LINKED)における知識の抽出,フィルタリング,統合という新しい手法を提案する。 2つの複雑なコモンセンス推論ベンチマークに関する総合的な実験により、我々の手法はSOTAベースライン(最大9.0%の精度向上)を上回った。
論文参考訳（メタデータ） (2024-10-12T14:12:22Z)
SuperCorrect: Advancing Small LLM Reasoning with Thought Template Distillation and Self-Correction [89.56181323849512]
SuperCorrectは、大きな教師モデルを使用して、より小さな学生モデルの推論と反映の両方を監督し、修正する新しい2段階のフレームワークである。第1段階では、教師モデルから階層的な高レベルかつ詳細な思考テンプレートを抽出し、よりきめ細かい推論思考を導き出す学生モデルを指導する。第2段階では、学生モデルの自己補正能力を高めるために、クロスモデル協調直接選好最適化(DPO)を導入する。
論文参考訳（メタデータ） (2024-10-11T17:25:52Z)
Stepwise Verification and Remediation of Student Reasoning Errors with Large Language Model Tutors [78.53699244846285]
大規模言語モデル(LLM)は、高品質なパーソナライズされた教育を全員に拡大する機会を提供する。 LLMは、学生のエラーを正確に検知し、これらのエラーに対するフィードバックを調整するのに苦労する。教師が学生の誤りを識別し、それに基づいて回答をカスタマイズする現実世界の教育実践に触発され、我々は学生ソリューションの検証に焦点をあてる。
論文参考訳（メタデータ） (2024-07-12T10:11:40Z)
Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文参考訳（メタデータ） (2024-06-28T20:06:30Z)
QCRD: Quality-guided Contrastive Rationale Distillation for Large Language Models [13.54030164748731]
本稿では,品質誘導型コントラスト的合理的蒸留法を推論能力学習のための一般手法として提案する。肯定的な知識を学習するために、自己整合性を通して有理性を収集し、温度サンプリングによって生成されたLCMの有理性を見極める。負の知識蒸留では、反復前の小さな言語モデル自体の温度サンプリングを用いて負の有理値を生成する。
論文参考訳（メタデータ） (2024-05-14T13:07:10Z)
Beyond Answers: Transferring Reasoning Capabilities to Smaller LLMs Using Multi-Teacher Knowledge Distillation [23.736611338497244]
TinyLLMは、複数の大規模LLMから小学生のLLMを学ぶための新しい知識蒸留パラダイムである。そこで本研究では,文脈的に適切なシナリオにおいて,理科が正確で基礎が整っていることを保証するために,文脈内サンプル生成と教師強制型Chain-of-Thought戦略を導入する。その結果,TinyLLMはモデルサイズがかなり小さいにもかかわらず,大きなLLMよりも優れていた。
論文参考訳（メタデータ） (2024-02-07T06:48:24Z)
Democratizing Reasoning Ability: Tailored Learning from Large Language Model [97.4921006089966]
そこで我々は,そのような推論能力をより小さなLMに蒸留する,適切な学習手法を提案する。対話型多ラウンド学習パラダイムを構築することにより,理科教員としてのLLMの可能性を活用する。より小さなLMの推論可能性を活用するために,学生が自作ミスから学習する動機付けを目的とした自己回帰学習を提案する。
論文参考訳（メタデータ） (2023-10-20T07:50:10Z)
SCOTT: Self-Consistent Chain-of-Thought Distillation [68.40232422158569]
大規模言語モデル(LM)は、チェーン・オブ・シークレット・プロンプトを通じて予測のための自由テキスト論理を生成する。そこで本研究では,教師モデルから,小規模で自己整合的なCoTモデルを学習するための忠実な知識蒸留法を提案する。忠実蒸留を確実にするために,教師生成の合理性を用いて,反実的推論目的の学生LMを学習する。
論文参考訳（メタデータ） (2023-05-03T03:47:00Z)
Unbiased Knowledge Distillation for Recommendation [66.82575287129728]
知識蒸留(KD)は推論遅延を低減するためにレコメンダシステム(RS)に応用されている。従来のソリューションは、まずトレーニングデータから完全な教師モデルを訓練し、その後、その知識を変換して、コンパクトな学生モデルの学習を監督する。このような標準的な蒸留パラダイムは深刻なバイアス問題を引き起こし、蒸留後に人気アイテムがより強く推奨されることになる。
論文参考訳（メタデータ） (2022-11-27T05:14:03Z)
DE-RRD: A Knowledge Distillation Framework for Recommender System [16.62204445256007]
DE-RRDと呼ばれるレコメンダーシステムのためのナレッジ蒸留フレームワークを提案する。これにより,教師モデルにエンコードされた潜在知識や教師の予測から学習モデルを学ぶことができる。実験の結果,DE-RRDは最先端の競争相手よりも優れており,より高速な推論時間で教師モデルに匹敵する,あるいはさらに優れた性能を発揮することがわかった。
論文参考訳（メタデータ） (2020-12-08T11:09:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。