Fugu-MT 論文翻訳(概要): TPD: Enhancing Student Language Model Reasoning via Principle Discovery and Guidance

論文の概要: TPD: Enhancing Student Language Model Reasoning via Principle Discovery and Guidance

arxiv url: http://arxiv.org/abs/2401.13849v1
Date: Wed, 24 Jan 2024 23:11:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-26 16:11:52.825636
Title: TPD: Enhancing Student Language Model Reasoning via Principle Discovery and Guidance
Title（参考訳）: TPD:原則発見と指導による学生言語モデル推論の強化
Authors: Haorui Wang (1), Rongzhi Zhang (1), Yinghao Li (1), Lingkai Kong (1), Yuchen Zhuang (1), Xiusi Chen (2), Chao Zhang (1) ((1) College of Computing, Georgia Institute of Technology, (2) Department of Computer Science, University of California, Los Angeles)
Abstract要約: 原則発見による指導(TPD)と呼ばれる原則に基づく教員教育の枠組みを導入する。人間の学習メカニズムにインスパイアされたPDは、原則に基づくアプローチを用いて教師と学生の相互作用を模倣する。 TPDは学生モデルの性能を著しく改善し、平均6.2%の利益を得た。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) have recently showcased remarkable reasoning abilities. However, larger models often surpass their smaller counterparts in reasoning tasks, posing the challenge of effectively transferring these capabilities from larger models. Existing approaches heavily rely on extensive fine-tuning data or continuous interactions with a superior teacher LLM during inference. We introduce a principle-based teacher-student framework called ``Teaching via Principle Discovery'' (TPD) to address these limitations. Inspired by human learning mechanisms, TPD mimics the interaction between a teacher and a student using a principle-based approach. The teacher LLM generates problem-solving instructions and corrective principles based on the student LLM's errors. These principles guide the refinement of instructions and the selection of instructive examples from a validation set. This enables the student model to learn from both the teacher's guidance and its own mistakes. Once the student model begins making inferences, TPD requires no further intervention from the teacher LLM or humans. Through extensive experiments across eight reasoning tasks, we demonstrate the effectiveness of TPD. Compared to standard chain-of-thought prompting, TPD significantly improves the student model's performance, achieving $6.2\%$ improvement on average.
Abstract（参考訳）: 大規模言語モデル(LLM)は、最近顕著な推論能力を示した。しかし、より大きなモデルは、推論タスクにおいて、より小さなモデルを上回ることが多く、より大きいモデルから効果的にこれらの能力を引き継ぐことの難題となった。既存のアプローチは、推論中に優れた教師 LLM との広範な微調整データや連続的な相互作用に大きく依存している。本稿では,これらの制約に対処するため,原則に基づく「原則発見による授業」という原則に基づく学習フレームワークを導入する。人間の学習メカニズムにインスパイアされたPDは、原則に基づくアプローチを用いて教師と学生の相互作用を模倣する。教師LLMは、学生LLMの誤りに基づいて問題解決指導と修正原則を生成する。これらの原則は、指示の洗練と検証セットからの指示例の選択を導く。これにより、生徒モデルは教師の指導と自身の誤りの両方から学ぶことができる。学生モデルが推論を開始すると、PDは教師のLSMや人間からのさらなる介入を必要としない。 8つの推論タスクにわたる広範囲な実験を通じて,tpdの有効性を実証する。通常のチェーン・オブ・マインド・プロンプトと比較すると、tpdは学生モデルの成績を大幅に改善し、平均で6.2\%$の改善を達成した。

関連論文リスト

From Problem-Solving to Teaching Problem-Solving: Aligning LLMs with Pedagogy using Reinforcement Learning [76.09281171131941]
大規模言語モデル(LLM)は教育を変換することができるが、直接質問応答のための最適化はしばしば効果的な教育を損なう。オンライン強化学習(RL)に基づくアライメントフレームワークを提案する。
論文参考訳（メタデータ） (2025-05-21T15:00:07Z)
The Inherent Limits of Pretrained LLMs: The Unexpected Convergence of Instruction Tuning and In-Context Learning Capabilities [51.594836904623534]
本研究は,インコンテキストの例を用いて誘導されるベースモデルと,命令調整モデルが根本的に異なる機能を持つかどうかを考察する。命令調整モデルの性能は,基本モデルのコンテキスト内性能と大きく相関していることを示す。具体的には、この理解を命令付きモデルに拡張し、事前学習データも同様に、解決可能なタスクの制限境界を設定することを示唆する。
論文参考訳（メタデータ） (2025-01-15T10:57:55Z)
SuperCorrect: Supervising and Correcting Language Models with Error-Driven Insights [89.56181323849512]
より小規模な学生モデルの推論と反映の両方を教師モデルを用いて監督し,修正するフレームワークであるSuperCorrectを提案する。第1段階では、教師モデルから階層的な高レベルかつ詳細な思考テンプレートを抽出し、よりきめ細かい推論思考を導き出す学生モデルを指導する。第2段階では、学生モデルの自己補正能力を高めるために、クロスモデル協調直接選好最適化(DPO)を導入する。
論文参考訳（メタデータ） (2024-10-11T17:25:52Z)
Learning from Committee: Reasoning Distillation from a Mixture of Teachers with Peer-Review [11.756344944226495]
ピアリビュー(FAIR)アプローチによる新しいフォールト・アウェア・ディストイレーション(Fact-Aware DistIllation)を導入する。本手法は,教師から合理性を得るのではなく,教師に生徒の過ちを特定・説明するよう求めている。本手法は,教師が正しい推理を行う確率を低くする。
論文参考訳（メタデータ） (2024-10-04T17:59:41Z)
Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。 OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文参考訳（メタデータ） (2024-09-19T07:05:26Z)
Retrieved In-Context Principles from Previous Mistakes [55.109234526031884]
In-context Learning (ICL) は、入力出力の正しい例を用いて、下流のタスクにLarge Language Models (LLM) を適用するのに役立っている。近年の進歩は、ミスから派生した原則により、モデルパフォーマンスの改善を試みている。本稿では,新しい教師学習フレームワークであるRetrieved In-Context Principles (RICP)を提案する。
論文参考訳（メタデータ） (2024-07-08T07:32:26Z)
PLaD: Preference-based Large Language Model Distillation with Pseudo-Preference Pairs [47.35598271306371]
大きな言語モデル(LLM)は、様々なタスクにおいて印象的な機能を示しているが、その膨大なパラメータサイズは、リソース制約のある設定での適用性を制限している。知識蒸留(KD)は、大規模な教師モデルからコンパクトな学生モデルに専門知識を移すことによって、実行可能なソリューションを提供する。 PLaD は新規な嗜好に基づく LLM 蒸留フレームワークである。
論文参考訳（メタデータ） (2024-06-05T03:08:25Z)
Teacher-Student Training for Debiasing: General Permutation Debiasing for Large Language Models [39.82130327284791]
大規模言語モデル(LLM)は、NLPタスクにおいて、印象的なゼロショット機能と汎用性を実証している。特定のタスクに対して重要な不変性を維持するのに失敗することもある。本稿では, 推定時の非効率性について述べる。
論文参考訳（メタデータ） (2024-03-20T13:38:07Z)
YODA: Teacher-Student Progressive Learning for Language Models [82.0172215948963]
本稿では,教師が指導するプログレッシブ・ラーニング・フレームワークであるYodaを紹介する。モデルファインチューニングの有効性を向上させるために,教師の教育過程をエミュレートする。実験の結果, YODAのデータによるLLaMA2のトレーニングにより, SFTは大幅に向上した。
論文参考訳（メタデータ） (2024-01-28T14:32:15Z)
Distantly-Supervised Named Entity Recognition with Adaptive Teacher Learning and Fine-grained Student Ensemble [56.705249154629264]
NERモデルの堅牢性を改善するために,自己学習型教員学生フレームワークを提案する。本稿では,2つの教員ネットワークからなる適応型教員学習を提案する。微粒な学生アンサンブルは、教師モデルの各フラグメントを、生徒の対応するフラグメントの時間移動平均で更新し、各モデルフラグメントのノイズに対する一貫した予測を強化する。
論文参考訳（メタデータ） (2022-12-13T12:14:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。