論文の概要: TPD: Enhancing Student Language Model Reasoning via Principle Discovery
and Guidance
- arxiv url: http://arxiv.org/abs/2401.13849v1
- Date: Wed, 24 Jan 2024 23:11:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-26 16:11:52.825636
- Title: TPD: Enhancing Student Language Model Reasoning via Principle Discovery
and Guidance
- Title(参考訳): TPD:原則発見と指導による学生言語モデル推論の強化
- Authors: Haorui Wang (1), Rongzhi Zhang (1), Yinghao Li (1), Lingkai Kong (1),
Yuchen Zhuang (1), Xiusi Chen (2), Chao Zhang (1) ((1) College of Computing,
Georgia Institute of Technology, (2) Department of Computer Science,
University of California, Los Angeles)
- Abstract要約: 原則発見による指導(TPD)と呼ばれる原則に基づく教員教育の枠組みを導入する。
人間の学習メカニズムにインスパイアされたPDは、原則に基づくアプローチを用いて教師と学生の相互作用を模倣する。
TPDは学生モデルの性能を著しく改善し、平均6.2%の利益を得た。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have recently showcased remarkable reasoning
abilities. However, larger models often surpass their smaller counterparts in
reasoning tasks, posing the challenge of effectively transferring these
capabilities from larger models. Existing approaches heavily rely on extensive
fine-tuning data or continuous interactions with a superior teacher LLM during
inference. We introduce a principle-based teacher-student framework called
``Teaching via Principle Discovery'' (TPD) to address these limitations.
Inspired by human learning mechanisms, TPD mimics the interaction between a
teacher and a student using a principle-based approach. The teacher LLM
generates problem-solving instructions and corrective principles based on the
student LLM's errors. These principles guide the refinement of instructions and
the selection of instructive examples from a validation set. This enables the
student model to learn from both the teacher's guidance and its own mistakes.
Once the student model begins making inferences, TPD requires no further
intervention from the teacher LLM or humans. Through extensive experiments
across eight reasoning tasks, we demonstrate the effectiveness of TPD. Compared
to standard chain-of-thought prompting, TPD significantly improves the student
model's performance, achieving $6.2\%$ improvement on average.
- Abstract(参考訳): 大規模言語モデル(LLM)は、最近顕著な推論能力を示した。
しかし、より大きなモデルは、推論タスクにおいて、より小さなモデルを上回ることが多く、より大きいモデルから効果的にこれらの能力を引き継ぐことの難題となった。
既存のアプローチは、推論中に優れた教師 LLM との広範な微調整データや連続的な相互作用に大きく依存している。
本稿では,これらの制約に対処するため,原則に基づく「原則発見による授業」という原則に基づく学習フレームワークを導入する。
人間の学習メカニズムにインスパイアされたPDは、原則に基づくアプローチを用いて教師と学生の相互作用を模倣する。
教師LLMは、学生LLMの誤りに基づいて問題解決指導と修正原則を生成する。
これらの原則は、指示の洗練と検証セットからの指示例の選択を導く。
これにより、生徒モデルは教師の指導と自身の誤りの両方から学ぶことができる。
学生モデルが推論を開始すると、PDは教師のLSMや人間からのさらなる介入を必要としない。
8つの推論タスクにわたる広範囲な実験を通じて,tpdの有効性を実証する。
通常のチェーン・オブ・マインド・プロンプトと比較すると、tpdは学生モデルの成績を大幅に改善し、平均で6.2\%$の改善を達成した。
関連論文リスト
- The Inherent Limits of Pretrained LLMs: The Unexpected Convergence of Instruction Tuning and In-Context Learning Capabilities [51.594836904623534]
本研究は,インコンテキストの例を用いて誘導されるベースモデルと,命令調整モデルが根本的に異なる機能を持つかどうかを考察する。
命令調整モデルの性能は,基本モデルのコンテキスト内性能と大きく相関していることを示す。
具体的には、この理解を命令付きモデルに拡張し、事前学習データも同様に、解決可能なタスクの制限境界を設定することを示唆する。
論文 参考訳(メタデータ) (2025-01-15T10:57:55Z) - SuperCorrect: Supervising and Correcting Language Models with Error-Driven Insights [89.56181323849512]
より小規模な学生モデルの推論と反映の両方を教師モデルを用いて監督し,修正するフレームワークであるSuperCorrectを提案する。
第1段階では、教師モデルから階層的な高レベルかつ詳細な思考テンプレートを抽出し、よりきめ細かい推論思考を導き出す学生モデルを指導する。
第2段階では、学生モデルの自己補正能力を高めるために、クロスモデル協調直接選好最適化(DPO)を導入する。
論文 参考訳(メタデータ) (2024-10-11T17:25:52Z) - Retrieved In-Context Principles from Previous Mistakes [55.109234526031884]
In-context Learning (ICL) は、入力出力の正しい例を用いて、下流のタスクにLarge Language Models (LLM) を適用するのに役立っている。
近年の進歩は、ミスから派生した原則により、モデルパフォーマンスの改善を試みている。
本稿では,新しい教師学習フレームワークであるRetrieved In-Context Principles (RICP)を提案する。
論文 参考訳(メタデータ) (2024-07-08T07:32:26Z) - PLaD: Preference-based Large Language Model Distillation with Pseudo-Preference Pairs [47.35598271306371]
大きな言語モデル(LLM)は、様々なタスクにおいて印象的な機能を示しているが、その膨大なパラメータサイズは、リソース制約のある設定での適用性を制限している。
知識蒸留(KD)は、大規模な教師モデルからコンパクトな学生モデルに専門知識を移すことによって、実行可能なソリューションを提供する。
PLaD は新規な嗜好に基づく LLM 蒸留フレームワークである。
論文 参考訳(メタデータ) (2024-06-05T03:08:25Z) - YODA: Teacher-Student Progressive Learning for Language Models [82.0172215948963]
本稿では,教師が指導するプログレッシブ・ラーニング・フレームワークであるYodaを紹介する。
モデルファインチューニングの有効性を向上させるために,教師の教育過程をエミュレートする。
実験の結果, YODAのデータによるLLaMA2のトレーニングにより, SFTは大幅に向上した。
論文 参考訳(メタデータ) (2024-01-28T14:32:15Z) - Distantly-Supervised Named Entity Recognition with Adaptive Teacher
Learning and Fine-grained Student Ensemble [56.705249154629264]
NERモデルの堅牢性を改善するために,自己学習型教員学生フレームワークを提案する。
本稿では,2つの教員ネットワークからなる適応型教員学習を提案する。
微粒な学生アンサンブルは、教師モデルの各フラグメントを、生徒の対応するフラグメントの時間移動平均で更新し、各モデルフラグメントのノイズに対する一貫した予測を強化する。
論文 参考訳(メタデータ) (2022-12-13T12:14:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。