論文の概要: TPD: Enhancing Student Language Model Reasoning via Principle Discovery
and Guidance
- arxiv url: http://arxiv.org/abs/2401.13849v1
- Date: Wed, 24 Jan 2024 23:11:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-26 16:11:52.825636
- Title: TPD: Enhancing Student Language Model Reasoning via Principle Discovery
and Guidance
- Title(参考訳): TPD:原則発見と指導による学生言語モデル推論の強化
- Authors: Haorui Wang (1), Rongzhi Zhang (1), Yinghao Li (1), Lingkai Kong (1),
Yuchen Zhuang (1), Xiusi Chen (2), Chao Zhang (1) ((1) College of Computing,
Georgia Institute of Technology, (2) Department of Computer Science,
University of California, Los Angeles)
- Abstract要約: 原則発見による指導(TPD)と呼ばれる原則に基づく教員教育の枠組みを導入する。
人間の学習メカニズムにインスパイアされたPDは、原則に基づくアプローチを用いて教師と学生の相互作用を模倣する。
TPDは学生モデルの性能を著しく改善し、平均6.2%の利益を得た。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have recently showcased remarkable reasoning
abilities. However, larger models often surpass their smaller counterparts in
reasoning tasks, posing the challenge of effectively transferring these
capabilities from larger models. Existing approaches heavily rely on extensive
fine-tuning data or continuous interactions with a superior teacher LLM during
inference. We introduce a principle-based teacher-student framework called
``Teaching via Principle Discovery'' (TPD) to address these limitations.
Inspired by human learning mechanisms, TPD mimics the interaction between a
teacher and a student using a principle-based approach. The teacher LLM
generates problem-solving instructions and corrective principles based on the
student LLM's errors. These principles guide the refinement of instructions and
the selection of instructive examples from a validation set. This enables the
student model to learn from both the teacher's guidance and its own mistakes.
Once the student model begins making inferences, TPD requires no further
intervention from the teacher LLM or humans. Through extensive experiments
across eight reasoning tasks, we demonstrate the effectiveness of TPD. Compared
to standard chain-of-thought prompting, TPD significantly improves the student
model's performance, achieving $6.2\%$ improvement on average.
- Abstract(参考訳): 大規模言語モデル(LLM)は、最近顕著な推論能力を示した。
しかし、より大きなモデルは、推論タスクにおいて、より小さなモデルを上回ることが多く、より大きいモデルから効果的にこれらの能力を引き継ぐことの難題となった。
既存のアプローチは、推論中に優れた教師 LLM との広範な微調整データや連続的な相互作用に大きく依存している。
本稿では,これらの制約に対処するため,原則に基づく「原則発見による授業」という原則に基づく学習フレームワークを導入する。
人間の学習メカニズムにインスパイアされたPDは、原則に基づくアプローチを用いて教師と学生の相互作用を模倣する。
教師LLMは、学生LLMの誤りに基づいて問題解決指導と修正原則を生成する。
これらの原則は、指示の洗練と検証セットからの指示例の選択を導く。
これにより、生徒モデルは教師の指導と自身の誤りの両方から学ぶことができる。
学生モデルが推論を開始すると、PDは教師のLSMや人間からのさらなる介入を必要としない。
8つの推論タスクにわたる広範囲な実験を通じて,tpdの有効性を実証する。
通常のチェーン・オブ・マインド・プロンプトと比較すると、tpdは学生モデルの成績を大幅に改善し、平均で6.2\%$の改善を達成した。
関連論文リスト
- Toward In-Context Teaching: Adapting Examples to Students' Misconceptions [54.82965010592045]
本稿ではAdapTと呼ばれる一連のモデルと評価手法を紹介する。
AToMは、学生の過去の信念を共同で推論し、将来の信念の正しさを最適化する適応教育の新しい確率論的モデルである。
本研究は,適応型学習課題の難しさと,それを解決するための学習適応モデルの可能性を両立させるものである。
論文 参考訳(メタデータ) (2024-05-07T17:05:27Z) - Teacher-Student Training for Debiasing: General Permutation Debiasing for Large Language Models [39.82130327284791]
大規模言語モデル(LLM)は、NLPタスクにおいて、印象的なゼロショット機能と汎用性を実証している。
特定のタスクに対して重要な不変性を維持するのに失敗することもある。
本稿では, 推定時の非効率性について述べる。
論文 参考訳(メタデータ) (2024-03-20T13:38:07Z) - Can Small Language Models be Good Reasoners for Sequential Recommendation? [34.098264212413305]
SLIM (Step-by-step knowLedge dIstillation fraMework for recommendation)
より大規模な教師モデルのためのユーザ行動系列に基づくCoTプロンプトを導入する。
教師モデルによって生成される理論的根拠をラベルとして利用し、下流のより小さな学生モデルを蒸留する。
論文 参考訳(メタデータ) (2024-03-07T06:49:37Z) - YODA: Teacher-Student Progressive Learning for Language Models [82.0172215948963]
本稿では,教師が指導するプログレッシブ・ラーニング・フレームワークであるYodaを紹介する。
モデルファインチューニングの有効性を向上させるために,教師の教育過程をエミュレートする。
実験の結果, YODAのデータによるLLaMA2のトレーニングにより, SFTは大幅に向上した。
論文 参考訳(メタデータ) (2024-01-28T14:32:15Z) - Periodically Exchange Teacher-Student for Source-Free Object Detection [7.222926042027062]
Source-free Object Detection (SFOD) は、ソースドメインデータがない場合に、未ラベルのターゲットドメインデータにソース検出器を適用することを目的としている。
ほとんどのSFOD法は、学生モデルを1つの教師モデルのみで指導する平均教師(MT)フレームワークを用いて、同じ自己学習パラダイムに従っている。
静的教師, 動的教師, 学生モデルからなる複数教師の枠組みを導入する, シンプルながら斬新な手法であるPETS法を提案する。
論文 参考訳(メタデータ) (2023-11-23T11:30:54Z) - Teaching Language Models to Self-Improve through Interactive Demonstrations [83.9421355808174]
大規模言語モデルの自己改善能力は欠如しており、より小さなモデルで学ぶことは困難である。
このような自己改善能力を持つ小型モデルのトレーニングアルゴリズムであるTriPosTを導入する。
我々は,LLaMA-7bの算数および推論タスクの性能を最大7.13%向上させることができることを示す。
論文 参考訳(メタデータ) (2023-10-20T14:11:04Z) - SALMON: Self-Alignment with Instructable Reward Models [80.83323636730341]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。
私たちはDromedary-2という名のAIアシスタントを開発しており、コンテキスト内学習には6つの例と31の人間定義原則しかありません。
論文 参考訳(メタデータ) (2023-10-09T17:56:53Z) - DriveAdapter: Breaking the Coupling Barrier of Perception and Planning
in End-to-End Autonomous Driving [64.57963116462757]
最先端の手法は通常、教師-学生のパラダイムに従う。
学生モデルは、生のセンサーデータのみにアクセスし、教師モデルによって収集されたデータに基づいて行動クローニングを行う。
本稿では,学生(知覚)と教師(計画)モジュール間の機能アライメント目的関数を持つアダプタを用いたDriveAdapterを提案する。
論文 参考訳(メタデータ) (2023-08-01T09:21:53Z) - Distantly-Supervised Named Entity Recognition with Adaptive Teacher
Learning and Fine-grained Student Ensemble [56.705249154629264]
NERモデルの堅牢性を改善するために,自己学習型教員学生フレームワークを提案する。
本稿では,2つの教員ネットワークからなる適応型教員学習を提案する。
微粒な学生アンサンブルは、教師モデルの各フラグメントを、生徒の対応するフラグメントの時間移動平均で更新し、各モデルフラグメントのノイズに対する一貫した予測を強化する。
論文 参考訳(メタデータ) (2022-12-13T12:14:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。