論文の概要: Large Language Models Are Reasoning Teachers
- arxiv url: http://arxiv.org/abs/2212.10071v2
- Date: Tue, 13 Jun 2023 10:55:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-14 18:06:09.361117
- Title: Large Language Models Are Reasoning Teachers
- Title(参考訳): 大規模言語モデルは教師に反する
- Authors: Namgyu Ho, Laura Schmid, and Se-Young Yun
- Abstract要約: ファインチューンCoTは、非常に大きな教師モデルからより小さなモデルへの推論サンプルを生成する方法である。
また,Fin-Tune-CoTは,多くのタスクにおいて,プロンプトベースベースラインや教師モデルよりもはるかに優れた小型モデルにおいて,相当な推論能力を実現する。
- 参考スコア(独自算出の注目度): 9.290757451344673
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent works have shown that chain-of-thought (CoT) prompting can elicit
language models to solve complex reasoning tasks, step-by-step. However,
prompt-based CoT methods are dependent on very large models such as GPT-3 175B
which are prohibitive to deploy at scale. In this paper, we use these large
models as reasoning teachers to enable complex reasoning in smaller models and
reduce model size requirements by several orders of magnitude. We propose
Fine-tune-CoT, a method that generates reasoning samples from very large
teacher models to fine-tune smaller models. We evaluate our method on a wide
range of public models and complex tasks. We find that Fine-tune-CoT enables
substantial reasoning capability in small models, far outperforming
prompt-based baselines and even the teacher model in many tasks. Additionally,
we extend our method by leveraging the teacher model's ability to generate
multiple distinct rationales for each original sample. Enriching the
fine-tuning data with such diverse reasoning results in a substantial
performance boost across datasets, even for very small models. We conduct
ablations and sample studies to understand the emergence of reasoning
capabilities of student models. Our code implementation and data are available
at https://github.com/itsnamgyu/reasoning-teacher.
- Abstract(参考訳): 最近の研究は、チェーン・オブ・シント(CoT)が言語モデルに複雑な推論タスクを段階的に解くことを示唆している。
しかし、プロンプトベースのCoT法は大規模展開を禁止しているGPT-3 175Bのような非常に大きなモデルに依存している。
本稿では,これらの大規模モデルを教員の推論に活用し,小規模モデルにおける複雑な推論を可能にし,モデルサイズ要件を数桁削減する。
超大型教師モデルからファインチューン小型モデルへの推論サンプルを生成するファインチューンCoTを提案する。
提案手法は多種多様な公開モデルと複雑なタスクで評価する。
また,Fin-Tune-CoTは,多くのタスクにおいて,プロンプトベースベースラインや教師モデルよりもはるかに優れた小型モデルにおいて,相当な推論能力を実現する。
さらに,本手法は,原サンプル毎に複数の異なる有理性を生成する教師モデルの能力を活用して拡張する。
このような多様な推論で微調整データを豊かにすることで、非常に小さなモデルであっても、データセット全体のパフォーマンスが大幅に向上する。
学生モデルの推論能力の出現を理解するために,アブレーションやサンプル研究を実施している。
コードの実装とデータはhttps://github.com/itsnamgyu/reasoning-teacherで入手できます。
関連論文リスト
- Brainstorming Brings Power to Large Language Models of Knowledge Reasoning [17.14501985068287]
大規模言語モデル(LLM)は、言語生成、テキスト理解、知識推論において驚くべき能力を示した。
近年の研究では、多モデルコラボレーションの導入により、幅広いタスクにおけるモデルの推論能力が向上している。
本稿では,インプットに基づくマルチモデルブレインストーミングを提案する。ブレインストーミングのためのグループに,複数の推論と再推論のラウンドを組み込んだ結果,コンセンサスな回答が得られた。
論文 参考訳(メタデータ) (2024-06-02T14:47:14Z) - Large Language Model Pruning [0.0]
LLMに特化したモデルプルーニング手法を提案する。
提案手法は深層学習モデルの説明可能性を強調する。
また、大規模モデルにおけるプルーニングと小規模モデルにおけるプルーニングの違いについても検討する。
論文 参考訳(メタデータ) (2024-05-24T18:22:15Z) - Specializing Smaller Language Models towards Multi-Step Reasoning [56.78474185485288]
GPT-3.5 (ge$ 175B) から T5 変種 (le$ 11B) までを蒸留できることを示す。
対象タスクに対するモデルの能力を専門化するモデル特殊化を提案する。
論文 参考訳(メタデータ) (2023-01-30T08:51:19Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - Distilling Reasoning Capabilities into Smaller Language Models [83.66051257039763]
思考の連鎖(CoT)のようなステップバイステップの推論アプローチは、大規模言語モデルにおける推論能力の誘導に非常に効果的であることが証明されている。
しかし、CoTアプローチの成功は基本的にモデルのサイズに結びついており、CoTを機能させるためには数十億のパラメータスケールモデルが必要であることが多い。
本研究では,大規模モデルのCoT推論能力を段階的に活用し,これらの能力をより小さなモデルに蒸留する知識蒸留手法を提案する。
論文 参考訳(メタデータ) (2022-12-01T00:39:56Z) - Exploring Strategies for Generalizable Commonsense Reasoning with
Pre-trained Models [62.28551903638434]
モデルの一般化と精度に及ぼす3つの異なる適応法の影響を計測する。
2つのモデルを用いた実験では、微調整はタスクの内容と構造の両方を学習することで最もうまく機能するが、過度に適合し、新しい答えへの限定的な一般化に苦しむ。
我々は、プレフィックスチューニングのような代替適応手法が同等の精度を持つのを観察するが、解を見落とさずに一般化し、対数分割に対してより堅牢である。
論文 参考訳(メタデータ) (2021-09-07T03:13:06Z) - Reinforced Multi-Teacher Selection for Knowledge Distillation [54.72886763796232]
知識蒸留はモデル圧縮の一般的な方法です。
現在の方法は、蒸留全体の教師モデルに固定重量を割り当てます。
既存のメソッドのほとんどは、すべての教師モデルに等しい重みを割り当てます。
本論文では,学習例の複雑性や生徒モデル能力の違いから,教師モデルとの違いを学習することで,生徒モデルの蒸留性能の向上が期待できることを考察する。
論文 参考訳(メタデータ) (2020-12-11T08:56:39Z) - When Ensembling Smaller Models is More Efficient than Single Large
Models [52.38997176317532]
アンサンブルは高い精度で単一モデルより優れており、計算に要する総FLOPは少ない。
これは、アンサンブルの出力の多様性がより大きなモデルを訓練するよりも効率的であることを示す興味深い観察結果である。
論文 参考訳(メタデータ) (2020-05-01T18:56:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。