論文の概要: Large Language Models Are Reasoning Teachers
- arxiv url: http://arxiv.org/abs/2212.10071v1
- Date: Tue, 20 Dec 2022 08:24:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 13:35:46.786494
- Title: Large Language Models Are Reasoning Teachers
- Title(参考訳): 大規模言語モデルは教師に反する
- Authors: Namgyu Ho, Laura Schmid, and Se-Young Yun
- Abstract要約: ファインチューンCoTは、非常に大きなLMの能力を利用して推論サンプルを生成し、より小さなモデルを微調整で教える手法である。
また,Fin-Tune-CoTは小型モデルでかなりの推理能力を実現するが,従来のプロンプトベースラインではほぼランダムな性能を示した。
- 参考スコア(独自算出の注目度): 9.290757451344673
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language models (LMs) have demonstrated remarkable performance on downstream
tasks, using in-context exemplars or human instructions. Recent works have
shown that chain-of-thought (CoT) prompting can elicit models to solve complex
reasoning tasks, step-by-step. However, the efficacy of prompt-based CoT
methods is restricted to very large LMs such as GPT-3 (175B), thus limiting
deployability. In this paper, we revisit the fine-tuning approach to enable
complex reasoning in smaller LMs, optimized to efficiently perform a specific
task. We propose Fine-tune-CoT, a method that leverages the capabilities of
very large LMs to generate reasoning samples and teach smaller models via
fine-tuning. We evaluate our method on publicly available LMs across a wide
range of complex tasks and model sizes. We find that Fine-tune-CoT enables
substantial reasoning capability in small models, whereas previous prompt-based
baselines exhibit near-random performance. Student models can even outperform
the teacher in some tasks while reducing model size requirements by several
orders of magnitude. We conduct extensive ablations and sample studies to
understand the reasoning capabilities of student models. We also identify
several important nuances that have been overlooked in concurrent fine-tuning
works on CoT and address them in our analysis.
- Abstract(参考訳): 言語モデル(LM)は、インコンテキストの例証や人間の指示を用いて、下流のタスクで顕著なパフォーマンスを示した。
近年の研究では、チェーン・オブ・シント(CoT)が複雑な推論タスクを段階的に解くためにモデルを引き出すことが示されている。
しかしながら、プロンプトベースのCoT法の有効性は、GPT-3 (175B) のような非常に大きなLMに制限されるため、デプロイ性が制限される。
本稿では,特定のタスクを効率的に実行するために最適化された,より小さなLMにおける複雑な推論を可能にするための微調整手法を再検討する。
本研究では、非常に大きなLMの能力を利用して推論サンプルを生成し、より小さなモデルを微調整で教えるファインチューンCoTを提案する。
本手法は,多種多様な複雑なタスクとモデルサイズで利用可能なLMに対して評価する。
また,Fin-Tune-CoTは小型モデルでかなりの推理能力を実現するが,従来のプロンプトベースラインではほぼランダムな性能を示した。
生徒のモデルは、モデルのサイズ要件を数桁減らしながら、いくつかのタスクで教師を上回ることさえできる。
学生モデルの推論能力を理解するために,広範なアブレーションやサンプル研究を実施している。
また、CoTの微調整作業で見過ごされてきたいくつかの重要なニュアンスを特定し、分析でそれらに対処する。
関連論文リスト
- Brainstorming Brings Power to Large Language Models of Knowledge Reasoning [17.14501985068287]
大規模言語モデル(LLM)は、言語生成、テキスト理解、知識推論において驚くべき能力を示した。
近年の研究では、多モデルコラボレーションの導入により、幅広いタスクにおけるモデルの推論能力が向上している。
本稿では,インプットに基づくマルチモデルブレインストーミングを提案する。ブレインストーミングのためのグループに,複数の推論と再推論のラウンドを組み込んだ結果,コンセンサスな回答が得られた。
論文 参考訳(メタデータ) (2024-06-02T14:47:14Z) - Large Language Model Pruning [0.0]
LLMに特化したモデルプルーニング手法を提案する。
提案手法は深層学習モデルの説明可能性を強調する。
また、大規模モデルにおけるプルーニングと小規模モデルにおけるプルーニングの違いについても検討する。
論文 参考訳(メタデータ) (2024-05-24T18:22:15Z) - Specializing Smaller Language Models towards Multi-Step Reasoning [56.78474185485288]
GPT-3.5 (ge$ 175B) から T5 変種 (le$ 11B) までを蒸留できることを示す。
対象タスクに対するモデルの能力を専門化するモデル特殊化を提案する。
論文 参考訳(メタデータ) (2023-01-30T08:51:19Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - Distilling Reasoning Capabilities into Smaller Language Models [83.66051257039763]
思考の連鎖(CoT)のようなステップバイステップの推論アプローチは、大規模言語モデルにおける推論能力の誘導に非常に効果的であることが証明されている。
しかし、CoTアプローチの成功は基本的にモデルのサイズに結びついており、CoTを機能させるためには数十億のパラメータスケールモデルが必要であることが多い。
本研究では,大規模モデルのCoT推論能力を段階的に活用し,これらの能力をより小さなモデルに蒸留する知識蒸留手法を提案する。
論文 参考訳(メタデータ) (2022-12-01T00:39:56Z) - Exploring Strategies for Generalizable Commonsense Reasoning with
Pre-trained Models [62.28551903638434]
モデルの一般化と精度に及ぼす3つの異なる適応法の影響を計測する。
2つのモデルを用いた実験では、微調整はタスクの内容と構造の両方を学習することで最もうまく機能するが、過度に適合し、新しい答えへの限定的な一般化に苦しむ。
我々は、プレフィックスチューニングのような代替適応手法が同等の精度を持つのを観察するが、解を見落とさずに一般化し、対数分割に対してより堅牢である。
論文 参考訳(メタデータ) (2021-09-07T03:13:06Z) - Reinforced Multi-Teacher Selection for Knowledge Distillation [54.72886763796232]
知識蒸留はモデル圧縮の一般的な方法です。
現在の方法は、蒸留全体の教師モデルに固定重量を割り当てます。
既存のメソッドのほとんどは、すべての教師モデルに等しい重みを割り当てます。
本論文では,学習例の複雑性や生徒モデル能力の違いから,教師モデルとの違いを学習することで,生徒モデルの蒸留性能の向上が期待できることを考察する。
論文 参考訳(メタデータ) (2020-12-11T08:56:39Z) - When Ensembling Smaller Models is More Efficient than Single Large
Models [52.38997176317532]
アンサンブルは高い精度で単一モデルより優れており、計算に要する総FLOPは少ない。
これは、アンサンブルの出力の多様性がより大きなモデルを訓練するよりも効率的であることを示す興味深い観察結果である。
論文 参考訳(メタデータ) (2020-05-01T18:56:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。