論文の概要: The CoT Collection: Improving Zero-shot and Few-shot Learning of
Language Models via Chain-of-Thought Fine-Tuning
- arxiv url: http://arxiv.org/abs/2305.14045v2
- Date: Sat, 14 Oct 2023 10:46:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 23:19:01.180811
- Title: The CoT Collection: Improving Zero-shot and Few-shot Learning of
Language Models via Chain-of-Thought Fine-Tuning
- Title(参考訳): CoTコレクション:Chain-of-Thoughtファインチューニングによるゼロショット学習とFew-shot学習の改善
- Authors: Seungone Kim, Se June Joo, Doyoung Kim, Joel Jang, Seonghyeon Ye,
Jamin Shin, Minjoon Seo
- Abstract要約: 100B未満のパラメータを持つ言語モデル(LM)は、チェーン・オブ・ソート(CoT)の推論では不十分であることが知られている。
本研究は,CoTの有理量を用いた命令チューニングにより,段階的推論機能を備えた小型LMを実現することを目的とする。
- 参考スコア(独自算出の注目度): 50.75534397373867
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models (LMs) with less than 100B parameters are known to perform
poorly on chain-of-thought (CoT) reasoning in contrast to large LMs when
solving unseen tasks. In this work, we aim to equip smaller LMs with the
step-by-step reasoning capability by instruction tuning with CoT rationales. In
order to achieve this goal, we first introduce a new instruction-tuning dataset
called the CoT Collection, which augments the existing Flan Collection
(including only 9 CoT tasks) with additional 1.84 million rationales across
1,060 tasks. We show that CoT fine-tuning Flan-T5 (3B & 11B) with CoT
Collection enables smaller LMs to have better CoT capabilities on unseen tasks.
On the BIG-Bench-Hard (BBH) benchmark, we report an average improvement of
+4.34% (Flan-T5 3B) and +2.60% (Flan-T5 11B), in terms of zero-shot task
accuracy. Furthermore, we show that instruction tuning with CoT Collection
allows LMs to possess stronger few-shot learning capabilities on 4
domain-specific tasks, resulting in an improvement of +2.24% (Flan-T5 3B) and
+2.37% (Flan-T5 11B), even outperforming ChatGPT utilizing demonstrations until
the max length by a +13.98% margin. Our code, the CoT Collection data, and
model checkpoints are publicly available.
- Abstract(参考訳): 100B未満のパラメータを持つ言語モデル(LM)は、目に見えないタスクを解くときの大きなLMとは対照的に、チェーン・オブ・ソート(CoT)の推論では不十分であることが知られている。
本研究は,CoTの有理量を用いた命令チューニングにより,段階的推論機能を備えた小型LMを実現することを目的とする。
この目標を達成するために、我々はまずCoT Collectionと呼ばれる新しい命令チューニングデータセットを導入しました。これは既存のFlan Collection(9つのCoTタスクを含む)を拡張し、1,060タスクに148万の合理性を追加します。
CoT CollectionによるFlan-T5(3Bと11B)の微調整により,小型のLMが未確認タスクに対してCoT機能を向上できることを示す。
BIG-Bench-Hard (BBH) ベンチマークでは、ゼロショットタスクの精度の観点から、平均的な改善は+4.34%(Flan-T5 3B)と+2.60%(Flan-T5 11B)である。
さらに、CoT Collectionを用いた命令チューニングにより、LMが4つのドメイン固有のタスクに対してより強力な少ショット学習能力を保持できることを示し、その結果、+2.24%(Flan-T5 3B)と+2.37%(Flan-T5 11B)が改善され、さらに、最大長が+13.98%になるまで、ChatGPTよりも優れていた。
私たちのコード、CoT Collectionデータ、モデルチェックポイントが公開されています。
関連論文リスト
- AS-ES Learning: Towards Efficient CoT Learning in Small Models [35.225382243612174]
CoT(Chain-of-Thought)は,大規模言語モデル(LLM)において重要な出現能力として機能する
本稿では,CoT内固有の情報を反復生成に活用したAS-ES学習手法を提案する。
実験により,データ拡張やモデル自体の変更を伴わずに,MWPやPET要約などのCoT集約タスクにおけるSeq2seqトレーニングを超越した手法が得られた。
論文 参考訳(メタデータ) (2024-03-04T12:13:59Z) - How Do Humans Write Code? Large Models Do It the Same Way Too [14.954886191356342]
Program-of-Thought(PoT)は、自然言語ベースのChain-of-Thought(CoT)を、大規模言語モデルにおいて最も一般的な方法として置き換える。
PoTを使用すると、CoTと比較して、不正な公式や欠陥論理などの推論エラーがより多く導入される。
本稿では,PoTとCoTの統合を支援する一連の戦略を活用するHTL(Human-Think Language)を提案する。
論文 参考訳(メタデータ) (2024-02-24T05:40:01Z) - TAT-LLM: A Specialized Language Model for Discrete Reasoning over Tabular and Textual Data [73.29220562541204]
我々は,言語モデル(LLM)の驚くべきパワーを活用して課題を解決することを検討する。
LLaMA2を微調整し,既存のエキスパートアノテートデータセットから自動生成したトレーニングデータを用いてTAT-LLM言語モデルを開発する。
論文 参考訳(メタデータ) (2024-01-24T04:28:50Z) - Fewer is More: Boosting LLM Reasoning with Reinforced Context Pruning [31.110005898556892]
大きな言語モデル(LLM)は印象的な能力を示しているが、それでも数学の推論に苦戦している。
我々はCoT-Influxを提案する。これはCoT学習の境界を押し上げる新しいアプローチである。
CoT-Influxは、CoTの実例と簡潔な例の入力を最大化するために粗いプルーナーを使用する。
論文 参考訳(メタデータ) (2023-12-14T13:03:13Z) - The Flan Collection: Designing Data and Methods for Effective
Instruction Tuning [118.70716915295091]
本研究は,Flan 2022の開発を壊し,一般公開された指導チューニング手法の設計決定について検討する。
タスクバランスやエンリッチメントの手法は見過ごされがちだが、効果的な指導チューニングには不可欠である。
インストラクションチューニングの研究を加速するために、データセット、テンプレート、メソッドのFlan 2022コレクションを公開しています。
論文 参考訳(メタデータ) (2023-01-31T15:03:44Z) - Faithful Chain-of-Thought Reasoning [51.21714389639417]
CoT(Chain-of-Thought)は言語モデル(LM)のパフォーマンスを様々な推論タスクで向上させる。
翻訳と問題解決という2つの段階を含む推論フレームワークであるFithful CoTを提案する。
このことは、推論連鎖が最終回答の忠実な説明を提供することを保証している。
論文 参考訳(メタデータ) (2023-01-31T03:04:26Z) - Scaling Instruction-Finetuned Language Models [126.4789306516927]
命令として表現されたデータセットの集合上での言語モデルの微調整は、モデル性能を改善することが示されている。
命令の微調整により,様々なモデルクラスの性能が劇的に向上することがわかった。
論文 参考訳(メタデータ) (2022-10-20T16:58:32Z) - Finetuned Language Models Are Zero-Shot Learners [67.70352207685558]
命令チューニングは、目に見えないタスクにおけるゼロショット性能を向上することを示す。
137Bパラメータを事前訓練した言語モデルと、自然言語の命令テンプレートを介して言語化された60以上のNLPタスクにチューニングする。
FLANと呼ばれるこの命令調整モデルについて、未知のタスクタイプで評価する。
論文 参考訳(メタデータ) (2021-09-03T17:55:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。