論文の概要: Instruction Tuning with Human Curriculum
- arxiv url: http://arxiv.org/abs/2310.09518v4
- Date: Sun, 16 Jun 2024 22:46:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 12:30:40.020437
- Title: Instruction Tuning with Human Curriculum
- Title(参考訳): 人間カリキュラムによる授業チューニング
- Authors: Bruce W. Lee, Hyunsoo Cho, Kang Min Yoo,
- Abstract要約: 本稿では,カリキュラム・インストラクション・チューニングについて紹介する。(2)多様なカリキュラム戦略を採用することの潜在的な利点を探求し,(3)合成命令・レスポンス・ジェネレーション・フレームワークを規定する。
我々の生成パイプラインは、人間の学習の逐次的かつ秩序的な特性をエミュレートするために体系的に構成されている。
本稿では,人間教育の様々な段階にまたがる,命令応答型データセットを生成する手法について述べる。
- 参考スコア(独自算出の注目度): 15.025867460765559
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we (1) introduce Curriculum Instruction Tuning, (2) explore the potential advantages of employing diverse curriculum strategies, and (3) delineate a synthetic instruction-response generation framework that complements our theoretical approach. Distinct from the existing instruction tuning dataset, our generation pipeline is systematically structured to emulate the sequential and orderly characteristic of human learning. Additionally, we describe a methodology for generating instruction-response datasets that extensively span the various stages of human education, from middle school through the graduate level, utilizing educational subject catalogs. Before training, we meticulously organize the instruction data to ensure that questions escalate in difficulty regarding (A) the subject matter and (B) the intricacy of the instructions. The findings of our study reveal that substantial improvements in performance can be achieved through the mere application of curriculum ordering to instruction data (achieving gains of +4.76 on TruthfulQA, +2.98 on MMLU, +2.8 on OpenbookQA, and +1.28 on ARC-hard) compared to random shuffling. This enhancement is achieved without incurring additional computational expenses. Through comprehensive experimentation, we observe that the advantages of our proposed method are consistently evident across nine benchmarks.
- Abstract(参考訳): 本研究は,(1)カリキュラム指導チューニングの導入,(2)多様なカリキュラム戦略を採用する可能性を探る,(3)我々の理論的アプローチを補完する合成命令応答生成フレームワークについて述べる。
既存のインストラクションチューニングデータセットとは違い,我々の生成パイプラインは,人間の学習の逐次的かつ秩序的な特徴をエミュレートするために,体系的に構成されている。
さらに,中学校から大学院まで,教育対象のカタログを利用して,幅広い教育段階にまたがる指導応答データセットを生成する手法について述べる。
トレーニングの前には,質問が(A)対象事項と(B)指示の複雑度に関して困難にエスカレートすることを保証するために,指示データを慎重に整理する。
本研究の結果から,授業データへのカリキュラム命令の適用(TruthfulQAでは+4.76,MMLUでは+2.98,OpenbookQAでは+2.8,ARC-hardでは+1.28)により,大幅な性能向上が達成できることがわかった。
この強化は、追加の計算費用を発生させることなく達成される。
総合的な実験により,提案手法の利点は9つのベンチマークにおいて一貫して明らかであることがわかった。
関連論文リスト
- CorDA: Context-Oriented Decomposition Adaptation of Large Language Models [101.81127587760831]
現在のパラメータ効率の高い微調整手法は、学習すべき下流タスクのコンテキストや維持すべき重要な知識のコンテキストを考慮せずに、アダプタを構築する。
我々は、下流タスクや世界知識のコンテキストを指向した重み分解から学習可能なアダプタを構築するコンテキスト指向の分解適応手法であるCorDAを提案する。
我々の知識保存適応は、微調整作業においてLoRAよりも優れた性能を達成するだけでなく、世界の知識の分解を軽減します。
論文 参考訳(メタデータ) (2024-06-07T19:10:35Z) - Instruction Tuning With Loss Over Instructions [42.9106826952674]
インストラクション・モデリング(IM)は、出力部のみではなく、インストラクションとプロンプト部に損失関数を適用してLMを訓練する。
多くのシナリオにおいて、IMはNLPタスクとオープン・エンド・ジェネレーション・ベンチマークの両方でのLM性能を効果的に改善できることを示す。
論文 参考訳(メタデータ) (2024-05-23T10:12:03Z) - SmurfCat at SemEval-2024 Task 6: Leveraging Synthetic Data for Hallucination Detection [51.99159169107426]
本稿では,SemEval-2024幻覚検出タスクのための新しいシステムを提案する。
我々の調査は、モデル予測と基準基準を比較するための様々な戦略にまたがっている。
強力なパフォーマンス指標を示す3つの異なる方法を紹介します。
論文 参考訳(メタデータ) (2024-04-09T09:03:44Z) - One-Shot Learning as Instruction Data Prospector for Large Language Models [108.81681547472138]
textscNuggetsはワンショット学習を使用して、広範なデータセットから高品質な命令データを選択する。
我々は,textscNuggets がキュレートした例の上位1%による命令チューニングが,データセット全体を用いた従来の手法よりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-12-16T03:33:12Z) - Hierarchical Decomposition of Prompt-Based Continual Learning:
Rethinking Obscured Sub-optimality [55.88910947643436]
大量のラベルのないデータを実際に扱うためには、自己教師付き事前トレーニングが不可欠である。
HiDe-Promptは、タスク固有のプロンプトと統計のアンサンブルで階層的なコンポーネントを明示的に最適化する革新的なアプローチである。
実験では,HiDe-Promptの優れた性能と,継続学習における事前学習パラダイムへの頑健さを実証した。
論文 参考訳(メタデータ) (2023-10-11T06:51:46Z) - CITING: Large Language Models Create Curriculum for Instruction Tuning [35.66902011221179]
我々は、AIモデルを人間の代わりに活用して、学生のLLMを訓練するアイデアを生かしている。
本手法は, 教師が提示したリビジョンから, 筆跡を追従し, 書字スキルを磨く方法に着想を得たものである。
論文 参考訳(メタデータ) (2023-10-04T01:58:34Z) - Learning Action Conditions from Instructional Manuals for Instruction Understanding [48.52663250368341]
本稿では,行動条件推論というタスクを提案し,命令マニュアルにおける行動条件の事前条件と後条件の高品質なアノテートデータセットを収集する。
本稿では,オンライン指導マニュアルから大規模トレーニングインスタンスを自動構築する弱い教師付きアプローチを提案し,人間に注釈を付けて検証したデータセットをキュレートし,現在のNLPモデルが命令テキストの動作条件依存性をいかに推測できるかを検証した。
論文 参考訳(メタデータ) (2022-05-25T00:19:59Z) - The Sample Complexity of Teaching-by-Reinforcement on Q-Learning [40.37954633873304]
本研究は,TDim (Teaching dimension) と称される授業の複雑さを,TDim(Teaching dimension,TDim,TDim,TDim,TDim,TDim,TDim,TDim,TDim,TDim,TDim,TDim,TDim,TDim,TDim,TDim,TDim,TDim,TDim, TDim,TDim,TDim,TDim,TDim,TDim,TDim,TDim)
本稿では,TDimを,環境に対する制御能力の異なる教師によって特徴付ける,強化学習アルゴリズム,Q-ラーニング,TDimの特定のファミリーに焦点をあてる。
TDimの結果は、強化学習に必要なサンプルの最小数を提供し、標準的なPACスタイルのRLサンプルの複雑さと、実演によるサンプルの複雑さとを関連づける。
論文 参考訳(メタデータ) (2020-06-16T17:06:04Z) - Hierarchical Variational Imitation Learning of Control Programs [131.7671843857375]
パラメータ化された階層的手順(PHP)で表される制御ポリシーの模倣学習のための変分推論手法を提案する。
本手法は, 教師による実演の観察・行動トレースのデータセットにおける階層構造を, 手続き呼び出しや用語の待ち行列に近似した後続分布を学習することによって発見する。
階層的模倣学習(hierarchical mimicion learning)の文脈における変分推論の新たな利点を実証する。
論文 参考訳(メタデータ) (2019-12-29T08:57:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。