論文の概要: Instruction Tuning with Human Curriculum
- arxiv url: http://arxiv.org/abs/2310.09518v1
- Date: Sat, 14 Oct 2023 07:16:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 19:50:37.223943
- Title: Instruction Tuning with Human Curriculum
- Title(参考訳): 人間カリキュラムによる授業チューニング
- Authors: Bruce W. Lee, Hyunsoo Cho, Kang Min Yoo
- Abstract要約: 本稿では,構造化された認知学習アプローチを指導指導に応用する可能性について検討する。
本研究では,人間の教育の進歩的・組織的な性質を模倣した,高度に構造化された合成データセットを提案する。
- 参考スコア(独自算出の注目度): 16.887569210540192
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The dominant paradigm for instruction tuning is the random-shuffled training
of maximally diverse instruction-response pairs. This paper explores the
potential benefits of applying a structured cognitive learning approach to
instruction tuning in contemporary large language models like ChatGPT and
GPT-4. Unlike the previous conventional randomized instruction dataset, we
propose a highly structured synthetic dataset that mimics the progressive and
organized nature of human education. We curate our dataset by aligning it with
educational frameworks, incorporating meta information including its topic and
cognitive rigor level for each sample. Our dataset covers comprehensive
fine-grained topics spanning diverse educational stages (from middle school to
graduate school) with various questions for each topic to enhance conceptual
depth using Bloom's taxonomy-a classification framework distinguishing various
levels of human cognition for each concept. The results demonstrate that this
cognitive rigorous training approach yields significant performance
enhancements - +3.06 on the MMLU benchmark and an additional +1.28 on AI2
Reasoning Challenge (hard set) - compared to conventional randomized training,
all while avoiding additional computational costs. This research highlights the
potential of leveraging human learning principles to enhance the capabilities
of language models in comprehending and responding to complex instructions and
tasks.
- Abstract(参考訳): 命令チューニングの主要なパラダイムは、最大多様な命令応答対のランダムシャッフルトレーニングである。
本稿では,ChatGPT や GPT-4 といった現代大規模言語モデルにおいて,構造化認知学習アプローチを指導指導に応用する可能性について検討する。
従来のランダム化命令データセットとは異なり、人間教育の進歩的かつ組織化された性質を模倣した高度に構造化された合成データセットを提案する。
我々は、データセットを教育フレームワークと整合させて、そのトピックや各サンプルの認知リガーレベルを含むメタ情報を組み込むことで、データセットをキュレートする。
本データセットは, 多様な教育段階(中学校から大学院まで)にまたがる包括的ききめ細かなトピックを網羅し, 概念の認知レベルを識別するブルームの分類体系を用いて, 概念の深度を高めるための様々な質問を行った。
その結果、この認知厳密なトレーニングアプローチは、MMLUベンチマークで+3.06、AI2推論チャレンジ(ハードセット)で+1.28という大幅なパフォーマンス向上をもたらし、計算コストの増大を回避しつつ、従来のランダム化トレーニングと比較した。
本研究は、複雑な指示やタスクの理解・対応において、人間の学習原理を活用して言語モデルの能力を高める可能性を強調する。
関連論文リスト
- SmurfCat at SemEval-2024 Task 6: Leveraging Synthetic Data for Hallucination Detection [51.99159169107426]
本稿では,SemEval-2024幻覚検出タスクのための新しいシステムを提案する。
我々の調査は、モデル予測と基準基準を比較するための様々な戦略にまたがっている。
強力なパフォーマンス指標を示す3つの異なる方法を紹介します。
論文 参考訳(メタデータ) (2024-04-09T09:03:44Z) - One Shot Learning as Instruction Data Prospector for Large Language
Models [111.0897473747819]
Nuggetsは、ワンショット学習を用いて、拡張データセットから高品質な命令データを選択する手法である。
提案手法は,Nuggets が生成した例の上位1%による命令チューニングが,全データセットを使用する従来の手法よりも大幅に優れていたことを実証する。
論文 参考訳(メタデータ) (2023-12-16T03:33:12Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - From Pretext to Purpose: Batch-Adaptive Self-Supervised Learning [32.18543787821028]
本稿では,自己教師付きコントラスト学習におけるバッチ融合の適応的手法を提案する。
公平な比較で最先端のパフォーマンスを達成する。
提案手法は,データ駆動型自己教師型学習研究の進展に寄与する可能性が示唆された。
論文 参考訳(メタデータ) (2023-11-16T15:47:49Z) - Hierarchical Decomposition of Prompt-Based Continual Learning:
Rethinking Obscured Sub-optimality [55.88910947643436]
大量のラベルのないデータを実際に扱うためには、自己教師付き事前トレーニングが不可欠である。
HiDe-Promptは、タスク固有のプロンプトと統計のアンサンブルで階層的なコンポーネントを明示的に最適化する革新的なアプローチである。
実験では,HiDe-Promptの優れた性能と,継続学習における事前学習パラダイムへの頑健さを実証した。
論文 参考訳(メタデータ) (2023-10-11T06:51:46Z) - CITING: Large Language Models Create Curriculum for Instruction Tuning [35.66902011221179]
我々は、AIモデルを人間の代わりに活用して、学生のLLMを訓練するアイデアを生かしている。
本手法は, 教師が提示したリビジョンから, 筆跡を追従し, 書字スキルを磨く方法に着想を得たものである。
論文 参考訳(メタデータ) (2023-10-04T01:58:34Z) - Weighted Ensemble Self-Supervised Learning [67.24482854208783]
組み立ては、モデルパフォーマンスを高めるための強力なテクニックであることが証明されている。
我々は,データ依存型重み付きクロスエントロピー損失を許容するフレームワークを開発した。
提案手法は、ImageNet-1K上での複数の評価指標において、両者に優れる。
論文 参考訳(メタデータ) (2022-11-18T02:00:17Z) - Learning Action Conditions from Instructional Manuals for Instruction
Understanding [30.68386372080192]
本稿では,行動条件推論というタスクを提案し,命令マニュアルにおける行動条件の事前条件と後条件の高品質なアノテートデータセットを収集する。
本稿では,オンライン指導マニュアルから大規模トレーニングインスタンスを自動構築する弱い教師付きアプローチを提案し,人間に注釈を付けて検証したデータセットをキュレートし,現在のNLPモデルが命令テキストの動作条件依存性をいかに推測できるかを検証した。
論文 参考訳(メタデータ) (2022-05-25T00:19:59Z) - The Sample Complexity of Teaching-by-Reinforcement on Q-Learning [40.37954633873304]
本研究は,TDim (Teaching dimension) と称される授業の複雑さを,TDim(Teaching dimension,TDim,TDim,TDim,TDim,TDim,TDim,TDim,TDim,TDim,TDim,TDim,TDim,TDim,TDim,TDim,TDim,TDim,TDim, TDim,TDim,TDim,TDim,TDim,TDim,TDim,TDim)
本稿では,TDimを,環境に対する制御能力の異なる教師によって特徴付ける,強化学習アルゴリズム,Q-ラーニング,TDimの特定のファミリーに焦点をあてる。
TDimの結果は、強化学習に必要なサンプルの最小数を提供し、標準的なPACスタイルのRLサンプルの複雑さと、実演によるサンプルの複雑さとを関連づける。
論文 参考訳(メタデータ) (2020-06-16T17:06:04Z) - Hierarchical Variational Imitation Learning of Control Programs [131.7671843857375]
パラメータ化された階層的手順(PHP)で表される制御ポリシーの模倣学習のための変分推論手法を提案する。
本手法は, 教師による実演の観察・行動トレースのデータセットにおける階層構造を, 手続き呼び出しや用語の待ち行列に近似した後続分布を学習することによって発見する。
階層的模倣学習(hierarchical mimicion learning)の文脈における変分推論の新たな利点を実証する。
論文 参考訳(メタデータ) (2019-12-29T08:57:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。