Fugu-MT 論文翻訳(概要): Instruction Tuning with Human Curriculum

論文の概要: Instruction Tuning with Human Curriculum

arxiv url: http://arxiv.org/abs/2310.09518v2
Date: Tue, 13 Feb 2024 18:40:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-14 19:19:52.410869
Title: Instruction Tuning with Human Curriculum
Title（参考訳）: 人間カリキュラムによる授業チューニング
Authors: Bruce W. Lee, Hyunsoo Cho, Kang Min Yoo
Abstract要約: 本研究は,構造化認知学習方法論の統合による指導指導への新たなアプローチを提案する。合成指導データ生成パイプラインには,各指導のトピックや認知的厳密さを詳述したメタデータが組み込まれている。命令チューニング中、質問がより複雑な方法で提示されるように命令をキュレートする。
参考スコア（独自算出の注目度）: 16.887569210540192
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In building instruction-tuned large language models (LLMs), the importance of a deep understanding of human knowledge can be often overlooked by the importance of instruction diversification. This research proposes a novel approach to instruction tuning by integrating a structured cognitive learning methodology that takes inspiration from the systematic progression and cognitively stimulating nature of human education through two key steps. First, our synthetic instruction data generation pipeline, designed with some references to human educational frameworks, is enriched with meta-data detailing topics and cognitive rigor for each instruction. Specifically, our generation framework is infused with questions of varying levels of rigorousness, inspired by Bloom's Taxonomy, a classic educational model for structured curriculum learning. Second, during instruction tuning, we curate instructions such that questions are presented in an increasingly complex manner utilizing the information on question complexity and cognitive rigorousness produced by our data generation pipeline. Our human-inspired curriculum learning yields significant performance enhancements compared to uniform sampling or round-robin, improving MMLU by 3.06 on LLaMA 2. We conduct extensive experiments and find that the benefits of our approach are consistently observed in eight other benchmarks. We hope that our work will shed light on the post-training learning process of LLMs and its similarity with their human counterpart.
Abstract（参考訳）: 命令調整型大規模言語モデル(llm)の構築において、人間の知識を深く理解することの重要性は、命令の多様化の重要性によってしばしば見過ごされる。本研究は,人間教育の体系的発展と認知的刺激的性質から着想を得た構造化認知学習方法論を2つの重要なステップで統合し,新しい指導チューニング手法を提案する。まず、人間の教育フレームワークを参考に設計した人工的な指導データ生成パイプラインに、各指導のトピックや認知的厳密さを詳述したメタデータが組み込まれている。具体的には,構造的カリキュラム学習のための古典的な教育モデルであるbloomの分類法に触発された,厳密さのさまざまなレベルに関する質問に,世代フレームワークが融合している。第2に,データ生成パイプラインが生み出す質問の複雑さと認知力の厳密さを活かして,質問がより複雑な方法で提示されるように指示を整理する。 LLaMA 2でMMLUを3.06改良し, 単体サンプリングやラウンドロビンと比較して, 有意な性能向上を実現した。我々は広範な実験を行い、我々のアプローチの利点が他の8つのベンチマークで一貫して観察されていることを発見した。 LLMの訓練後の学習プロセスと、その人間との類似性に光を当てることを願っています。

関連論文リスト

Personalized Exercise Recommendation with Semantically-Grounded Knowledge Tracing [54.44838681588145]
ExRecは、セマンティックグラウンドの知識トレースを備えたパーソナライズされたエクササイズレコメンデーションのためのフレームワークである。 ExRecは、新しい、目に見えない質問に頑健に一般化し、解釈可能な学習軌跡を生成することを示す。
論文参考訳（メタデータ） (2025-07-15T07:54:04Z)
GraphRAG-Induced Dual Knowledge Structure Graphs for Personalized Learning Path Recommendation [56.37740554448673]
本稿では知識概念構造グラフ生成モジュールEDU-GraphRAGを紹介する。次に、ブロックされた学習経路の問題を緩和する識別学習駆動強化学習(DLRL)モジュールを提案する。我々は3つのベンチマークデータセットに対して広範な実験を行い、その手法が最先端の性能を達成することを示す。
論文参考訳（メタデータ） (2025-06-27T15:15:42Z)
Learning Instruction-Following Policies through Open-Ended Instruction Relabeling with Large Language Models [37.67925131391676]
本稿では,これまで収集したエージェントの軌跡を振り返ってオープンエンド命令を自動生成する手法を提案する。我々の中核的な考え方は、エージェントが暗黙的に達成した意味のあるサブタスクを識別することで、LLMを用いて、軌道変更の失敗を回避することである。我々は,本提案手法を課題であるCraftax環境において実証的に評価し,サンプル効率,命令カバレッジ,全体的な政策性能の明確な改善を実証した。
論文参考訳（メタデータ） (2025-06-24T23:49:28Z)
Pay More Attention to the Robustness of Prompt for Instruction Data Mining [15.350709684929116]
本稿では,高品質なオンライン指導データマイニングの先駆的フレームワークを提案する。我々の特筆すべき革新は、オンラインのインストラクションデータのプロンプトに対する攻撃を行うことで、敵のインストラクションデータを生成することである。 2つのベンチマークデータセットで広範な実験を行い、性能を評価する。
論文参考訳（メタデータ） (2025-03-31T12:53:08Z)
Fine-Tuning Large Language Models for Educational Support: Leveraging Gagne's Nine Events of Instruction for Lesson Planning [5.022835754140817]
本研究では,Gagne's Nine Events of Instructionに組み込むことで,大規模言語モデル(LLM)が教師の準備をいかに向上させるかを検討する。この研究は、数学のカリキュラム標準とガグネの指導イベントに基づく包括的なデータセットの作成から始まる。第2の方法は、特別なデータセットを使用してオープンソースモデルを微調整し、教育コンテンツ生成と分析能力を向上する。
論文参考訳（メタデータ） (2025-03-12T11:22:13Z)
Aligning Instruction Tuning with Pre-training [81.4748965653345]
そこで我々は,AITP(Aligning Instruction Tuning with Pre-training)を提案する。 8つのベンチマークで3つの完全にオープンな大規模言語モデル(LLM)上で,AITPによる一貫したパフォーマンス向上を示す。
論文参考訳（メタデータ） (2025-01-16T08:27:40Z)
Online inductive learning from answer sets for efficient reinforcement learning exploration [52.03682298194168]
エージェントポリシーの近似を説明可能な近似を表す論理規則の集合を学習するために,帰納的な解集合プログラムの学習を利用する。次に、学習ルールに基づいて回答セット推論を行い、次のバッチで学習エージェントの探索をガイドします。本手法は,初回トレーニングにおいても,エージェントが達成した割引リターンを著しく向上させる。
論文参考訳（メタデータ） (2025-01-13T16:13:22Z)
A Systematic Examination of Preference Learning through the Lens of Instruction-Following [83.71180850955679]
新たな合成データ生成パイプラインを用いて48,000の命令追従プロンプトを生成する。合成プロンプトでは、リジェクションサンプリング(RS)とモンテカルロ木探索(MCTS)の2つの選好データセットキュレーション手法を用いる。実験により、MCTSが生成した選好ペアにおける共有プレフィックスは、限界はあるが一貫した改善をもたらすことが明らかになった。高コントラストの選好ペアは一般的に低コントラストのペアよりも優れているが、両者を組み合わせることで最高のパフォーマンスが得られることが多い。
論文参考訳（メタデータ） (2024-12-18T15:38:39Z)
KBAlign: Efficient Self Adaptation on Specific Knowledge Bases [75.78948575957081]
大規模言語モデル(LLM)は通常、知識材料を瞬時に活用するために、検索強化世代に依存している。本稿では,知識ベースを含む下流タスクへの効率的な適応を目的としたKBAlignを提案する。提案手法は,Q&Aペアやリビジョン提案などの自己注釈付きデータを用いて反復学習を行い,モデルが知識内容を効率的に把握できるようにする。
論文参考訳（メタデータ） (2024-11-22T08:21:03Z)
Balancing Continuous Pre-Training and Instruction Fine-Tuning: Optimizing Instruction-Following in LLMs [4.096028601599825]
パブリック使用のための大規模言語モデル(LLM)は、最新のデータと最新の状態を維持するために、継続的な事前トレーニングを必要とする。本研究では、命令データや微調整を必要とせず、最新の知識と命令追従能力を得るための最も計算効率の良い戦略を見つけることを目的とする。
論文参考訳（メタデータ） (2024-10-14T17:20:30Z)
Optimizing Instruction Synthesis: Effective Exploration of Evolutionary Space with Tree Search [25.108044778194536]
命令を効率的に合成するスケーラブルなフレームワークであるIDEA-MCTS (Instruction Data Enhancement using Monte Carlo Tree Search)を紹介した。木探索と評価モデルにより、各命令を効率よくガイドして高品質な形式に進化させ、命令の微調整を支援することができる。実験の結果、IDEA-MCTSはシードインストラクションデータを大幅に向上させ、品質、多様性、複雑さの平均評価スコアを2.19から3.81に引き上げた。
論文参考訳（メタデータ） (2024-10-14T11:28:30Z)
Instruction Tuning With Loss Over Instructions [42.9106826952674]
インストラクション・モデリング(IM)は、出力部のみではなく、インストラクションとプロンプト部に損失関数を適用してLMを訓練する。多くのシナリオにおいて、IMはNLPタスクとオープン・エンド・ジェネレーション・ベンチマークの両方でのLM性能を効果的に改善できることを示す。注目すべきは、最も有利な場合、IMはAlpacaEval 1.0のモデルパフォーマンスを100%以上向上させることだ。
論文参考訳（メタデータ） (2024-05-23T10:12:03Z)
SmurfCat at SemEval-2024 Task 6: Leveraging Synthetic Data for Hallucination Detection [51.99159169107426]
本稿では,SemEval-2024幻覚検出タスクのための新しいシステムを提案する。我々の調査は、モデル予測と基準基準を比較するための様々な戦略にまたがっている。強力なパフォーマンス指標を示す3つの異なる方法を紹介します。
論文参考訳（メタデータ） (2024-04-09T09:03:44Z)
One-Shot Learning as Instruction Data Prospector for Large Language Models [108.81681547472138]
textscNuggetsはワンショット学習を使用して、広範なデータセットから高品質な命令データを選択する。我々は,textscNuggets がキュレートした例の上位1%による命令チューニングが,データセット全体を用いた従来の手法よりも大幅に優れていることを示す。
論文参考訳（メタデータ） (2023-12-16T03:33:12Z)
Hierarchical Decomposition of Prompt-Based Continual Learning: Rethinking Obscured Sub-optimality [55.88910947643436]
大量のラベルのないデータを実際に扱うためには、自己教師付き事前トレーニングが不可欠である。 HiDe-Promptは、タスク固有のプロンプトと統計のアンサンブルで階層的なコンポーネントを明示的に最適化する革新的なアプローチである。実験では,HiDe-Promptの優れた性能と,継続学習における事前学習パラダイムへの頑健さを実証した。
論文参考訳（メタデータ） (2023-10-11T06:51:46Z)
CITING: Large Language Models Create Curriculum for Instruction Tuning [35.66902011221179]
我々は、AIモデルを人間の代わりに活用して、学生のLLMを訓練するアイデアを生かしている。本手法は, 教師が提示したリビジョンから, 筆跡を追従し, 書字スキルを磨く方法に着想を得たものである。
論文参考訳（メタデータ） (2023-10-04T01:58:34Z)
Learning Action Conditions from Instructional Manuals for Instruction Understanding [48.52663250368341]
本稿では,行動条件推論というタスクを提案し,命令マニュアルにおける行動条件の事前条件と後条件の高品質なアノテートデータセットを収集する。本稿では,オンライン指導マニュアルから大規模トレーニングインスタンスを自動構築する弱い教師付きアプローチを提案し,人間に注釈を付けて検証したデータセットをキュレートし,現在のNLPモデルが命令テキストの動作条件依存性をいかに推測できるかを検証した。
論文参考訳（メタデータ） (2022-05-25T00:19:59Z)
Hierarchical Variational Imitation Learning of Control Programs [131.7671843857375]
パラメータ化された階層的手順(PHP)で表される制御ポリシーの模倣学習のための変分推論手法を提案する。本手法は, 教師による実演の観察・行動トレースのデータセットにおける階層構造を, 手続き呼び出しや用語の待ち行列に近似した後続分布を学習することによって発見する。階層的模倣学習(hierarchical mimicion learning)の文脈における変分推論の新たな利点を実証する。
論文参考訳（メタデータ） (2019-12-29T08:57:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。