論文の概要: CITING: Large Language Models Create Curriculum for Instruction Tuning
- arxiv url: http://arxiv.org/abs/2310.02527v1
- Date: Wed, 4 Oct 2023 01:58:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 16:51:03.851473
- Title: CITING: Large Language Models Create Curriculum for Instruction Tuning
- Title(参考訳): CIING: インストラクションチューニングのためのカリキュラムを作成する大規模言語モデル
- Authors: Tao Feng, Zifeng Wang, Jimeng Sun
- Abstract要約: 我々は、AIモデルを人間の代わりに活用して、学生のLLMを訓練するアイデアを生かしている。
本手法は, 教師が提示したリビジョンから, 筆跡を追従し, 書字スキルを磨く方法に着想を得たものである。
- 参考スコア(独自算出の注目度): 35.66902011221179
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent advancement of large language models (LLMs) has been achieved
through a combo of instruction tuning and human alignment. However, building
manually crafted instruction datasets and performing human alignment become the
bottleneck for scaling the development of LLMs. In this paper, we exploit the
idea of leveraging AI models in lieu of humans as the teacher to train student
LLMs. Our method is inspired by how human students refine their writing skills
by following the rubrics and learning from the revisions offered by their
tutors. Specifically, we employ a teacher LLM to create a curriculum for
instruction tuning of the student LLM, namely Curriculum Instruction TunING
(CITING). It encompasses two main steps: (1) the teacher LLM crafts the rubrics
for evaluating the answers corresponding to various types of questions, and (2)
the student LLM learns to follow the rubrics and perform self-correction from
the revision made by the teacher. We further iteratively carry out it to embody
the procedure of CITING. We compare CITING to a series of state-of-the-art
baselines on four datasets. Our method demonstrates strong improvement in terms
of articulate, in-depth, and comprehensive by GPT-4 evaluation. Specifically,
it achieves an average winning rate of 79.4% over SFT, 73.4% over RLHF, 78.1%
over RRHF, and 76.3% over RAFT, respectively.
- Abstract(参考訳): 近年の大規模言語モデル(LLM)の進歩は、命令チューニングと人間のアライメントの組み合わせによって達成されている。
しかし、手作業による命令データセットの構築と人間のアライメントの実行は、LLMの開発をスケールするボトルネックとなる。
本稿では,人間の代わりにAIモデルを活用して,学生のLLMを訓練するアイデアを生かした。
本手法は, 教師が提示したリビジョンから, 筆跡を追従し, 書字スキルを磨く方法に着想を得たものである。
具体的には、教師のLLMを使って、学生のLLM、すなわちCurriculum Instruction Tuning(CIING)を指導するカリキュラムを作成する。
1)教師LLMは,質問の種類に応じた回答を評価するためにルーリックを製作し,(2)学生LLMは,教師が作成したリビジョンからルーリックを追従し,自己補正を行うことを学ぶ。
さらに、CIINGの手順を具体化するために、反復的に実施します。
引用と4つのデータセットの最先端のベースラインを比較した。
提案手法は, GPT-4 評価により, 明瞭度, 深度, 包括性が向上したことを示す。
具体的には、SFTが79.4%、RLHFが73.4%、RRHFが78.1%、RAFTが76.3%である。
関連論文リスト
- Distilling Instruction-following Abilities of Large Language Models with Task-aware Curriculum Planning [12.651588927599441]
インストラクションチューニングは、大きな言語モデルにオープンドメイン命令と人間優先応答を合わせることを目的としている。
学生のLLMの追従が難しい命令を選択するために,TAPIR(Task-Aware Curriculum Planning for Instruction Refinement)を導入する。
学生の能力のバランスをとるために、トレーニングセット内のタスク分布は、対応するタスクに応じて自動的に調整された応答で調整される。
論文 参考訳(メタデータ) (2024-05-22T08:38:26Z) - CoachLM: Automatic Instruction Revisions Improve the Data Quality in LLM Instruction Tuning [32.54921739100195]
提案するCoachLMは,データセット内のサンプルを自動的に修正することで,命令データセットの品質を高める新しい手法である。
CoachLMは、人間の専門家によって改訂されたサンプルから訓練され、データセットの高品質なサンプルの割合が17.7%から78.9%に大幅に増加した。
結果から,CoachLMは命令調整LDMの指示追従能力を平均29.9%改善することがわかった。
論文 参考訳(メタデータ) (2023-11-22T09:04:57Z) - Tuna: Instruction Tuning using Feedback from Large Language Models [74.04950416204551]
本稿では,新しいテキスト確率的ランキングとテキストコンテクスチュアルランキングを用いた命令調整型大規模言語モデルの微調整を提案する。
確率的ランク付けにより、教師のLCMから高品質で低品質なレスポンスの相対的なランク付けを継承することができる。
一方、文脈的ランキングを学習することで、より強いLLMの文脈的理解能力を用いて、モデルが独自の応答分布を洗練できる。
論文 参考訳(メタデータ) (2023-10-20T09:55:06Z) - Auto-Instruct: Automatic Instruction Generation and Ranking for
Black-Box Language Models [91.02730155418699]
大規模言語モデル(LLM)は、自然言語命令に従うことで幅広いタスクを実行できる。
LLMに提供される命令の質を自動改善する新しい手法であるAuto-Instructを導入する。
118のアウトオブドメインタスクの実験では、Auto-Instructは人間による命令と既存のLCM生成命令のベースラインを超越している。
論文 参考訳(メタデータ) (2023-10-19T19:52:55Z) - Instruction Tuning with Human Curriculum [15.025867460765559]
本稿では,カリキュラム・インストラクション・チューニングについて紹介する。(2)多様なカリキュラム戦略を採用することの潜在的な利点を探求し,(3)合成命令・レスポンス・ジェネレーション・フレームワークを規定する。
我々の生成パイプラインは、人間の学習の逐次的かつ秩序的な特性をエミュレートするために体系的に構成されている。
本稿では,人間教育の様々な段階にまたがる,命令応答型データセットを生成する手法について述べる。
論文 参考訳(メタデータ) (2023-10-14T07:16:08Z) - Evaluating Large Language Models at Evaluating Instruction Following [54.49567482594617]
我々は,命令追従出力の識別におけるLLM評価器の能力をテストするために,挑戦的なメタ評価ベンチマーク LLMBar を導入する。
異なる評価器がLLMBarに対して異なる性能を示し、最高の評価器でさえ改善の余地があることが判明した。
論文 参考訳(メタデータ) (2023-10-11T16:38:11Z) - Efficient Finetuning Large Language Models For Vietnamese Chatbot [1.2075778142867704]
大規模言語モデル(LLM)は、様々な自然言語タスクにおいて顕著な性能を発揮することが示されている。
Alpaca、GPT4All、Chat-Doctorなど、オープンソースの大規模インストラクションフォローデータセットを活用しています。
我々は,低ランク適応(LoRA)によるパラメータ効率チューニングを2つのオープンLLM上で行い,その結果,Bloomz-Chat,Bloomz-Doctor,GPTJ-Chat,GPTJ-Doctorの4つのモデルを得た。
論文 参考訳(メタデータ) (2023-09-09T00:11:53Z) - Aligning Large Language Models with Human: A Survey [53.6014921995006]
広範囲なテキストコーパスで訓練されたLarge Language Models (LLM) は、幅広い自然言語処理(NLP)タスクの先導的なソリューションとして登場した。
その顕著な性能にもかかわらず、これらのモデルは、人間の指示を誤解したり、偏見のあるコンテンツを生成したり、事実的に誤った情報を生成するといった、ある種の制限を受ける傾向にある。
本調査では,これらのアライメント技術の概要について概観する。
論文 参考訳(メタデータ) (2023-07-24T17:44:58Z) - Language Model Self-improvement by Reinforcement Learning Contemplation [13.152789365858812]
本稿では,LanguageModel Self-Improvement by Reinforcement Learning Contemplation (SIRLC) という,教師なしの新しい手法を提案する。
学生として、モデルはラベルのない質問に対する回答を生成し、教師として、生成されたテキストを評価し、それに応じてスコアを割り当てる。
我々は,SIRLCを推論問題,テキスト生成,機械翻訳など,様々なNLPタスクに適用できることを実証した。
論文 参考訳(メタデータ) (2023-05-23T19:25:52Z) - Self-Refine: Iterative Refinement with Self-Feedback [62.78755306241981]
Self-Refineは、反復的なフィードバックと改善を通じて、大きな言語モデル(LLM)からの初期出力を改善するアプローチである。
GPT-3.5, ChatGPT, および GPT-4) LLM を用いて, 対話応答生成から数学的推論に至るまで, 7 つのタスクにまたがる自己決定性を評価する。
我々の研究は、GPT-4のような最先端のLCMでさえ、単純でスタンドアロンなアプローチを使用してテスト時にさらに改善できることを示します。
論文 参考訳(メタデータ) (2023-03-30T18:30:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。