論文の概要: Instruction Tuning with GPT-4
- arxiv url: http://arxiv.org/abs/2304.03277v1
- Date: Thu, 6 Apr 2023 17:58:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-07 12:54:54.823282
- Title: Instruction Tuning with GPT-4
- Title(参考訳): GPT-4によるインストラクションチューニング
- Authors: Baolin Peng and Chunyuan Li and Pengcheng He and Michel Galley and
Jianfeng Gao
- Abstract要約: 本稿では, GPT-4を用いて命令追従データを生成し, 大規模言語モデルを微調整する試みについて述べる。
命令調整型LLaMAモデルの初期実験では、52Kの英語と中国語の命令追従データがGPT-4によって生成され、新しいタスクにおけるゼロショット性能が向上することが示された。
- 参考スコア(独自算出の注目度): 107.55078894215798
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Prior work has shown that finetuning large language models (LLMs) using
machine-generated instruction-following data enables such models to achieve
remarkable zero-shot capabilities on new tasks, and no human-written
instructions are needed. In this paper, we present the first attempt to use
GPT-4 to generate instruction-following data for LLM finetuning. Our early
experiments on instruction-tuned LLaMA models show that the 52K English and
Chinese instruction-following data generated by GPT-4 leads to superior
zero-shot performance on new tasks to the instruction-following data generated
by previous state-of-the-art models. We also collect feedback and comparison
data from GPT-4 to enable a comprehensive evaluation and reward model training.
We make our data generated using GPT-4 as well as our codebase publicly
available.
- Abstract(参考訳): 先行研究では、機械生成命令追従データを用いた大規模言語モデル(llm)の微調整により、新しいタスクで目覚ましいゼロショット能力を達成でき、人間による命令は不要であることが示されている。
本稿では,LPMファインタニングのための命令追従データを生成するために GPT-4 を用いた最初の試みを示す。
gpt-4が生成した52kの英語と中国語の命令追従データから,従来の最先端モデルが生成した命令追従データに対して,新たなタスクにおけるゼロショット性能が向上することを示す。
また、GPT-4からフィードバックと比較データを収集し、総合的な評価と報酬モデルトレーニングを可能にする。
GPT-4を使ってデータを生成し、コードベースを公開しています。
関連論文リスト
- Non-instructional Fine-tuning: Enabling Instruction-Following Capabilities in Pre-trained Language Models without Instruction-Following Data [51.34222224728979]
本稿では,OpenWebText からのランダムテキストの前半を命令として,GPT-3.5-turbo あるいは GPT-4-turbo を用いて応答としてテキストを完成させる手法を提案する。
データが"非教育的"であるにも関わらず、このデータに基づいて微調整された事前学習されたLLMが、命令追従能力を得る可能性があることがわかった。
論文 参考訳(メタデータ) (2024-08-27T01:21:53Z) - RankRAG: Unifying Context Ranking with Retrieval-Augmented Generation in LLMs [60.38044044203333]
大規模言語モデル(LLM)は、通常、検索拡張生成(RAG)において、レトリバーからトップkコンテキストを利用する。
本稿では,RAGにおける文脈ランク付けと回答生成の両目的のために,単一のLLMをチューニング可能な新しい命令微調整フレームワークであるRanRAGを提案する。
例えば、GPT-4-0613, GPT-4-turbo-2024-0409, ChatQA-1.5, RAGベンチマークの最先端性能を備えたオープンソースモデルなどである。
論文 参考訳(メタデータ) (2024-07-02T17:59:17Z) - Using GPT-4 to Augment Unbalanced Data for Automatic Scoring [0.5586073503694489]
生成型大規模言語モデルである GPT-4 を利用した新しいテキストデータ拡張フレームワークを提案する。
我々は GPT-4 で応答を生成するプロンプトを作成した。
拡張データセットとオリジナルデータセットに基づいて自動スコアリングのためにDistillBERTを微調整した。
論文 参考訳(メタデータ) (2023-10-25T01:07:50Z) - Automatic Pair Construction for Contrastive Post-training [57.57149781848383]
本稿では,大規模言語モデル(LLM)のためのコントラストデータの自動構築手法を提案する。
SLiC と DPO の対比手法を SFT ベースラインと比較した結果,DPO は SFT 飽和後の段階的改善を実現していることがわかった。
また、コントラスト的なポストトレーニングのためのデータカリキュラムの学習手法についても検討し、"より簡単な"ペアから学び、"よりハード"なものに移行することから始めます。
論文 参考訳(メタデータ) (2023-10-03T17:59:46Z) - InstructionGPT-4: A 200-Instruction Paradigm for Fine-Tuning MiniGPT-4 [14.248735997950446]
InstructionGPT-4は200のサンプルからなる小さなデータセット上で微調整される。
これらの指標に基づいて,低品質の視覚言語データを自動的に識別・フィルタリングする,効果的で訓練可能なデータセレクタを提案する。
この結果から,マルチモーダルな大規模言語モデルがより優れた出力を生成するためには,低品質な命令調律データが効率的であることが示唆された。
論文 参考訳(メタデータ) (2023-08-23T11:27:30Z) - Visual Instruction Tuning [79.70923292053097]
本稿では,言語のみの GPT-4 を用いてマルチモーダルな言語イメージ命令追跡データを生成する試みについて紹介する。
このようなデータに対して,LLaVA: Large Language and Vision Assistantを導入する。
科学QAを微調整すると、LLaVAとGPT-4の相乗効果は92.53%の新しい最先端精度を達成する。
論文 参考訳(メタデータ) (2023-04-17T17:59:25Z) - GPT-4 Technical Report [116.90398195245983]
GPT-4は大規模なマルチモーダルモデルであり、画像やテキストの入力を受け取り、テキスト出力を生成することができる。
試験受験者の上位10%のスコアで模擬試験に合格するなど、さまざまな専門的、学術的なベンチマークで人間レベルのパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-03-15T17:15:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。