論文の概要: Long Is More for Alignment: A Simple but Tough-to-Beat Baseline for
Instruction Fine-Tuning
- arxiv url: http://arxiv.org/abs/2402.04833v1
- Date: Wed, 7 Feb 2024 13:32:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-08 15:30:26.698535
- Title: Long Is More for Alignment: A Simple but Tough-to-Beat Baseline for
Instruction Fine-Tuning
- Title(参考訳): longはアライメントのためのものだ: 命令の微調整のためのシンプルだが強固なベースライン
- Authors: Hao Zhao, Maksym Andriushchenko, Francesco Croce, Nicolas Flammarion
- Abstract要約: 標準データセットから長いレスポンスで1000の命令を選択するという単純なベースラインが、洗練された手法を一貫して上回ることを示す。
このような長い命令の軽量化は、微調整LDMの能力をさらに向上させることができる。
以上の結果から,最も長い命令を微調整することが,命令微調整の研究においてデフォルトの基準となることが示唆された。
- 参考スコア(独自算出の注目度): 41.82986713193004
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There is a consensus that instruction fine-tuning of LLMs requires
high-quality data, but what are they? LIMA (NeurIPS 2023) and AlpaGasus (ICLR
2024) are state-of-the-art methods for selecting such high-quality examples,
either via manual curation or using GPT-3.5-Turbo as a quality scorer. We show
that the extremely simple baseline of selecting the 1,000 instructions with
longest responses from standard datasets can consistently outperform these
sophisticated methods according to GPT-4 and PaLM-2 as judges, while remaining
competitive on the OpenLLM benchmarks that test factual knowledge. We
demonstrate this for several state-of-the-art LLMs (Llama-2-7B, Llama-2-13B,
and Mistral-7B) and datasets (Alpaca-52k and Evol-Instruct-70k). In addition, a
lightweight refinement of such long instructions can further improve the
abilities of the fine-tuned LLMs, and allows us to obtain the 2nd
highest-ranked Llama-2-7B-based model on AlpacaEval 2.0 while training on only
1,000 examples and no extra preference data. We also conduct a thorough
analysis of our models to ensure that their enhanced performance is not simply
due to GPT-4's preference for longer responses, thus ruling out any artificial
improvement. In conclusion, our findings suggest that fine-tuning on the
longest instructions should be the default baseline for any research on
instruction fine-tuning.
- Abstract(参考訳): LLMの微調整は高品質なデータを必要とするという意見もあるが、それらは何なのか?
LIMA (NeurIPS 2023) と AlpaGasus (ICLR 2024) は、手作業によるキュレーションや GPT-3.5-Turbo を品質スコアリングとして使用する、最先端の手法である。
GPT-4 と PaLM-2 の判断では,1000 命令を標準データセットから最長応答で選択する極めて単純な基準は,実際の知識を試験する OpenLLM ベンチマークにおいて競争力を維持しながら,これらの高度な手法を一貫して上回ることを示す。
現状のLLM (Llama-2-7B, Llama-2-13B, Mistral-7B) とデータセット (Alpaca-52k, Evol-Instruct-70k) でこれを実証する。
さらに、このような長い命令を軽量に改良することで、微調整されたLLMの能力をさらに向上させ、AlpacaEval 2.0上での2番目に高いLlama-2-7Bベースのモデルが得られる。
また,GPT-4のより長い応答を優先することによる性能向上を確実にするために,我々のモデルを徹底的に分析し,人工的な改善を除外する。
以上の結果から,最も長い命令を微調整することが,命令微調整の研究においてデフォルトの基準となることが示唆された。
関連論文リスト
- IOPO: Empowering LLMs with Complex Instruction Following via Input-Output Preference Optimization [74.34707794886751]
本稿では,複雑な命令追従能力の向上と評価のためのベンチマークであるTRACEを紹介する。
また、入力と出力の両方の選好ペアを考慮に入れたIOPOを提案する。
ドメイン内データセットとドメイン外データセットの両方の実験により、IOPOの有効性が確認された。
論文 参考訳(メタデータ) (2024-11-09T15:12:43Z) - RankRAG: Unifying Context Ranking with Retrieval-Augmented Generation in LLMs [60.38044044203333]
大規模言語モデル(LLM)は、通常、検索拡張生成(RAG)において、レトリバーからトップkコンテキストを利用する。
本稿では,RAGにおける文脈ランク付けと回答生成の両目的のために,単一のLLMをチューニング可能な新しい命令微調整フレームワークであるRanRAGを提案する。
例えば、GPT-4-0613, GPT-4-turbo-2024-0409, ChatQA-1.5, RAGベンチマークの最先端性能を備えたオープンソースモデルなどである。
論文 参考訳(メタデータ) (2024-07-02T17:59:17Z) - Aligning to Thousands of Preferences via System Message Generalization [27.88755105590786]
現在の大言語モデル (LLM) のアライメント手法は、LLMを一般大衆の好みに合わせることが最適であると仮定している。
本稿では,ユーザがシステムメッセージ内で最も価値の高いものを指定できる新しいパラダイムを提案する。
私たちはJanusと呼ばれる7B LLMをトレーニングし、ユーザの好みを反映したさまざまな未知のシステムメッセージを追加することで、921プロンプトでそれをテストします。
JanusはMistral 7B Instruct v0.2, GPT-3.5 Turbo, GPT-4に対して75.2%, 72.4%, 66.4%のタイ+ウィン率を達成した。
論文 参考訳(メタデータ) (2024-05-28T09:06:18Z) - Ensemble-Instruct: Generating Instruction-Tuning Data with a
Heterogeneous Mixture of LMs [23.38507910115345]
In-context Learning (ICL)技術は、少数の人間の監督だけで強力な会話エージェントを訓練することができる。
ここでは、より小さく(約10B-40Bパラメータ)、許容ライセンスを持つ言語モデルへのそのような手法の適用について検討する。
我々は,これらのサイズでは効果が低いセルフインストラクト手法を考案し,2つの主要なアイデアに基づいて新たなICL手法を提案する。
論文 参考訳(メタデータ) (2023-10-21T10:21:17Z) - Tuna: Instruction Tuning using Feedback from Large Language Models [74.04950416204551]
本稿では,新しいテキスト確率的ランキングとテキストコンテクスチュアルランキングを用いた命令調整型大規模言語モデルの微調整を提案する。
確率的ランク付けにより、教師のLCMから高品質で低品質なレスポンスの相対的なランク付けを継承することができる。
一方、文脈的ランキングを学習することで、より強いLLMの文脈的理解能力を用いて、モデルが独自の応答分布を洗練できる。
論文 参考訳(メタデータ) (2023-10-20T09:55:06Z) - AlpaGasus: Training A Better Alpaca with Fewer Data [93.6949102689243]
低品質なデータを自動的に識別しフィルタリングする、シンプルで効果的なデータ選択戦略を提案する。
52kのAlpacaデータからフィルタした9kの高品質データのみを微調整したAlpaGasusを紹介する。
AlpaGasusは、複数のテストセットと制御された人間の評価において、オリジナルのAlpacaを著しく上回っている。
論文 参考訳(メタデータ) (2023-07-17T17:59:40Z) - Large Language Models are Effective Text Rankers with Pairwise Ranking Prompting [65.00288634420812]
Pairwise Ranking Prompting (PRP)は、大規模言語モデル(LLM)の負担を大幅に軽減する手法である。
本研究は,中等級のオープンソースLCMを用いた標準ベンチマークにおいて,最先端のランク付け性能を達成した文献としては初めてである。
論文 参考訳(メタデータ) (2023-06-30T11:32:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。