論文の概要: Long Is More for Alignment: A Simple but Tough-to-Beat Baseline for Instruction Fine-Tuning
- arxiv url: http://arxiv.org/abs/2402.04833v2
- Date: Tue, 4 Jun 2024 17:20:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 13:08:02.729623
- Title: Long Is More for Alignment: A Simple but Tough-to-Beat Baseline for Instruction Fine-Tuning
- Title(参考訳): インストラクションファインタニングのためのシンプルだがトウ・トゥ・ビート・ベースライン
- Authors: Hao Zhao, Maksym Andriushchenko, Francesco Croce, Nicolas Flammarion,
- Abstract要約: より長い応答に対する微調整は、命令微調整の作業においてデフォルトのベースラインであるべきであることを示す。
いくつかのLLM(Llama-2-7B,Llama-2-13B,Mistral-7B-v0.1)とデータセット(Alpaca-52k,Evol-Instruct-70k)に対してこれを実証する。
- 参考スコア(独自算出の注目度): 38.29072578390376
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There is a consensus that instruction fine-tuning of LLMs requires high-quality data, but what are they? LIMA (NeurIPS 2023) and AlpaGasus (ICLR 2024) are state-of-the-art methods for selecting such high-quality examples, either via manual curation or using GPT-3.5-Turbo as a quality scorer. We show that the extremely simple baseline of selecting the 1,000 instructions with longest responses -- that intuitively contain more learnable information and are harder to overfit -- from standard datasets can consistently outperform these sophisticated methods according to GPT-4 and PaLM-2 as judges, while remaining competitive on the Open LLM benchmarks that test factual knowledge. We demonstrate this for several LLMs (Llama-2-7B, Llama-2-13B, Mistral-7B-v0.1) and datasets (Alpaca-52k, Evol-Instruct-70k). In addition, a lightweight refinement of such long instructions can further improve the abilities of the fine-tuned LLMs, and allows us to obtain competitive results on MT-Bench and the 2nd highest-ranked Llama-2-7B-based model on AlpacaEval 2.0, while training on only 1,000 examples and no extra preference data. We also conduct a thorough analysis of our models to ensure that their enhanced performance is not simply due to GPT-4's preference for longer responses. Overall, our findings suggest that fine-tuning on the longest responses should be the default baseline for any work on instruction fine-tuning. We provide our code at https://github.com/tml-epfl/long-is-more-for-alignment.
- Abstract(参考訳): LLMの微調整は高品質なデータを必要とするという意見もあるが、それらは何なのか?
LIMA (NeurIPS 2023) と AlpaGasus (ICLR 2024) は、手作業によるキュレーションや GPT-3.5-Turbo を品質スコアリングとして使用する、最先端の手法である。
標準データセットから直感的により学習可能な情報を含み、過度に適合する1000の命令を選択するという非常に単純なベースラインは、GPT-4とPaLM-2を判断として、これらの洗練されたメソッドを一貫して上回り、事実知識をテストするOpen LLMベンチマークでは競争力を維持していることを示す。
いくつかのLLM(Llama-2-7B,Llama-2-13B,Mistral-7B-v0.1)とデータセット(Alpaca-52k,Evol-Instruct-70k)に対してこれを実証した。
さらに、このような長い命令の軽量化は、微調整されたLLMの能力をさらに向上させ、AlpacaEval 2.0上でのMT-Benchと2番目に高いLlama-2-7Bベースのモデル上での競争結果を得ることができる。
また,GPT-4の長時間応答に対する嗜好のため,モデルの性能向上を確実にするために,モデルの徹底的な解析を行う。
総じて,最も長い応答に対する微調整は,命令微調整作業の既定基準となることが示唆された。
私たちはhttps://github.com/tml-epfl/long-is-more-for-alignment.comでコードを公開しています。
関連論文リスト
- Benchmarking LLMs for Optimization Modeling and Enhancing Reasoning via Reverse Socratic Synthesis [60.23133327001978]
大規模言語モデル(LLM)は、数学的推論においてその問題解決能力を示した。
本稿では,人間可読入力と出力を用いたエンドツーエンド最適化問題のベンチマークであるE-OPTを提案する。
論文 参考訳(メタデータ) (2024-07-13T13:27:57Z) - RankRAG: Unifying Context Ranking with Retrieval-Augmented Generation in LLMs [60.38044044203333]
大規模言語モデル(LLM)は、通常、検索拡張生成(RAG)において、レトリバーからトップkコンテキストを利用する。
本稿では,RAGにおける文脈ランク付けと回答生成の両目的のために,単一のLLMをチューニング可能な新しい命令微調整フレームワークであるRanRAGを提案する。
例えば、GPT-4-0613, GPT-4-turbo-2024-0409, ChatQA-1.5, RAGベンチマークの最先端性能を備えたオープンソースモデルなどである。
論文 参考訳(メタデータ) (2024-07-02T17:59:17Z) - Aligning to Thousands of Preferences via System Message Generalization [27.88755105590786]
現在の大言語モデル (LLM) のアライメント手法は、LLMを一般大衆の好みに合わせることが最適であると仮定している。
本稿では,ユーザがシステムメッセージ内で最も価値の高いものを指定できる新しいパラダイムを提案する。
私たちはJanusと呼ばれる7B LLMをトレーニングし、ユーザの好みを反映したさまざまな未知のシステムメッセージを追加することで、921プロンプトでそれをテストします。
JanusはMistral 7B Instruct v0.2, GPT-3.5 Turbo, GPT-4に対して75.2%, 72.4%, 66.4%のタイ+ウィン率を達成した。
論文 参考訳(メタデータ) (2024-05-28T09:06:18Z) - Ensemble-Instruct: Generating Instruction-Tuning Data with a
Heterogeneous Mixture of LMs [23.38507910115345]
In-context Learning (ICL)技術は、少数の人間の監督だけで強力な会話エージェントを訓練することができる。
ここでは、より小さく(約10B-40Bパラメータ)、許容ライセンスを持つ言語モデルへのそのような手法の適用について検討する。
我々は,これらのサイズでは効果が低いセルフインストラクト手法を考案し,2つの主要なアイデアに基づいて新たなICL手法を提案する。
論文 参考訳(メタデータ) (2023-10-21T10:21:17Z) - Tuna: Instruction Tuning using Feedback from Large Language Models [74.04950416204551]
本稿では,新しいテキスト確率的ランキングとテキストコンテクスチュアルランキングを用いた命令調整型大規模言語モデルの微調整を提案する。
確率的ランク付けにより、教師のLCMから高品質で低品質なレスポンスの相対的なランク付けを継承することができる。
一方、文脈的ランキングを学習することで、より強いLLMの文脈的理解能力を用いて、モデルが独自の応答分布を洗練できる。
論文 参考訳(メタデータ) (2023-10-20T09:55:06Z) - AlpaGasus: Training A Better Alpaca with Fewer Data [93.6949102689243]
低品質なデータを自動的に識別しフィルタリングする、シンプルで効果的なデータ選択戦略を提案する。
52kのAlpacaデータからフィルタした9kの高品質データのみを微調整したAlpaGasusを紹介する。
AlpaGasusは、複数のテストセットと制御された人間の評価において、オリジナルのAlpacaを著しく上回っている。
論文 参考訳(メタデータ) (2023-07-17T17:59:40Z) - Large Language Models are Effective Text Rankers with Pairwise Ranking Prompting [65.00288634420812]
Pairwise Ranking Prompting (PRP)は、大規模言語モデル(LLM)の負担を大幅に軽減する手法である。
本研究は,中等級のオープンソースLCMを用いた標準ベンチマークにおいて,最先端のランク付け性能を達成した文献としては初めてである。
論文 参考訳(メタデータ) (2023-06-30T11:32:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。