論文の概要: A Deep Dive into the Trade-Offs of Parameter-Efficient Preference Alignment Techniques
- arxiv url: http://arxiv.org/abs/2406.04879v1
- Date: Fri, 7 Jun 2024 12:25:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-10 14:11:13.799104
- Title: A Deep Dive into the Trade-Offs of Parameter-Efficient Preference Alignment Techniques
- Title(参考訳): パラメータ効率の良い選好アライメント手法のトレードオフ
- Authors: Megh Thakkar, Quentin Fournier, Matthew D Riemer, Pin-Yu Chen, Amal Zouaq, Payel Das, Sarath Chandar,
- Abstract要約: 大規模言語モデルは最初、数兆のトークンで事前訓練され、その後、特定の好みに合わせて命令調整または調整される。
我々は,3つの重要な軸に対する人気選択の影響を詳細に調査する。
300以上の実験にまたがるセットアップでは、一貫した傾向と予期せぬ結果が明らかになる。
- 参考スコア(独自算出の注目度): 63.10251271444959
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models are first pre-trained on trillions of tokens and then instruction-tuned or aligned to specific preferences. While pre-training remains out of reach for most researchers due to the compute required, fine-tuning has become affordable thanks to parameter-efficient methods such as LoRA and QLoRA. Alignment is known to be sensitive to the many factors involved, including the quantity and quality of data, the alignment method, and the adapter rank. However, there has not yet been an extensive study of their effect on downstream performance. To address this gap, we conduct an in-depth investigation of the impact of popular choices for three crucial axes: (i) the alignment dataset (HH-RLHF and BeaverTails), (ii) the alignment technique (SFT and DPO), and (iii) the model (LLaMA-1, Vicuna-v1.3, Mistral-7b, and Mistral-7b-Instruct). Our extensive setup spanning over 300 experiments reveals consistent trends and unexpected findings. We observe how more informative data helps with preference alignment, cases where supervised fine-tuning outperforms preference optimization, and how aligning to a distinct preference boosts performance on downstream tasks. Through our in-depth analyses, we put forward key guidelines to help researchers perform more effective parameter-efficient LLM alignment.
- Abstract(参考訳): 大規模言語モデルは最初、数兆のトークンで事前訓練され、その後、特定の好みに合わせて命令調整または調整される。
計算に必要なため、ほとんどの研究者にとって事前学習は到達できないが、LoRAやQLoRAのようなパラメータ効率のよい手法のおかげで、微調整は安価になっている。
アライメントは、データ量や品質、アライメント方法、アダプタランクなど、関連する多くの要因に敏感であることが知られている。
しかし、下流性能に対する影響については、まだ広くは研究されていない。
このギャップに対処するため、我々は3つの重要な軸に対する人気選択の影響を詳細に調査する。
(i)アライメントデータセット(HH-RLHF及びビーバータイル)
(二)アライメント技術(SFT、DPO)、及び
三 モデル(LLaMA-1、Vicuna-v1.3、Mistral-7b、Mistral-7b-Instruct)
300以上の実験にまたがる大規模なセットアップでは、一貫した傾向と予期せぬ結果が明らかになっている。
我々は、より情報的なデータが選好アライメントにどのように役立つか、教師付き微調整が選好最適化に優れた場合、そして、異なる選好に合わせることで下流タスクのパフォーマンスが向上するかを観察する。
詳細な分析を通じて、研究者がより効果的なパラメータ効率の高いLCMアライメントを行うのを助けるための鍵となるガイドラインを提示した。
関連論文リスト
- OPTune: Efficient Online Preference Tuning [107.44836901099]
オンライン嗜好調整(OPTune)のためのより効率的なデータ探索手法を提案する。
OPTuneは、オン・プライオリティアライメントのための情報応答を動的にサンプリングする。
評価では, 効率的なデータ探索戦略により, OPTune の LLM は 1.27-1.56 倍高速なトレーニング速度を達成している。
論文 参考訳(メタデータ) (2024-06-11T18:55:04Z) - Triple Preference Optimization: Achieving Better Alignment with Less Data in a Single Step Optimization [35.36615140853107]
Triple Preference Optimization (TPO) は、大きめの言語モデルと3つの好みを、別個のSupervised Fine-Tuned (SFT)モデルを必要とせずに整合させるように設計されている。
TPOは,SFT,DPO,KTO,IPO,CPO,ORPOといった他の手法によるモデルと比較して,優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2024-05-26T20:18:11Z) - Position-Aware Parameter Efficient Fine-Tuning Approach for Reducing Positional Bias in LLMs [18.832135309689736]
大規模言語モデル(LLM)の最近の進歩は、長い入力コンテキストを処理する能力を高めている。
近年の研究では、LCMの位置バイアスが示されており、有用な情報の位置に応じて様々な性能を示す。
本研究では,データ拡張手法と効率的なパラメータアダプタを組み合わせた位置認識型PAPEFTアプローチを提案する。
論文 参考訳(メタデータ) (2024-04-01T19:04:17Z) - What Makes Good Data for Alignment? A Comprehensive Study of Automatic Data Selection in Instruction Tuning [43.708781995814675]
本稿では、LLaMAモデルとMistralモデルから微調整された一連のモデルであるdeitaについて述べる。
Deitaは6K SFTトレーニングデータサンプルだけで、最先端のオープンソースアライメントモデルと同等、あるいは同等に動作します。
論文 参考訳(メタデータ) (2023-12-25T10:29:28Z) - On Diversified Preferences of Large Language Model Alignment [51.26149027399505]
本研究では,多彩な嗜好が報酬モデルに及ぼす影響について検討する。
その結果,様々な選好データが報酬モデルのキャリブレーション性能に悪影響を及ぼすことがわかった。
本稿では,RMの校正性能を高めるための多目的リワード学習手法を提案する。
論文 参考訳(メタデータ) (2023-12-12T16:17:15Z) - Beyond Imitation: Leveraging Fine-grained Quality Signals for Alignment [105.34140537748546]
我々はFIGAという改良されたアライメント手法を提案し、従来の手法とは異なり、良質な応答と悪質な応答の対比から導出されるきめ細かい品質信号を取り込む。
まず、初期応答とそれに対応する修正データセットをペアリングする精巧なアライメントデータセットをキュレートする。
第2に,LLMの微粒な品質信号を利用してアライメントの学習を指導する新たな損失関数を考案する。
論文 参考訳(メタデータ) (2023-11-07T15:36:40Z) - AST: Effective Dataset Distillation through Alignment with Smooth and
High-Quality Expert Trajectories [18.266786462036553]
我々は,Smoothと高品質なエキスパートトラジェクトリによるアライメントのための効果的なDDフレームワークASTを提案する。
さまざまなスケール、サイズ、解像度のデータセットに対して、広範な実験を行います。
論文 参考訳(メタデータ) (2023-10-16T16:13:53Z) - PriorBand: Practical Hyperparameter Optimization in the Age of Deep
Learning [49.92394599459274]
我々は,Deep Learning(DL)パイプラインに適したHPOアルゴリズムであるPresideBandを提案する。
各種のDLベンチマークでその堅牢性を示し、情報的専門家のインプットと、専門家の信条の低さに対してその利得を示す。
論文 参考訳(メタデータ) (2023-06-21T16:26:14Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。