論文の概要: A Systematic Examination of Preference Learning through the Lens of Instruction-Following
- arxiv url: http://arxiv.org/abs/2412.15282v1
- Date: Wed, 18 Dec 2024 15:38:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-23 16:24:31.256195
- Title: A Systematic Examination of Preference Learning through the Lens of Instruction-Following
- Title(参考訳): 指導追従レンズによる選好学習の体系的検討
- Authors: Joongwon Kim, Anirudh Goyal, Aston Zhang, Bo Xiong, Rui Hou, Melanie Kambadur, Dhruv Mahajan, Hannaneh Hajishirzi, Liang Tan,
- Abstract要約: 新たな合成データ生成パイプラインを用いて48,000の命令追従プロンプトを生成する。
合成プロンプトでは、リジェクションサンプリング(RS)とモンテカルロ木探索(MCTS)の2つの選好データセットキュレーション手法を用いる。
実験により、MCTSが生成した選好ペアにおける共有プレフィックスは、限界はあるが一貫した改善をもたらすことが明らかになった。
高コントラストの選好ペアは一般的に低コントラストのペアよりも優れているが、両者を組み合わせることで最高のパフォーマンスが得られることが多い。
- 参考スコア(独自算出の注目度): 83.71180850955679
- License:
- Abstract: Preference learning is a widely adopted post-training technique that aligns large language models (LLMs) to human preferences and improves specific downstream task capabilities. In this work we systematically investigate how specific attributes of preference datasets affect the alignment and downstream performance of LLMs in instruction-following tasks. We use a novel synthetic data generation pipeline to generate 48,000 unique instruction-following prompts with combinations of 23 verifiable constraints that enable fine-grained and automated quality assessments of model responses. With our synthetic prompts, we use two preference dataset curation methods - rejection sampling (RS) and Monte Carlo Tree Search (MCTS) - to obtain pairs of (chosen, rejected) responses. Then, we perform experiments investigating the effects of (1) the presence of shared prefixes between the chosen and rejected responses, (2) the contrast and quality of the chosen, rejected responses and (3) the complexity of the training prompts. Our experiments reveal that shared prefixes in preference pairs, as generated by MCTS, provide marginal but consistent improvements and greater stability across challenging training configurations. High-contrast preference pairs generally outperform low-contrast pairs; however, combining both often yields the best performance by balancing diversity and learning efficiency. Additionally, training on prompts of moderate difficulty leads to better generalization across tasks, even for more complex evaluation scenarios, compared to overly challenging prompts. Our findings provide actionable insights into optimizing preference data curation for instruction-following tasks, offering a scalable and effective framework for enhancing LLM training and alignment.
- Abstract(参考訳): 優先度学習は、大規模な言語モデル(LLM)を人間の好みに合わせて調整し、特定の下流タスク能力を改善する、広く採用されている訓練後のテクニックである。
本研究では,選好データセットの特定の属性が命令追従タスクにおけるLLMのアライメントとダウンストリーム性能にどう影響するかを系統的に検討する。
モデル応答の微粒化と自動品質評価を可能にする,23の検証可能な制約を組み合わせた,48,000のユニークな命令追従プロンプトを生成するために,新しい合成データ生成パイプラインを使用する。
合成プロンプトでは,2つの選好データセットのキュレーション手法であるリジェクションサンプリング (RS) とモンテカルロ木探索 (MCTS) を用いて,2組の(コセン,リジェクト)応答を得る。
そして,(1)選択された応答と拒否された応答の間に共有接頭辞が存在すること,(2)選択された応答のコントラストと品質,(3)訓練プロンプトの複雑さについて実験を行った。
実験の結果,MCTSが生成した選好ペアの共有接頭辞は,限界はあるが一貫した改善と,難易度のあるトレーニング構成の安定性を提供することがわかった。
高コントラストの選好ペアは、一般的に低コントラストペアよりも優れているが、両者を組み合わせることで、多様性と学習効率のバランスをとることで、最高のパフォーマンスが得られることが多い。
さらに、適度な困難を伴うプロンプトのトレーニングは、過度に困難なプロンプトと比較して、より複雑な評価シナリオであっても、タスク間の一般化を向上させる。
本研究は,LLMトレーニングとアライメント向上のためのスケーラブルで効果的なフレームワークを提供することにより,指示追従タスクの選好データキュレーションの最適化に関する実用的な知見を提供する。
関連論文リスト
- Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [63.32585910975191]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。
そこで本稿では,品質スコアに優先ペアを条件付け,報酬を加算したデータセットを構築する,効果的なデータレバーベリング手法を提案する。
論文 参考訳(メタデータ) (2024-10-10T16:01:51Z) - Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。
その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文 参考訳(メタデータ) (2024-09-26T12:37:26Z) - REAL: Response Embedding-based Alignment for LLMs [1.9513983244114355]
LLMのためのレスポンス埋め込みベースのアライメントは、高品質なトレーニングデータセットを構築するための戦略である。
異なる応答対を選択することで、LLMの直接アライメントが向上し、継承されたラベリングエラーを低減できることを示す。
その結果,異なるペアにフォーカスすることでラベルエラーを低減し,LCMアライメントの効率を向上し,アノテータの作業の最大65%を節約できることがわかった。
論文 参考訳(メタデータ) (2024-09-17T22:40:54Z) - LIRE: listwise reward enhancement for preference alignment [27.50204023448716]
本稿では、複数の応答のオフライン報酬を合理化されたリストワイズフレームワークに組み込む、勾配に基づく報酬最適化手法を提案する。
LIREは実装が簡単で、最小限のパラメータチューニングを必要とし、ペアワイズパラダイムとシームレスに整合する。
実験の結果,LIREは対話タスクや要約タスクのベンチマークにおいて,既存のメソッドよりも一貫して優れていることがわかった。
論文 参考訳(メタデータ) (2024-05-22T10:21:50Z) - Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts [95.09994361995389]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。
RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文 参考訳(メタデータ) (2024-02-12T22:47:57Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - One-Shot Learning as Instruction Data Prospector for Large Language Models [108.81681547472138]
textscNuggetsはワンショット学習を使用して、広範なデータセットから高品質な命令データを選択する。
我々は,textscNuggets がキュレートした例の上位1%による命令チューニングが,データセット全体を用いた従来の手法よりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-12-16T03:33:12Z) - Query-Dependent Prompt Evaluation and Optimization with Offline Inverse
RL [62.824464372594576]
ゼロショットプロンプト最適化により,Large Language Models (LLM) の算術的推論能力を向上させることを目的とする。
このような最適化では、以前見過ごされたクエリ依存の目的を特定します。
本稿では、オフライン逆強化学習を利用して、実演データから洞察を引き出すPrompt-OIRLを紹介する。
論文 参考訳(メタデータ) (2023-09-13T01:12:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。