論文の概要: Shallow Preference Signals: Large Language Model Aligns Even Better with Truncated Data?
- arxiv url: http://arxiv.org/abs/2505.17122v1
- Date: Wed, 21 May 2025 17:59:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.585806
- Title: Shallow Preference Signals: Large Language Model Aligns Even Better with Truncated Data?
- Title(参考訳): 短命な推奨信号: トランシットデータで、より大きな言語モデルはさらに良くなっているか?
- Authors: Xuan Qi, Jiahao Qiu, Xinzhe Juan, Yue Wu, Mengdi Wang,
- Abstract要約: 優先応答で得られる識別信号が初期トークンに集中していることが示される。
意外なことに、切り捨てられたデータセットでトレーニングされたモデルでは、トークンの前半または後半しか保持せず、完全なデータセットでトレーニングされたモデルと同等あるいはそれ以上のパフォーマンスを実現している。
そこで我々は,浅層優先信号を利用してアライメントと計算効率のトレードオフを最適化する,浅部報酬信号観測(Longth Control Decoding)とKL Threshold Control Decoding(KL Threshold Control Decoding)の2つの単純な復号方式を提案する。
- 参考スコア(独自算出の注目度): 34.18909976476456
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Aligning large language models (LLMs) with human preferences remains a key challenge in AI. Preference-based optimization methods, such as Reinforcement Learning with Human Feedback (RLHF) and Direct Preference Optimization (DPO), rely on human-annotated datasets to improve alignment. In this work, we identify a crucial property of the existing learning method: the distinguishing signal obtained in preferred responses is often concentrated in the early tokens. We refer to this as shallow preference signals. To explore this property, we systematically truncate preference datasets at various points and train both reward models and DPO models on the truncated data. Surprisingly, models trained on truncated datasets, retaining only the first half or fewer tokens, achieve comparable or even superior performance to those trained on full datasets. For example, a reward model trained on the Skywork-Reward-Preference-80K-v0.2 dataset outperforms the full dataset when trained on a 40\% truncated dataset. This pattern is consistent across multiple datasets, suggesting the widespread presence of shallow preference signals. We further investigate the distribution of the reward signal through decoding strategies. We consider two simple decoding strategies motivated by the shallow reward signal observation, namely Length Control Decoding and KL Threshold Control Decoding, which leverage shallow preference signals to optimize the trade-off between alignment and computational efficiency. The performance is even better, which again validates our hypothesis. The phenomenon of shallow preference signals highlights potential issues in LLM alignment: existing alignment methods often focus on aligning only the initial tokens of responses, rather than considering the full response. This could lead to discrepancies with real-world human preferences, resulting in suboptimal alignment performance.
- Abstract(参考訳): 人間の好みで大きな言語モデル(LLM)を調整することは、AIにおける重要な課題である。
Reinforcement Learning with Human Feedback (RLHF) や Direct Preference Optimization (DPO) といった、優先度に基づく最適化手法は、アライメントを改善するために、人間のアノテーション付きデータセットに依存している。
本研究は,既存の学習手法の重要な特徴を同定するものであり,優先応答で得られる識別信号は早期のトークンに集中することが多い。
これを浅い選好信号と呼ぶ。
この特性を探索するために、様々な点で好みのデータセットを体系的に切り刻み、切り刻まれたデータ上で報酬モデルとDPOモデルの両方を訓練する。
意外なことに、切り捨てられたデータセットでトレーニングされたモデルでは、トークンの前半または後半しか保持せず、完全なデータセットでトレーニングされたモデルと同等あるいはそれ以上のパフォーマンスを実現している。
例えば、Skywork-Reward-Preference-80K-v0.2データセットでトレーニングされた報酬モデルでは、40\%のトランケートデータセットでトレーニングされた場合、データセット全体のパフォーマンスが向上する。
このパターンは複数のデータセット間で一貫性があり、浅い選好信号が広く存在することを示唆している。
さらに,復号化戦略により報奨信号の分布について検討する。
そこで我々は,浅層優先信号を利用してアライメントと計算効率のトレードオフを最適化する,浅部報酬信号観測(Longth Control Decoding)とKL Threshold Control Decoding(KL Threshold Control Decoding)の2つの単純な復号方式を提案する。
パフォーマンスはさらに優れており、これが私たちの仮説を検証します。
従来のアライメント手法では、完全な応答を考慮せず、応答の初期トークンのみのアライメントに重点を置いていることが多い。
これは、現実世界の人間の嗜好と矛盾し、最適以下のアライメント性能をもたらす可能性がある。
関連論文リスト
- Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [63.32585910975191]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。
当社のアプローチは,DPOをかなりのマージンで継続的に向上させることを示す。
本手法は,嗜好データの有用性を最大化するだけでなく,未学習の問題も軽減し,データ拡張を超えてその広範な効果を実証する。
論文 参考訳(メタデータ) (2024-10-10T16:01:51Z) - Not Everything is All You Need: Toward Low-Redundant Optimization for Large Language Model Alignment [126.34547428473968]
大規模言語モデル(LLM)は、複雑なタスクやシナリオにおいて、人間の好みに合わせるのに依然として苦労しています。
我々は、最も有用な教師付き信号を用いて、最も関連性の高いニューロンを最適化することに焦点を当てた、textbfALLOという低輝度アライメント手法を提案する。
10個のデータセットに対する実験結果から、ALLOの有効性が示された。
論文 参考訳(メタデータ) (2024-06-18T13:34:40Z) - Spread Preference Annotation: Direct Preference Judgment for Efficient LLM Alignment [72.99676237703099]
大規模言語モデルと人間の嗜好の整合性を高める新しいフレームワークを提案する。
私たちのキーとなるアイデアは、小さな(種)データの中で人間の事前知識を活用することです。
本稿では,ノイズ認識型選好学習アルゴリズムを導入し,生成した選好データにおける品質低下のリスクを軽減する。
論文 参考訳(メタデータ) (2024-06-06T18:01:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。