論文の概要: Shallow Preference Signals: Large Language Model Aligns Even Better with Truncated Data?
- arxiv url: http://arxiv.org/abs/2505.17122v1
- Date: Wed, 21 May 2025 17:59:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.585806
- Title: Shallow Preference Signals: Large Language Model Aligns Even Better with Truncated Data?
- Title(参考訳): 短命な推奨信号: トランシットデータで、より大きな言語モデルはさらに良くなっているか?
- Authors: Xuan Qi, Jiahao Qiu, Xinzhe Juan, Yue Wu, Mengdi Wang,
- Abstract要約: 優先応答で得られる識別信号が初期トークンに集中していることが示される。
意外なことに、切り捨てられたデータセットでトレーニングされたモデルでは、トークンの前半または後半しか保持せず、完全なデータセットでトレーニングされたモデルと同等あるいはそれ以上のパフォーマンスを実現している。
そこで我々は,浅層優先信号を利用してアライメントと計算効率のトレードオフを最適化する,浅部報酬信号観測(Longth Control Decoding)とKL Threshold Control Decoding(KL Threshold Control Decoding)の2つの単純な復号方式を提案する。
- 参考スコア(独自算出の注目度): 34.18909976476456
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Aligning large language models (LLMs) with human preferences remains a key challenge in AI. Preference-based optimization methods, such as Reinforcement Learning with Human Feedback (RLHF) and Direct Preference Optimization (DPO), rely on human-annotated datasets to improve alignment. In this work, we identify a crucial property of the existing learning method: the distinguishing signal obtained in preferred responses is often concentrated in the early tokens. We refer to this as shallow preference signals. To explore this property, we systematically truncate preference datasets at various points and train both reward models and DPO models on the truncated data. Surprisingly, models trained on truncated datasets, retaining only the first half or fewer tokens, achieve comparable or even superior performance to those trained on full datasets. For example, a reward model trained on the Skywork-Reward-Preference-80K-v0.2 dataset outperforms the full dataset when trained on a 40\% truncated dataset. This pattern is consistent across multiple datasets, suggesting the widespread presence of shallow preference signals. We further investigate the distribution of the reward signal through decoding strategies. We consider two simple decoding strategies motivated by the shallow reward signal observation, namely Length Control Decoding and KL Threshold Control Decoding, which leverage shallow preference signals to optimize the trade-off between alignment and computational efficiency. The performance is even better, which again validates our hypothesis. The phenomenon of shallow preference signals highlights potential issues in LLM alignment: existing alignment methods often focus on aligning only the initial tokens of responses, rather than considering the full response. This could lead to discrepancies with real-world human preferences, resulting in suboptimal alignment performance.
- Abstract(参考訳): 人間の好みで大きな言語モデル(LLM)を調整することは、AIにおける重要な課題である。
Reinforcement Learning with Human Feedback (RLHF) や Direct Preference Optimization (DPO) といった、優先度に基づく最適化手法は、アライメントを改善するために、人間のアノテーション付きデータセットに依存している。
本研究は,既存の学習手法の重要な特徴を同定するものであり,優先応答で得られる識別信号は早期のトークンに集中することが多い。
これを浅い選好信号と呼ぶ。
この特性を探索するために、様々な点で好みのデータセットを体系的に切り刻み、切り刻まれたデータ上で報酬モデルとDPOモデルの両方を訓練する。
意外なことに、切り捨てられたデータセットでトレーニングされたモデルでは、トークンの前半または後半しか保持せず、完全なデータセットでトレーニングされたモデルと同等あるいはそれ以上のパフォーマンスを実現している。
例えば、Skywork-Reward-Preference-80K-v0.2データセットでトレーニングされた報酬モデルでは、40\%のトランケートデータセットでトレーニングされた場合、データセット全体のパフォーマンスが向上する。
このパターンは複数のデータセット間で一貫性があり、浅い選好信号が広く存在することを示唆している。
さらに,復号化戦略により報奨信号の分布について検討する。
そこで我々は,浅層優先信号を利用してアライメントと計算効率のトレードオフを最適化する,浅部報酬信号観測(Longth Control Decoding)とKL Threshold Control Decoding(KL Threshold Control Decoding)の2つの単純な復号方式を提案する。
パフォーマンスはさらに優れており、これが私たちの仮説を検証します。
従来のアライメント手法では、完全な応答を考慮せず、応答の初期トークンのみのアライメントに重点を置いていることが多い。
これは、現実世界の人間の嗜好と矛盾し、最適以下のアライメント性能をもたらす可能性がある。
関連論文リスト
- Difficulty-Based Preference Data Selection by DPO Implicit Reward Gap [13.89078939095465]
本稿では,DPOの暗黙的な報酬機構を基盤とした,嗜好データセットの難易度に基づく新たなデータ選択手法を提案する。
このアプローチは、複数のデータセットとアライメントタスクで、5つの強力なベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2025-08-06T07:24:14Z) - RL-Selector: Reinforcement Learning-Guided Data Selection via Redundancy Assessment [10.284993431741377]
サンプル間の関係に基づいてサンプル冗長性を定量化する,エプシロン・サンプル被覆の概念を導入する。
我々は、強化学習プロセスとしてデータ選択を再構成し、RLセレクタを提案する。
我々の手法は、既存の最先端のベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2025-06-26T06:28:56Z) - Enhancing Training Data Attribution with Representational Optimization [57.61977909113113]
トレーニングデータ属性法は、トレーニングデータがモデルの予測にどのように影響するかを測定することを目的としている。
本稿では,タスク固有表現とモデル整合表現をTDAで明示的に学習することで,このギャップを埋める表現ベースアプローチであるAirRepを提案する。
AirRepは、属性品質に合わせて調整されたトレーニング可能なエンコーダと、グループワイドの影響を正確に見積もるアテンションベースのプール機構の2つの重要なイノベーションを紹介している。
論文 参考訳(メタデータ) (2025-05-24T05:17:53Z) - A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [63.32585910975191]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。
当社のアプローチは,DPOをかなりのマージンで継続的に向上させることを示す。
本手法は,嗜好データの有用性を最大化するだけでなく,未学習の問題も軽減し,データ拡張を超えてその広範な効果を実証する。
論文 参考訳(メタデータ) (2024-10-10T16:01:51Z) - Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。
その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文 参考訳(メタデータ) (2024-09-26T12:37:26Z) - Not Everything is All You Need: Toward Low-Redundant Optimization for Large Language Model Alignment [126.34547428473968]
大規模言語モデル(LLM)は、複雑なタスクやシナリオにおいて、人間の好みに合わせるのに依然として苦労しています。
我々は、最も有用な教師付き信号を用いて、最も関連性の高いニューロンを最適化することに焦点を当てた、textbfALLOという低輝度アライメント手法を提案する。
10個のデータセットに対する実験結果から、ALLOの有効性が示された。
論文 参考訳(メタデータ) (2024-06-18T13:34:40Z) - Spread Preference Annotation: Direct Preference Judgment for Efficient LLM Alignment [72.99676237703099]
大規模言語モデルと人間の嗜好の整合性を高める新しいフレームワークを提案する。
私たちのキーとなるアイデアは、小さな(種)データの中で人間の事前知識を活用することです。
本稿では,ノイズ認識型選好学習アルゴリズムを導入し,生成した選好データにおける品質低下のリスクを軽減する。
論文 参考訳(メタデータ) (2024-06-06T18:01:02Z) - Binary Classifier Optimization for Large Language Model Alignment [4.61411484523337]
ChatGPTのような現実世界のサービスでは、ユーザーフィードバックに基づいたモデルの調整がパフォーマンス向上に不可欠である。
既存のアライメント研究の多くは、ペアとして正と負の両方の反応を必要とする嗜好に基づくアプローチに依存している。
本稿では,バイナリフィードバックのみを用いてLLMを効果的に整合させる手法であるバイナリ最適化(BCO)を提案する。
論文 参考訳(メタデータ) (2024-04-06T15:20:59Z) - Beyond Imitation: Leveraging Fine-grained Quality Signals for Alignment [105.34140537748546]
我々はFIGAという改良されたアライメント手法を提案し、従来の手法とは異なり、良質な応答と悪質な応答の対比から導出されるきめ細かい品質信号を取り込む。
まず、初期応答とそれに対応する修正データセットをペアリングする精巧なアライメントデータセットをキュレートする。
第2に,LLMの微粒な品質信号を利用してアライメントの学習を指導する新たな損失関数を考案する。
論文 参考訳(メタデータ) (2023-11-07T15:36:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。