論文の概要: Diversity First, Quality Later: A Two-Stage Assumption for Language Model Alignment
- arxiv url: http://arxiv.org/abs/2508.10530v1
- Date: Thu, 14 Aug 2025 11:05:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.280514
- Title: Diversity First, Quality Later: A Two-Stage Assumption for Language Model Alignment
- Title(参考訳): 多様性第一、品質後 - 言語モデルのアライメントに対する2段階のアライメント
- Authors: Zetian Sun, Dongfang Li, Baotian Hu,
- Abstract要約: 言語モデル(LM)と人間の好みの整合性は、信頼できるAIシステムを構築する上で重要である。
近年,静的選好データから直接ポリシーを最適化するLMアライメント手法として,直接選好最適化(DPO)が提案されている。
政治上のデータは必ずしも最適ではなく、静的な選好候補と政治上の選好候補の間に体系的な効果差が生じる。
- 参考スコア(独自算出の注目度): 16.059172179404467
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The alignment of language models (LMs) with human preferences is critical for building reliable AI systems. The problem is typically framed as optimizing an LM policy to maximize the expected reward that reflects human preferences. Recently, Direct Preference Optimization (DPO) was proposed as a LM alignment method that directly optimize the policy from static preference data, and further improved by incorporating on-policy sampling (i.e., preference candidates generated during the training loop) for better LM alignment. However, we show on-policy data is not always optimal, with systematic effectiveness difference emerging between static and on-policy preference candidates. For example, on-policy data can result in a 3$\times$ effectiveness compared with static data for Llama-3, and a 0.4$\times$ effectiveness for Zephyr. To explain the phenomenon, we propose the alignment stage assumption, which divides the alignment process into two distinct stages: the preference injection stage, which benefits from diverse data, and the preference fine-tuning stage, which favors high-quality data. Through theoretical and empirical analysis, we characterize these stages and propose an effective algorithm to identify the boundaries between them. We perform experiments on 5 models (Llama, Zephyr, Phi-2, Qwen, Pythia) and 2 alignment methods (DPO, SLiC-HF) to show the generalizability of alignment stage assumption and boundary measurement.
- Abstract(参考訳): 言語モデル(LM)と人間の好みの整合性は、信頼できるAIシステムを構築する上で重要である。
この問題は典型的には、人間の好みを反映した期待される報酬を最大化するために、LMポリシーを最適化するものである。
近年、静的選好データから直接ポリシーを最適化するLMアライメント手法としてダイレクト選好最適化(DPO)が提案されている。
しかし、政治上のデータは必ずしも最適ではなく、静的な選好候補と政治上の選好候補の間に体系的な効果差が生じる。
例えば、オンラインデータは、Llama-3の静的データと比較して3$\times$の有効性、Zephyrの0.4$\times$効果をもたらす。
この現象を説明するために、アライメント過程を多種多様なデータから恩恵を受ける選好注入段階と、高品質なデータを好む選好微調整段階の2つの異なる段階に分割するアライメント段階仮定を提案する。
理論的および経験的分析を通じて,これらの段階を特徴づけ,それらの境界を同定する有効なアルゴリズムを提案する。
我々は5つのモデル(Llama, Zephyr, Phi-2, Qwen, Pythia)と2つのアライメント法(DPO, SLiC-HF)で実験を行い、アライメントステージの仮定と境界測定の一般化性を示す。
関連論文リスト
- Beyond Single: A Data Selection Principle for LLM Alignment via Fine-Grained Preference Signals [46.58760908162995]
本研究では,大規模言語モデルのための新しい理論的基盤データ選択法を提案する。
直接選好最適化目標の損失境界を解析することにより,この戦略の最適性を証明する。
我々の戦略は、標準的な全体主義的嗜好とより強い託宣の両方に対して、10%以上の相対的な改善を達成する。
論文 参考訳(メタデータ) (2025-08-11T05:43:02Z) - PIPA: Preference Alignment as Prior-Informed Statistical Estimation [57.24096291517857]
本稿では、RLフリーな統一確率的フレームワークであるPIPA(Pior-Informed Preference Alignment)を紹介する。
PIPAはペアデータとアンペアデータの両方に対応し、回答とステップレベルのアノテーションを提供する。
異なる種類の事前情報を統合することにより,PIPA-MとPIPA-Nの2種類のPIPAを開発した。
論文 参考訳(メタデータ) (2025-02-09T04:31:30Z) - Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [63.32585910975191]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。
当社のアプローチは,DPOをかなりのマージンで継続的に向上させることを示す。
本手法は,嗜好データの有用性を最大化するだけでなく,未学習の問題も軽減し,データ拡張を超えてその広範な効果を実証する。
論文 参考訳(メタデータ) (2024-10-10T16:01:51Z) - A Deep Dive into the Trade-Offs of Parameter-Efficient Preference Alignment Techniques [63.10251271444959]
大規模言語モデルは最初、数兆のトークンで事前訓練され、その後、特定の好みに合わせて命令調整または調整される。
我々は,3つの重要な軸に対する人気選択の影響を詳細に調査する。
300以上の実験にまたがるセットアップでは、一貫した傾向と予期せぬ結果が明らかになる。
論文 参考訳(メタデータ) (2024-06-07T12:25:51Z) - Statistical Rejection Sampling Improves Preference Optimization [42.57245965632205]
提案手法は,リジェクションサンプリングを用いた最適ポリシーからのソース選好データに対する新しいアプローチを提案する。
また、嗜好モデルの観点から、SLiC(Sequence Likelihood)とDPO(Direct Preference Optimization)の両方で使用される損失関数を強化する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-13T01:07:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。