論文の概要: Larger or Smaller Reward Margins to Select Preferences for Alignment?
- arxiv url: http://arxiv.org/abs/2503.01864v1
- Date: Tue, 25 Feb 2025 06:43:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-09 03:20:33.355540
- Title: Larger or Smaller Reward Margins to Select Preferences for Alignment?
- Title(参考訳): 大または小のリワード・マージンは、アライメントの選好を選択するか?
- Authors: Kexin Huang, Junkang Wu, Ziqian Chen, Xue Wang, Jinyang Gao, Bolin Ding, Jiancan Wu, Xiangnan He, Xiang Wang,
- Abstract要約: 嗜好学習は、大きな言語モデルと人間の価値の整合に不可欠である。
モデルが持つ現在の暗黙の報酬マージンと目標の明示的な報酬マージンとのギャップを定量化するアライメントポテンシャル計量を導入する。
実験結果から,この測定値から選択したデータによるトレーニングはアライメント性能を継続的に向上させることが示された。
- 参考スコア(独自算出の注目度): 47.11487070429289
- License:
- Abstract: Preference learning is critical for aligning large language models (LLMs) with human values, with the quality of preference datasets playing a crucial role in this process. While existing metrics primarily assess data quality based on either explicit or implicit reward margins, they often provide contradictory evaluations for the same data. To address this issue, we introduce the alignment potential metric, which quantifies the gap from the model's current implicit reward margin to the target explicit reward margin, thereby estimating the model's potential to align with the preference data. Empirical results demonstrate that training on data selected by this metric consistently enhances alignment performance, surpassing existing metrics across different base models and optimization objectives. Furthermore, our method extends to self-play data generation frameworks, where the metric is used to identify high-quality data within the self-generated content by LLMs. Under this data generation scenario, our method surpasses current state-of-the-art (SOTA) results across various training settings and demonstrates continuous improvements in alignment performance as dataset size and training iterations increase.
- Abstract(参考訳): 嗜好学習は、大きな言語モデル(LLM)と人間の価値を整合させる上で重要であり、このプロセスにおいて、嗜好データセットの品質が重要な役割を果たす。
既存のメトリクスは主に明示的あるいは暗黙的な報酬マージンに基づいてデータ品質を評価するが、それらはしばしば同じデータに対して矛盾した評価を提供する。
この問題に対処するために,モデルの現在の暗黙の報酬マージンと対象の明示的な報酬マージンとのギャップを定量化するアライメントポテンシャルメトリックを導入する。
実験結果から、この測定基準によって選択されたデータに対するトレーニングは、様々なベースモデルと最適化目標にまたがる既存の指標を超越して、アライメント性能を一貫して向上させることが示された。
さらに,本手法は,LPMによる自己生成コンテンツ内の高品質なデータを識別するために,自己再生データ生成フレームワークに拡張する。
このデータ生成シナリオでは,本手法は様々なトレーニング環境において,現在のSOTA(State-of-the-art)結果を上回っ,データセットサイズやトレーニングイテレーションの増加とともにアライメント性能の継続的な改善を示す。
関連論文リスト
- Beyond Models! Explainable Data Valuation and Metric Adaption for Recommendation [10.964035199849125]
現在の手法では、高品質なデータと低品質なデータとを区別するためにデータバリュエーションを採用している。
本稿では,任意の要求に合わせたデータ利用効率を向上させるための,説明可能な多用途フレームワークDVRを提案する。
筆者らのフレームワークは,NDCGの代表的な指標として,既存の手法よりも最大34.7%改善されている。
論文 参考訳(メタデータ) (2025-02-12T12:01:08Z) - Evaluating Sample Utility for Data Selection by Mimicking Model Weights [12.056542160711718]
ファンデーションモデルは、しばしばノイズ、バイアス、無関係な情報を含む大規模なWebcrawledデータセットに基づいてトレーニングされている。
我々は,新しいデータ品質指標であるMimic Scoreを用いて,効率的なモデルベースアプローチを提案する。
学習のためのサンプルを優先し,効率的なフィルタを作成し,データ選択を自動化するフレームワークであるGrad-Mimicを開発した。
論文 参考訳(メタデータ) (2025-01-12T04:28:14Z) - Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。
このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。
生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文 参考訳(メタデータ) (2024-11-21T02:30:53Z) - Optimizing LLMs with Direct Preferences: A Data Efficiency Perspective [4.548047308860141]
本研究では,異なる種類の嗜好データがモデル性能に与える影響について検討する。
収集に費用がかかる大量の好みデータへの依存を減らすことを目的としている。
論文 参考訳(メタデータ) (2024-10-22T00:11:41Z) - Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [63.32585910975191]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。
そこで本稿では,品質スコアに優先ペアを条件付け,報酬を加算したデータセットを構築する,効果的なデータレバーベリング手法を提案する。
論文 参考訳(メタデータ) (2024-10-10T16:01:51Z) - Spread Preference Annotation: Direct Preference Judgment for Efficient LLM Alignment [72.99676237703099]
大規模言語モデルと人間の嗜好の整合性を高める新しいフレームワークを提案する。
私たちのキーとなるアイデアは、小さな(種)データの中で人間の事前知識を活用することです。
本稿では,ノイズ認識型選好学習アルゴリズムを導入し,生成した選好データにおける品質低下のリスクを軽減する。
論文 参考訳(メタデータ) (2024-06-06T18:01:02Z) - How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - DsDm: Model-Aware Dataset Selection with Datamodels [81.01744199870043]
標準的なプラクティスは、データ品質という人間の考え方にマッチする例をフィルタリングすることです。
質の高い"データソースとの類似性に応じた選択は、ランダムに選択するデータに比べてパフォーマンスが向上しない(さらに傷つく)可能性がある。
我々のフレームワークは、データ品質に関する手作業による概念を回避し、学習プロセスがターゲットタスクの予測にデータポイントをトレーニングする方法を明確にモデル化する。
論文 参考訳(メタデータ) (2024-01-23T17:22:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。