論文の概要: Data-Centric Human Preference with Rationales for Direct Preference Alignment
- arxiv url: http://arxiv.org/abs/2407.14477v4
- Date: Sun, 13 Jul 2025 19:41:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:21.158725
- Title: Data-Centric Human Preference with Rationales for Direct Preference Alignment
- Title(参考訳): 直接選好アライメントのための合理化によるデータ中心の人間選好
- Authors: Hoang Anh Just, Ming Jin, Anit Sahu, Huy Phan, Ruoxi Jia,
- Abstract要約: 本稿では,人間の嗜好の背景にある理由を説明する理屈による標準選好ペアの強化を提案する。
包括的分析により,合理性を取り入れることで学習効率が向上することが示された。
本研究は,優先学習における思慮深いデータ設計の可能性を示すものである。
- 参考スコア(独自算出の注目度): 23.243583332894737
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Aligning language models with human preferences through reinforcement learning from human feedback is crucial for their safe and effective deployment. The human preference is typically represented through comparison where one response is chosen over another for a given prompt. However, standard preference datasets often lack explicit information on why a particular choice was made, presenting an ambiguity that can hinder efficient learning and robust alignment, especially given the high cost of acquiring extensive human annotations. While many studies focus on algorithmic improvements, this work adopts a data-centric perspective, exploring how to enhance learning from existing preference data. We propose augmenting standard preference pairs with rationales that explain the reasoning behind the human preference. Specifically, we introduce a simple and principled framework that leverages machine-generated rationales to enrich preference data for preference optimization algorithms. Our comprehensive analysis demonstrates that incorporating rationales improves learning efficiency. Extensive experiments reveal some advantages: rationale-augmented learning accelerates convergence and can achieve higher final model performance. Furthermore, this approach is versatile and compatible with various direct preference optimization algorithms. Our findings showcase the potential of thoughtful data design in preference learning, demonstrating that enriching existing datasets with explanatory rationales can help unlock improvements in model alignment and annotation efficiency.
- Abstract(参考訳): 人間のフィードバックからの強化学習を通じて、人間の好みで言語モデルを調整することは、安全で効果的なデプロイメントに不可欠である。
人間の好みは、通常、あるプロンプトに対して別の反応が選択される比較によって表される。
しかしながら、標準的な選好データセットには、特定の選択が行われた理由に関する明確な情報がなく、特に広範囲な人間のアノテーションを取得するコストが高いため、効率的な学習とロバストなアライメントを妨げる曖昧さが示される。
多くの研究はアルゴリズムの改善に焦点を当てているが、この研究はデータ中心の視点を採用し、既存の嗜好データから学習を強化する方法を模索している。
本稿では,人間の嗜好の背景にある理由を説明する理屈による標準選好ペアの強化を提案する。
具体的には、機械生成の合理性を活用して、選好最適化アルゴリズムのための選好データを強化する、シンプルで原則化されたフレームワークを提案する。
包括的分析により,合理性を取り入れることで学習効率が向上することが示された。
合理化学習は収束を加速し、最終モデルのより高い性能を達成する。
さらに、このアプローチは汎用的で、様々な直接選好最適化アルゴリズムと互換性がある。
この結果から,予測的理性を持った既存データセットの充実が,モデルアライメントとアノテーション効率の向上の鍵を握ることが示唆された。
関連論文リスト
- Intuitionistic Fuzzy Sets for Large Language Model Data Annotation: A Novel Approach to Side-by-Side Preference Labeling [0.0]
本稿では,多言語モデル(LLM)における人間の嗜好をモデル化・集約するための直観的ファジィ集合(IFS)に基づく新しい枠組みを提案する。
我々のアプローチは、選好の度合いだけでなく、メンバーシップ、非メンバーシップ、およびヒューイテーションの度合いを通じて、人間の判断に固有の不確実性や偏見も捉えている。
複数のデータセットに対する実験的検証は、我々のIFSベースのアプローチがアノテーションの一貫性を大幅に改善し、アノテータの疲労を低減し、高品質な嗜好データを生成することを示した。
論文 参考訳(メタデータ) (2025-05-30T04:20:00Z) - Sharpe Ratio-Guided Active Learning for Preference Optimization in RLHF [67.48004037550064]
本稿では,プロンプトと選好のペアを効率的に選択する能動的学習手法を提案する。
提案手法は,モデル更新に対する影響を評価するために,すべての潜在的選好アノテーションの勾配を評価する。
実験の結果,提案手法は,選択した完了に対する勝利率を最大5%向上させることがわかった。
論文 参考訳(メタデータ) (2025-03-28T04:22:53Z) - Active Learning for Direct Preference Optimization [59.84525302418018]
直接選好最適化(DPO)は、人間のフィードバックからの強化学習の一種である。
オンラインのフィードバック収集や,すでに収集したフィードバックの最も情報性の高いサブセットをオフラインで選択できる,DPOのためのアクティブラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-03T00:36:31Z) - Preference learning made easy: Everything should be understood through win rate [25.849945888898997]
本研究は、ペアワイズ選好データのサンプリングから始まる選好学習を理解するための枠組みを提案する。
まず、データ分布における嗜好と有病率の両方を尊重する生成モデルの唯一の評価が、勝利率の一形態であることを示す。
次に、選好学習手法を、勝利率最適化(WRO)または非WROとして分析する。
論文 参考訳(メタデータ) (2025-02-14T19:01:34Z) - Optimizing LLMs with Direct Preferences: A Data Efficiency Perspective [4.548047308860141]
本研究では,異なる種類の嗜好データがモデル性能に与える影響について検討する。
収集に費用がかかる大量の好みデータへの依存を減らすことを目的としている。
論文 参考訳(メタデータ) (2024-10-22T00:11:41Z) - LRHP: Learning Representations for Human Preferences via Preference Pairs [45.056558199304554]
本研究では、よりリッチで構造化された人間の嗜好表現を構築することを目的とした嗜好表現学習タスクを提案する。
選好データ選択と選好マージン予測という2つの下流タスクにおける選好表現の有用性を検証する。
論文 参考訳(メタデータ) (2024-10-06T14:48:28Z) - Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。
その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文 参考訳(メタデータ) (2024-09-26T12:37:26Z) - Leveraging Variation Theory in Counterfactual Data Augmentation for Optimized Active Learning [19.962212551963383]
アクティブラーニング(AL)は、モデルがユーザフィードバックからインタラクティブに学習することを可能にする。
本稿では,ALに反実データ拡張手法を提案する。
論文 参考訳(メタデータ) (2024-08-07T14:55:04Z) - Calibrating LLMs with Preference Optimization on Thought Trees for Generating Rationale in Science Question Scoring [16.38771834692938]
より忠実な論理を生成できる新しいフレームワークを提案し、さらに重要なことに、ブラックボックススコアリングシステムと性能をマッチングする。
まず,Large Language Models (LLM) をクエリして思考木を生成することで,人間の評価プロセスを模倣する。
次に、各思考木経路から中間的評価決定を要約し、合成的合理性データと合理性選好データを作成する。
論文 参考訳(メタデータ) (2024-06-28T14:33:05Z) - Unpacking DPO and PPO: Disentangling Best Practices for Learning from Preference Feedback [110.16220825629749]
嗜好フィードバックからの学習は、現代言語モデルの生成品質と性能を改善するための重要なステップとして現れてきた。
本研究では、嗜好データ、学習アルゴリズム、報酬モデル、政策訓練プロンプトという、嗜好に基づく学習の4つの側面を特定する。
以上の結果から,すべての側面がパフォーマンス上重要であることが示唆された。
論文 参考訳(メタデータ) (2024-06-13T16:17:21Z) - Aligning Large Language Models with Self-generated Preference Data [72.99676237703099]
大規模言語モデル(LLM)と人間の嗜好との整合性を高める新しいフレームワークを提案する。
私たちのキーとなるアイデアは、小さな(種)データの中で人間の事前知識を活用することです。
本稿では,ノイズ認識型選好学習アルゴリズムを導入し,生成した選好データにおける品質低下のリスクを軽減する。
論文 参考訳(メタデータ) (2024-06-06T18:01:02Z) - Adaptive Preference Scaling for Reinforcement Learning with Human Feedback [103.36048042664768]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の価値を合わせるための一般的なアプローチである。
本稿では,分散ロバスト最適化(DRO)に基づく適応的優先損失を提案する。
提案手法は多用途であり,様々な選好最適化フレームワークに容易に適用可能である。
論文 参考訳(メタデータ) (2024-06-04T20:33:22Z) - Pragmatic Feature Preferences: Learning Reward-Relevant Preferences from Human Input [17.131441665935128]
より正確な報酬モデルを学ぶのに有用な例が好まれる理由について,より詳細なデータを抽出する方法を検討する。
本研究は, 実用的特徴嗜好を取り入れることが, より効率的なユーザ適応型報酬学習に有望なアプローチであることが示唆された。
論文 参考訳(メタデータ) (2024-05-23T16:36:16Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - ULMA: Unified Language Model Alignment with Human Demonstration and
Point-wise Preference [16.73260713938154]
典型的なアライメント手順は、教師付き微調整と選好学習からなる。
本稿では,ポイントワイズフィードバックを効果的に活用する新しい選好学習手法であるPoint-wise Direct Preference Optimizationを紹介する。
我々の研究は、教師付き微調整とポイントワイド選好学習の新たなつながりを明らかにし、統一言語モデルアライメント(英語版)に到達した。
論文 参考訳(メタデータ) (2023-12-05T07:52:12Z) - Sample Efficient Preference Alignment in LLMs via Active Exploration [63.84454768573154]
良い政策を最も効率的に特定するために、人間のフィードバックを得るコンテキストをしばしば選択できるという事実を活用します。
本稿では,データを効率的に選択する能動的探索アルゴリズムを提案する。
提案手法は,複数の言語モデルと4つの実世界のデータセットに対する人間の嗜好の限られたサンプルを用いて,ベースラインよりも優れる。
論文 参考訳(メタデータ) (2023-12-01T00:54:02Z) - A Data Driven Sequential Learning Framework to Accelerate and Optimize
Multi-Objective Manufacturing Decisions [1.5771347525430772]
本稿では、逐次学習を利用して複雑なシステムを効率的に最適化する新しいデータ駆動型ベイズ最適化フレームワークを提案する。
提案フレームワークは,データ取得が高価で資源集約的な実用アプリケーションにおいて特に有用である。
提案されたデータ駆動フレームワークは、コストと時間を削減して、同様の製造上の決定を下す可能性がある。
論文 参考訳(メタデータ) (2023-04-18T20:33:08Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - Compactness Score: A Fast Filter Method for Unsupervised Feature
Selection [66.84571085643928]
本稿では,CSUFS (Compactness Score) と呼ばれる高速な教師なし特徴選択手法を提案する。
提案アルゴリズムは既存のアルゴリズムよりも正確で効率的である。
論文 参考訳(メタデータ) (2022-01-31T13:01:37Z) - Training With Data Dependent Dynamic Learning Rates [8.833548357664608]
本稿では,インスタンス間の損失関数特性の違いを考慮に入れた最適化フレームワークを提案する。
我々のフレームワークはデータセットに存在する各インスタンスの動的学習率を学習する。
我々のフレームワークは、機械学習モデルのパーソナライズに、既知のターゲットデータ分布に対して使用できることを示す。
論文 参考訳(メタデータ) (2021-05-27T21:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。