論文の概要: Data-Centric Human Preference Optimization with Rationales
- arxiv url: http://arxiv.org/abs/2407.14477v1
- Date: Fri, 19 Jul 2024 17:27:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-22 16:35:50.908889
- Title: Data-Centric Human Preference Optimization with Rationales
- Title(参考訳): 合理化を用いたデータ中心の人間選好最適化
- Authors: Hoang Anh Just, Ming Jin, Anit Sahu, Huy Phan, Ruoxi Jia,
- Abstract要約: 人間のフィードバックからの強化学習は、言語モデルを人間の好みに合わせる上で重要な役割を担っている。
この作業は、データ中心のアプローチによる好み学習の改善に重点を移す。
我々は、選択の背景にある理由を説明する機械生成論理を用いて、既存の嗜好データセットを豊かにすることを提案する。
- 参考スコア(独自算出の注目度): 23.243583332894737
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning from human feedback plays a crucial role in aligning language models towards human preferences, traditionally represented through comparisons between pairs or sets of responses within a given context. While many studies have enhanced algorithmic techniques to optimize learning from such data, this work shifts focus to improving preference learning through a data-centric approach. Specifically, we propose enriching existing preference datasets with machine-generated rationales that explain the reasons behind choices. We develop a simple and principled framework to augment current preference learning methods with rationale information. Our comprehensive analysis highlights how rationales enhance learning efficiency. Extensive experiments reveal that rationale-enriched preference learning offers multiple advantages: it improves data efficiency, accelerates convergence to higher-performing models, and reduces verbosity bias and hallucination. Furthermore, this framework is versatile enough to integrate with various preference optimization algorithms. Overall, our findings highlight the potential of re-imagining data design for preference learning, demonstrating that even freely available machine-generated rationales can significantly boost performance across multiple dimensions. The code repository is available at https: //github.com/reds-lab/preference-learning-with-rationales
- Abstract(参考訳): 人間のフィードバックからの強化学習は、言語モデルを人間の好みに合わせる上で重要な役割を担います。
多くの研究は、そのようなデータからの学習を最適化するアルゴリズム技術を強化してきたが、この研究は、データ中心のアプローチによる嗜好学習の改善に焦点を移している。
具体的には、選択の背景にある理由を説明する機械生成論理を用いた既存の嗜好データセットの強化を提案する。
我々は、合理的な情報で現在の嗜好学習方法を強化するための、シンプルで原則化されたフレームワークを開発する。
我々の総合的な分析は、合理性が学習効率を高める方法を強調している。
データ効率を改善し、より高いパフォーマンスのモデルへの収束を加速し、冗長性バイアスと幻覚を減らす。
さらに、このフレームワークは様々な選好最適化アルゴリズムを統合するのに十分な汎用性がある。
全体としては、選好学習のためのデータ設計を再定義する可能性を強調し、自由に利用できる機械生成の合理性でさえ、複数の次元にわたる性能を著しく向上させることができることを示した。
コードリポジトリはhttps: //github.com/reds-lab/preference-learning-with-rationalesで入手できる。
関連論文リスト
- Unpacking DPO and PPO: Disentangling Best Practices for Learning from Preference Feedback [110.16220825629749]
嗜好フィードバックからの学習は、現代言語モデルの生成品質と性能を改善するための重要なステップとして現れてきた。
本研究では、嗜好データ、学習アルゴリズム、報酬モデル、政策訓練プロンプトという、嗜好に基づく学習の4つの側面を特定する。
以上の結果から,すべての側面がパフォーマンス上重要であることが示唆された。
論文 参考訳(メタデータ) (2024-06-13T16:17:21Z) - Optimized Feature Generation for Tabular Data via LLMs with Decision Tree Reasoning [53.241569810013836]
大規模言語モデル(LLM)と決定木推論(OCTree)に基づく新しいフレームワークを提案する。
私たちのキーとなるアイデアは、LLMの推論機能を活用して、手動で検索スペースを指定せずに優れた特徴生成ルールを見つけることです。
実験の結果、この単純なフレームワークは様々な予測モデルの性能を一貫して向上させることが示された。
論文 参考訳(メタデータ) (2024-06-12T08:31:34Z) - Aligning Large Language Models with Self-generated Preference Data [72.99676237703099]
大規模言語モデル(LLM)と人間の嗜好との整合性を高める新しいフレームワークを提案する。
私たちのキーとなるアイデアは、小さな(種)データの中で人間の事前知識を活用することです。
本稿では,ノイズ認識型選好学習アルゴリズムを導入し,生成した選好データにおける品質低下のリスクを軽減する。
論文 参考訳(メタデータ) (2024-06-06T18:01:02Z) - Adaptive Preference Scaling for Reinforcement Learning with Human Feedback [103.36048042664768]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の価値を合わせるための一般的なアプローチである。
本稿では,分散ロバスト最適化(DRO)に基づく適応的優先損失を提案する。
提案手法は多用途であり,様々な選好最適化フレームワークに容易に適用可能である。
論文 参考訳(メタデータ) (2024-06-04T20:33:22Z) - Optimal Design for Human Feedback [17.520528548509944]
学習嗜好モデルにおけるデータ収集の問題について検討する。
提案するアイデアの一般性を示すため,リストの絶対的フィードバックと相対的フィードバックの両方について検討する。
設定と解析の両方に効率的なアルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-04-22T06:05:35Z) - Active Preference Learning for Large Language Models [12.093302163058436]
我々は、好みラベルをよりよく活用するために、DPOのアクティブな学習戦略を開発する。
本稿では,言語モデルの予測エントロピーに基づく,プロンプト/コンプリートペアの実用的な獲得関数を提案する。
提案手法は,ペアの選好データに基づく微調整の学習率と最終性能の両方を改善する方法を示す。
論文 参考訳(メタデータ) (2024-02-12T23:09:00Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - A Data Driven Sequential Learning Framework to Accelerate and Optimize
Multi-Objective Manufacturing Decisions [1.5771347525430772]
本稿では、逐次学習を利用して複雑なシステムを効率的に最適化する新しいデータ駆動型ベイズ最適化フレームワークを提案する。
提案フレームワークは,データ取得が高価で資源集約的な実用アプリケーションにおいて特に有用である。
提案されたデータ駆動フレームワークは、コストと時間を削減して、同様の製造上の決定を下す可能性がある。
論文 参考訳(メタデータ) (2023-04-18T20:33:08Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - Training With Data Dependent Dynamic Learning Rates [8.833548357664608]
本稿では,インスタンス間の損失関数特性の違いを考慮に入れた最適化フレームワークを提案する。
我々のフレームワークはデータセットに存在する各インスタンスの動的学習率を学習する。
我々のフレームワークは、機械学習モデルのパーソナライズに、既知のターゲットデータ分布に対して使用できることを示す。
論文 参考訳(メタデータ) (2021-05-27T21:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。