論文の概要: Preference-Guided Reflective Sampling for Aligning Language Models
- arxiv url: http://arxiv.org/abs/2408.12163v1
- Date: Thu, 22 Aug 2024 07:18:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-23 14:53:12.233525
- Title: Preference-Guided Reflective Sampling for Aligning Language Models
- Title(参考訳): 適応言語モデルに対する優先誘導反射サンプリング
- Authors: Hai Ye, Hwee Tou Ng,
- Abstract要約: 我々は、Preference-Guided Reflective Smpling (PRS) と呼ばれる新しいサンプリング手法を提案する。
PRSは、自然言語で記述された明示されたユーザー嗜好に対する最適化プロセスとして応答生成をフレーム化する。
命令追従とキーワード中心の文書要約のための嗜好制御テキスト生成について検討する。
- 参考スコア(独自算出の注目度): 27.69410513313001
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are aligned with human preferences by reinforcement learning from human feedback (RLHF). Effective data sampling is crucial for RLHF, as it determines the efficiency of model training, ensuring that models learn from the informative samples. To achieve better data generation, we propose a new sampling method called Preference-Guided Reflective Sampling (PRS). PRS frames the response generation as an optimization process to the explicitly specified user preference described in natural language. It employs a tree-based generation framework to enable an efficient sampling process, which guides the direction of generation through preference and better explores the sampling space with adaptive self-refinement. Notably, PRS can align LLMs to diverse preferences. We study preference-controlled text generation for instruction following and keyword-focused document summarization. Our findings indicate that PRS, across different LLM policies, generates training data with much higher rewards than strong baselines. PRS also excels in post-RL training.
- Abstract(参考訳): 大規模言語モデル(LLM)は、人間からのフィードバック(RLHF)からの強化学習によって、人間の好みに合わせている。
効果的なデータサンプリングは、モデルトレーニングの効率を決定するため、RLHFにとって不可欠である。
より優れたデータ生成を実現するために,Preference-Guided Reflective Smpling (PRS) と呼ばれる新しいサンプリング手法を提案する。
PRSは、自然言語で記述された明示されたユーザー嗜好に対する最適化プロセスとして応答生成をフレーム化する。
ツリーベースの生成フレームワークを使用して、効率的なサンプリングプロセスを実現し、好みを通じて生成の方向を案内し、適応的な自己調整でサンプリング空間をよりよく探索する。
特に、PSSはLSMを様々な好みに合わせることができる。
命令追従とキーワード中心の文書要約のための嗜好制御テキスト生成について検討する。
以上の結果から,PLSは強いベースラインよりも高い報酬でトレーニングデータを生成することが示唆された。
PRSはまた、RL後のトレーニングにも優れている。
関連論文リスト
- Clear Preferences Leave Traces: Reference Model-Guided Sampling for Preference Learning [59.11519451499754]
直接選好最適化(DPO)は、言語モデルと人間の選好を整合させるデファクトアプローチとして登場した。
最近の研究によると、DPOの有効性はデータ品質のトレーニングに依存している。
基準モデル確率空間は,高品質なトレーニングサンプルを自然に検出する。
論文 参考訳(メタデータ) (2025-01-25T07:21:50Z) - Preference Optimization with Multi-Sample Comparisons [53.02717574375549]
本稿では,マルチサンプル比較を含むポストトレーニングの拡張手法を提案する。
これらのアプローチは、生成的多様性やバイアスといった重要な特徴を捉えられない。
マルチサンプル比較はシングルサンプル比較よりも集団特性の最適化に有効であることを示す。
論文 参考訳(メタデータ) (2024-10-16T00:59:19Z) - Fine-Tuning Language Models with Reward Learning on Policy [68.70065254564642]
人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせる効果的なアプローチとして現れている。
その人気にもかかわらず、(固定された)報酬モデルが不正確な流通に悩まされることがある。
本稿では、政策サンプルを用いて報酬モデルを洗練し、流通を継続する、教師なしのフレームワークであるポリシーに関する報酬学習(RLP)を提案する。
論文 参考訳(メタデータ) (2024-03-28T10:02:10Z) - RS-DPO: A Hybrid Rejection Sampling and Direct Preference Optimization Method for Alignment of Large Language Models [7.676477609461592]
人間のフィードバックからの強化学習(RLHF)は、大きな言語モデルとユーザの意図を結びつけるために広く採用されている。
DPOは、ポリシーモデルではなく、人間のアノテーションと代替LDMから生成される対照的な反応に依存している。
本稿では,サンプリングリジェクション(RS)とDPOを体系的に組み合わせることで,両課題に対処する。
提案手法は,資源環境が制限されたLLMを効果的に微調整し,ユーザ意図との整合性を向上する。
論文 参考訳(メタデータ) (2024-02-15T16:00:58Z) - AutoSAM: Towards Automatic Sampling of User Behaviors for Sequential Recommender Systems [48.461157194277504]
本稿では,歴史的挙動を一様に扱わない汎用的な自動サンプリングフレームワークであるAutoSAMを提案する。
具体的には、AutoSAMは、サンプル層を追加して標準のシーケンシャルレコメンデーションアーキテクチャを拡張し、生入力のスキュー分布を適応的に学習する。
理論的には、Future PredictionやSequence Perplexityなどの多目的サンプリング報酬を設計し、フレームワーク全体をエンドツーエンドで最適化する。
論文 参考訳(メタデータ) (2023-11-01T09:25:21Z) - Sampling Through the Lens of Sequential Decision Making [9.101505546901999]
我々はアダプティブ・サンプル・ウィズ・リワード(ASR)と呼ばれる報酬誘導型サンプリング戦略を提案する。
提案手法は,サンプリング過程を最適に調整し,最適性能を実現する。
情報検索とクラスタリングの実証的な結果は、異なるデータセット間でのASRのスーパーブパフォーマンスを示している。
論文 参考訳(メタデータ) (2022-08-17T04:01:29Z) - Reparameterized Sampling for Generative Adversarial Networks [71.30132908130581]
本稿では,マルコフ連鎖をジェネレータの潜在空間に再配置することで,一般依存型提案を可能にする新しいサンプリング手法REP-GANを提案する。
実験的な実験により、我々のREP-GANはサンプル効率を大幅に改善し、同時により良いサンプル品質を得ることを示した。
論文 参考訳(メタデータ) (2021-07-01T10:34:55Z) - Local policy search with Bayesian optimization [73.0364959221845]
強化学習は、環境との相互作用によって最適な政策を見つけることを目的としている。
局所探索のための政策勾配は、しばしばランダムな摂動から得られる。
目的関数の確率モデルとその勾配を用いたアルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-06-22T16:07:02Z) - Reinforced Data Sampling for Model Diversification [15.547681142342846]
本稿では,データを適切にサンプリングする方法を学ぶための新しいReinforced Data Smpling (RDS)法を提案する。
モデルダイバーシフィケーションの最適化問題である$delta-div$をデータサンプリングで定式化し,モデルダイバーシフィケーションを注入することで学習ポテンシャルと最適アロケーションを最大化する。
モデル多様化のためのトレーニング可能なサンプリングは,各種機械学習タスクの潜在能力を追求する競技組織,研究者,さらには開始者にとって有用であることが示唆された。
論文 参考訳(メタデータ) (2020-06-12T11:46:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。