Fugu-MT 論文翻訳(概要): Preference-Guided Reflective Sampling for Aligning Language Models

論文の概要: Preference-Guided Reflective Sampling for Aligning Language Models

arxiv url: http://arxiv.org/abs/2408.12163v1
Date: Thu, 22 Aug 2024 07:18:46 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-23 14:53:12.233525
Title: Preference-Guided Reflective Sampling for Aligning Language Models
Title（参考訳）: 適応言語モデルに対する優先誘導反射サンプリング
Authors: Hai Ye, Hwee Tou Ng,
Abstract要約: 我々は、Preference-Guided Reflective Smpling (PRS) と呼ばれる新しいサンプリング手法を提案する。 PRSは、自然言語で記述された明示されたユーザー嗜好に対する最適化プロセスとして応答生成をフレーム化する。命令追従とキーワード中心の文書要約のための嗜好制御テキスト生成について検討する。
参考スコア（独自算出の注目度）: 27.69410513313001
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) are aligned with human preferences by reinforcement learning from human feedback (RLHF). Effective data sampling is crucial for RLHF, as it determines the efficiency of model training, ensuring that models learn from the informative samples. To achieve better data generation, we propose a new sampling method called Preference-Guided Reflective Sampling (PRS). PRS frames the response generation as an optimization process to the explicitly specified user preference described in natural language. It employs a tree-based generation framework to enable an efficient sampling process, which guides the direction of generation through preference and better explores the sampling space with adaptive self-refinement. Notably, PRS can align LLMs to diverse preferences. We study preference-controlled text generation for instruction following and keyword-focused document summarization. Our findings indicate that PRS, across different LLM policies, generates training data with much higher rewards than strong baselines. PRS also excels in post-RL training.
Abstract（参考訳）: 大規模言語モデル(LLM)は、人間からのフィードバック(RLHF)からの強化学習によって、人間の好みに合わせている。効果的なデータサンプリングは、モデルトレーニングの効率を決定するため、RLHFにとって不可欠である。より優れたデータ生成を実現するために,Preference-Guided Reflective Smpling (PRS) と呼ばれる新しいサンプリング手法を提案する。 PRSは、自然言語で記述された明示されたユーザー嗜好に対する最適化プロセスとして応答生成をフレーム化する。ツリーベースの生成フレームワークを使用して、効率的なサンプリングプロセスを実現し、好みを通じて生成の方向を案内し、適応的な自己調整でサンプリング空間をよりよく探索する。特に、PSSはLSMを様々な好みに合わせることができる。命令追従とキーワード中心の文書要約のための嗜好制御テキスト生成について検討する。以上の結果から,PLSは強いベースラインよりも高い報酬でトレーニングデータを生成することが示唆された。 PRSはまた、RL後のトレーニングにも優れている。

関連論文リスト

Finding the Sweet Spot: Preference Data Construction for Scaling Preference Optimization [66.67988187816185]
本研究の目的は、繰り返しランダムサンプリングにより、オンラインサンプルの数を増大させ、アライメント性能を向上させることである。実験の結果,サンプルサイズが大きくなるにつれて,この戦略がエフェデクリンの性能向上につながることが明らかとなった。サンプルの規模が大きくなるにつれてモデル性能を継続的に向上するスケーラブルな嗜好データ構築戦略を導入する。
論文参考訳（メタデータ） (2025-02-24T04:22:57Z)
Clear Preferences Leave Traces: Reference Model-Guided Sampling for Preference Learning [59.11519451499754]
直接選好最適化(DPO)は、言語モデルと人間の選好を整合させるデファクトアプローチとして登場した。最近の研究によると、DPOの有効性はデータ品質のトレーニングに依存している。基準モデル確率空間は,高品質なトレーニングサンプルを自然に検出する。
論文参考訳（メタデータ） (2025-01-25T07:21:50Z)
Preference Optimization with Multi-Sample Comparisons [53.02717574375549]
本稿では,マルチサンプル比較を含むポストトレーニングの拡張手法を提案する。これらのアプローチは、生成的多様性やバイアスといった重要な特徴を捉えられない。マルチサンプル比較はシングルサンプル比較よりも集団特性の最適化に有効であることを示す。
論文参考訳（メタデータ） (2024-10-16T00:59:19Z)
Bridging SFT and DPO for Diffusion Model Alignment with Self-Sampling Preference Optimization [67.8738082040299]
自己サンプリング優先最適化(SSPO)は,訓練後強化学習のための新しいアライメント手法である。 SSPOは、SFTのトレーニング安定性を維持しながら、ペアデータと報酬モデルの必要性を排除する。 SSPOは、テキスト・ツー・イメージベンチマークにおける以前のアプローチを全て上回り、テキスト・ツー・ビデオベンチマークにおける優れたパフォーマンスを示している。
論文参考訳（メタデータ） (2024-10-07T17:56:53Z)
Adaptive Inference-Time Compute: LLMs Can Predict if They Can Do Better, Even Mid-Generation [51.127054971591924]
本稿では,生成サンプル数を適応的に削減する新たな自己評価手法を提案する。平均1.2サンプルだけで16サンプルの使用による改善の74%が達成できることを実証した。
論文参考訳（メタデータ） (2024-10-03T17:47:29Z)
Balancing Diversity and Risk in LLM Sampling: How to Select Your Method and Parameter for Open-Ended Text Generation [60.493180081319785]
本稿では,各復号工程における多様性とリスクのトレードオフを考慮し,トラクションサンプリング手法の本質的な能力を推定する体系的手法を提案する。本研究は,既存のトラクションサンプリング手法の総合的な比較と,ユーザのガイドラインとして推奨されるパラメータについて紹介する。
論文参考訳（メタデータ） (2024-08-24T14:14:32Z)
Turning Up the Heat: Min-p Sampling for Creative and Coherent LLM Outputs [4.122612309805664]
大規模言語モデル(LLM)は、各復号ステップにおける語彙上の確率分布から次のトークンをサンプリングしてテキストを生成する。トップトークンの確率に応じてスケールすることでモデルの信頼度に基づいてサンプリングしきい値を調整する動的トランケーション法である min-p サンプリングを提案する。我々はGPQA、GSM8K、AlpacaEval Creative Writingなどのベンチマーク実験を行い、min-pサンプリングが生成したテキストの品質と多様性を特に高温で改善することを示した。
論文参考訳（メタデータ） (2024-07-01T08:37:25Z)
Fine-Tuning Language Models with Reward Learning on Policy [68.70065254564642]
人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせる効果的なアプローチとして現れている。その人気にもかかわらず、(固定された)報酬モデルが不正確な流通に悩まされることがある。本稿では、政策サンプルを用いて報酬モデルを洗練し、流通を継続する、教師なしのフレームワークであるポリシーに関する報酬学習(RLP)を提案する。
論文参考訳（メタデータ） (2024-03-28T10:02:10Z)
RS-DPO: A Hybrid Rejection Sampling and Direct Preference Optimization Method for Alignment of Large Language Models [7.676477609461592]
人間のフィードバックからの強化学習(RLHF)は、大きな言語モデルとユーザの意図を結びつけるために広く採用されている。 DPOは、ポリシーモデルではなく、人間のアノテーションと代替LDMから生成される対照的な反応に依存している。本稿では,サンプリングリジェクション(RS)とDPOを体系的に組み合わせることで,両課題に対処する。提案手法は,資源環境が制限されたLLMを効果的に微調整し,ユーザ意図との整合性を向上する。
論文参考訳（メタデータ） (2024-02-15T16:00:58Z)
AutoSAM: Towards Automatic Sampling of User Behaviors for Sequential Recommender Systems [48.461157194277504]
本稿では,歴史的挙動を一様に扱わない汎用的な自動サンプリングフレームワークであるAutoSAMを提案する。具体的には、AutoSAMは、サンプル層を追加して標準のシーケンシャルレコメンデーションアーキテクチャを拡張し、生入力のスキュー分布を適応的に学習する。理論的には、Future PredictionやSequence Perplexityなどの多目的サンプリング報酬を設計し、フレームワーク全体をエンドツーエンドで最適化する。
論文参考訳（メタデータ） (2023-11-01T09:25:21Z)
Sampling Through the Lens of Sequential Decision Making [9.101505546901999]
我々はアダプティブ・サンプル・ウィズ・リワード(ASR)と呼ばれる報酬誘導型サンプリング戦略を提案する。提案手法は,サンプリング過程を最適に調整し,最適性能を実現する。情報検索とクラスタリングの実証的な結果は、異なるデータセット間でのASRのスーパーブパフォーマンスを示している。
論文参考訳（メタデータ） (2022-08-17T04:01:29Z)
Reparameterized Sampling for Generative Adversarial Networks [71.30132908130581]
本稿では,マルコフ連鎖をジェネレータの潜在空間に再配置することで,一般依存型提案を可能にする新しいサンプリング手法REP-GANを提案する。実験的な実験により、我々のREP-GANはサンプル効率を大幅に改善し、同時により良いサンプル品質を得ることを示した。
論文参考訳（メタデータ） (2021-07-01T10:34:55Z)
Local policy search with Bayesian optimization [73.0364959221845]
強化学習は、環境との相互作用によって最適な政策を見つけることを目的としている。局所探索のための政策勾配は、しばしばランダムな摂動から得られる。目的関数の確率モデルとその勾配を用いたアルゴリズムを開発する。
論文参考訳（メタデータ） (2021-06-22T16:07:02Z)
Reinforced Data Sampling for Model Diversification [15.547681142342846]
本稿では,データを適切にサンプリングする方法を学ぶための新しいReinforced Data Smpling (RDS)法を提案する。モデルダイバーシフィケーションの最適化問題である$delta-div$をデータサンプリングで定式化し,モデルダイバーシフィケーションを注入することで学習ポテンシャルと最適アロケーションを最大化する。モデル多様化のためのトレーニング可能なサンプリングは,各種機械学習タスクの潜在能力を追求する競技組織,研究者,さらには開始者にとって有用であることが示唆された。
論文参考訳（メタデータ） (2020-06-12T11:46:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。