Fugu-MT 論文翻訳(概要): Aligning Language Models with Human Preferences via a Bayesian Approach

論文の概要: Aligning Language Models with Human Preferences via a Bayesian Approach

arxiv url: http://arxiv.org/abs/2310.05782v3
Date: Sat, 13 Jan 2024 11:37:57 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-18 01:23:34.049094
Title: Aligning Language Models with Human Preferences via a Bayesian Approach
Title（参考訳）: ベイズ的アプローチによる人選好言語モデルの調整
Authors: Jiashuo Wang, Haozhao Wang, Shichao Sun, Wenjie Li
Abstract要約: 人間中心の自然言語生成(NLG)システムを推し進めるためには、NLGモデルと人間の嗜好の整合性を確保することが不可欠である。本稿では,人選好における不一致の分布を選好モデルのトレーニングとして考慮するために,ベイズ的枠組みを用いた新しいアプローチを提案する。自動評価と人的評価の両方において,従来のSOTAモデルよりずっと上回っている。
参考スコア（独自算出の注目度）: 11.984246334043673
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In the quest to advance human-centric natural language generation (NLG) systems, ensuring alignment between NLG models and human preferences is crucial. For this alignment, current popular methods leverage a reinforcement learning (RL) approach with a reward model trained on feedback from humans. However, inherent disagreements due to the subjective nature of human preferences pose a significant challenge for training the reward model, resulting in a deterioration of the NLG performance. To tackle this issue, previous approaches typically rely on majority voting or averaging to consolidate multiple inconsistent preferences into a merged one. Although straightforward to understand and execute, such methods suffer from an inability to capture the nuanced degrees of disaggregation among humans and may only represent a specialized subset of individuals, thereby lacking the ability to quantitatively disclose the universality of human preferences. To address this challenge, this paper proposes a novel approach, which employs a Bayesian framework to account for the distribution of disagreements among human preferences as training a preference model, and names it as d-PM. Besides, considering the RL strategy's inefficient and complex training process over the training efficiency, we further propose utilizing the contrastive learning strategy to train the NLG model with the preference scores derived from the d-PM model. Extensive experiments on two human-centric NLG tasks, i.e., emotional support conversation and integrity "Rule-of-Thumb" generation, show that our method consistently exceeds previous SOTA models in both automatic and human evaluations.
Abstract（参考訳）: 人間中心の自然言語生成(NLG)システムを推し進めるためには、NLGモデルと人間の嗜好の整合性を確保することが不可欠である。このアライメントのために、現在の一般的な方法は、人間からのフィードバックに基づいて訓練された報酬モデルで強化学習(RL)アプローチを利用する。しかし,人間の嗜好の主観的性質による内在的な不一致は,報酬モデルの訓練において大きな課題となり,nlgパフォーマンスの低下を招いた。この問題に対処するため、従来のアプローチは通常、複数の一貫性のない選好をマージしたものに集約するために、多数決または平均化に依存していた。理解と実行は容易であるが、このような手法は人間の不合理さを捉えることができず、個人の特別なサブセットのみを表現できるため、人間の嗜好の普遍性を定量的に開示する能力が欠如している。この課題に対処するために, ベイズ的枠組みを用いて, 選好モデルのトレーニングとして, 人選好間の不一致の分布を考慮し, d-PMと命名する手法を提案する。さらに,学習効率よりもRL戦略の非効率で複雑な訓練プロセスを考えると,NLGモデルをd-PMモデルから導出した選好スコアで学習するためのコントラスト学習戦略も提案する。感情的支援会話と整合性(Rule-of-Thumb)生成という2つの人間中心型NLGタスクに対する広範囲な実験により,本手法が従来のSOTAモデルを上回る結果が得られた。

関連論文リスト

Multi-Task Reward Learning from Human Ratings [1.6133809033337525]
複数のタスクを共同で検討し、人間の意思決定を模倣する新しい強化学習法を提案する。報酬のない環境における人間の評価を活用し、報酬関数を推論し、分類モデルと回帰モデルの両方の貢献のバランスをとる学習可能な重みを導入します。その結果,提案手法は既存のレーティングに基づくRL手法よりも常に優れており,場合によっては従来のRL手法よりも優れていた。
論文参考訳（メタデータ） (2025-06-10T19:00:19Z)
Self-NPO: Negative Preference Optimization of Diffusion Models by Simply Learning from Itself without Explicit Preference Annotations [60.143658714894336]
拡散モデルは、画像、ビデオ、および3Dコンテンツ生成を含む様々な視覚生成タスクにおいて顕著な成功を収めている。優先度最適化(PO)は、これらのモデルを人間の嗜好に合わせることを目的とした、顕著で成長している研究分野である。モデル自体からのみ学習する負の選好最適化アプローチであるSelf-NPOを導入する。
論文参考訳（メタデータ） (2025-05-17T01:03:46Z)
Contextual Online Uncertainty-Aware Preference Learning for Human Feedback [13.478503755314344]
RLHF(Reinforcement Learning from Human Feedback)は人工知能において重要なパラダイムとなっている。最適モデルに基づくオンライン意思決定と統計的推測を同時に行うための新しい統計的枠組みを提案する。本稿では,大規模マルチタスク言語理解データセット上での大規模言語モデルのランク付けのための人間の嗜好データ分析に,提案手法を適用した。
論文参考訳（メタデータ） (2025-04-27T19:59:11Z)
Personalizing Reinforcement Learning from Human Feedback with Variational Preference Learning [12.742158403867002]
ヒューマンフィードバックからの強化学習は、基礎モデルを人間の価値観や好みに合わせるための強力なパラダイムである。現在のRLHF技術は、多様な集団における個人の嗜好の自然に生じる相違を説明できない。マルチモーダルなRLHF手法のクラスを開発し,多元的アライメントの必要性に対処する。
論文参考訳（メタデータ） (2024-08-19T15:18:30Z)
Joint Demonstration and Preference Learning Improves Policy Alignment with Human Feedback [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文参考訳（メタデータ） (2024-06-11T01:20:53Z)
RLHF from Heterogeneous Feedback via Personalization and Preference Aggregation [24.374185140811115]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムを人間の価値と整合させる効果的な手法である。本稿では、人間の嗜好に固有の異質性や、フィードバックの提供における潜在的な戦略的行動から、この問題に対処することに焦点を当てる。本研究では, 個人化に基づく手法と集約に基づく手法の2つの枠組みを提案する。
論文参考訳（メタデータ） (2024-04-30T23:57:23Z)
MaxMin-RLHF: Towards Equitable Alignment of Large Language Models with Diverse Human Preferences [101.57443597426374]
Reinforcement Learning from Human Feedback (RLHF) は、言語モデルと人間の嗜好を一致させる。予測最大化アルゴリズムを用いて嗜好分布の混合を学習し、人間の嗜好をよりよく表現する。従来のRLHFアルゴリズムよりも16%以上の勝利率向上を実現している。
論文参考訳（メタデータ） (2024-02-14T03:56:27Z)
Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文参考訳（メタデータ） (2024-01-11T17:56:59Z)
Aligning Large Language Models with Human Preferences through Representation Engineering [41.81020951061438]
表現工学(RepE)の新たな分野から着想を得た本研究は,LLM内の活動パターンに埋め込まれた高レベルの人間の嗜好の関連表現を特定することを目的としている。この新しいアプローチは、人間フィードバックからの表現アライメント(Representation Alignment from Human Feedback、RAHF)と呼ばれ、効果的で、計算的に効率的で、実装が容易であることが証明されている。
論文参考訳（メタデータ） (2023-12-26T11:01:36Z)
SALMON: Self-Alignment with Instructable Reward Models [80.83323636730341]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。私たちはDromedary-2という名のAIアシスタントを開発しており、コンテキスト内学習には6つの例と31の人間定義原則しかありません。
論文参考訳（メタデータ） (2023-10-09T17:56:53Z)
Direct Preference Optimization: Your Language Model is Secretly a Reward Model [119.65409513119963]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。 DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文参考訳（メタデータ） (2023-05-29T17:57:46Z)
Weak Human Preference Supervision For Deep Reinforcement Learning [48.03929962249475]
人間の好みによる現在の報酬学習は、報酬関数にアクセスせずに複雑な強化学習(RL)タスクを解決するために使用できる。そこで我々は,人間の嗜好スケーリングモデルを開発した,弱い人間の嗜好監視フレームワークを提案する。提案手法では,環境との相互作用の 0.01% 未満の人的フィードバックしか必要としない。
論文参考訳（メタデータ） (2020-07-25T10:37:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。