Fugu-MT 論文翻訳(概要): Direct Alignment with Heterogeneous Preferences

論文の概要: Direct Alignment with Heterogeneous Preferences

arxiv url: http://arxiv.org/abs/2502.16320v1
Date: Sat, 22 Feb 2025 18:46:33 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-25 22:36:56.099331
Title: Direct Alignment with Heterogeneous Preferences
Title（参考訳）: 不均一な選好による直列アライメント
Authors: Ali Shirali, Arash Nasr-Esfahany, Abdullah Alomar, Parsa Mirtaheri, Rediet Abebe, Ariel Procaccia,
Abstract要約: ユーザタイプ全体の平均報酬を用いて、不均一な嗜好と単一ポリシーとの整合性が最善であることを示す。最小限の情報が優先的な改善をもたらすのに対して、各ユーザタイプからの完全なフィードバックは、最適なポリシを一貫した学習につながります。
参考スコア（独自算出の注目度）: 11.693372619696683
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Alignment with human preferences is commonly framed using a universal reward function, even though human preferences are inherently heterogeneous. We formalize this heterogeneity by introducing user types and examine the limits of the homogeneity assumption. We show that aligning to heterogeneous preferences with a single policy is best achieved using the average reward across user types. However, this requires additional information about annotators. We examine improvements under different information settings, focusing on direct alignment methods. We find that minimal information can yield first-order improvements, while full feedback from each user type leads to consistent learning of the optimal policy. Surprisingly, however, no sample-efficient consistent direct loss exists in this latter setting. These results reveal a fundamental tension between consistency and sample efficiency in direct policy alignment.
Abstract（参考訳）: 人間の嗜好とのアライメントは、人間の嗜好が本質的に異質であるにもかかわらず、普遍的な報奨関数を用いてフレーム化されるのが一般的である。ユーザタイプを導入し、同質性の仮定の限界を検証することによって、この不均一性を形式化する。ユーザタイプ全体の平均報酬を用いて、不均一な嗜好と単一ポリシーとの整合性が最善であることを示す。しかし、これはアノテーションに関する追加情報を必要とする。情報設定の違いによる改善について検討し, 直接アライメント手法に着目した。最小限の情報が優先的な改善をもたらすのに対して、各ユーザタイプからの完全なフィードバックは、最適なポリシを一貫した学習につながります。しかし、この後者の設定ではサンプル効率の一貫性のある直接損失は存在しない。これらの結果は、直接政策アライメントにおける一貫性とサンプル効率の基本的な緊張関係を明らかにしている。

関連論文リスト

On Symmetric Losses for Robust Policy Optimization with Noisy Preferences [55.8615920580824]
この研究は、人間からのフィードバックから強化学習のコアコンポーネントである報酬モデリングに焦点を当てている。本稿では, 騒音条件下でのロバストな政策最適化のための基本的枠組みを提案する。対称的損失は,ノイズラベルの下でも政策最適化を成功させることができることを証明した。
論文参考訳（メタデータ） (2025-05-30T15:30:43Z)
Pairwise Calibrated Rewards for Pluralistic Alignment [32.82521299417802]
現在のアライメントパイプラインは、望ましい振る舞いという単一の普遍的な概念を前提としている。複数の報酬関数にまたがる分布を通して、多様な人間の嗜好を反映することを提案する。我々は,小さな外乱のないアンサンブルであっても,様々な好み分布を正確に表現できることを証明した。
論文参考訳（メタデータ） (2025-05-17T18:38:24Z)
Robust Reward Alignment via Hypothesis Space Batch Cutting [6.4274405516321655]
本稿では,新鮮かつ幾何学的に解釈可能な視点に基づく,堅牢で効率的な報酬アライメント手法を提案する。提案手法は,人間の嗜好のバッチに基づいて,報酬仮説空間を「カット」により反復的に洗練する。未知の誤選好に対処するため, 各バッチに保守的切削手法を導入する。
論文参考訳（メタデータ） (2025-02-05T06:30:14Z)
Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。数発のステアライメントのための新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-12-18T16:14:59Z)
Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [63.32585910975191]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。そこで本稿では,品質スコアに優先ペアを条件付け,報酬を加算したデータセットを構築する,効果的なデータレバーベリング手法を提案する。
論文参考訳（メタデータ） (2024-10-10T16:01:51Z)
Geometric-Averaged Preference Optimization for Soft Preference Labels [78.2746007085333]
LLMを人間の嗜好と整合させる多くのアルゴリズムは、人間の嗜好は二進的かつ決定論的であると仮定する。本研究では,分散ソフトな選好ラベルを導入し,損失関数におけるLLM出力確率の重み付き幾何平均を用いて直接選好最適化(DPO)を改善する。
論文参考訳（メタデータ） (2024-09-10T17:54:28Z)
Contrastive Policy Gradient: Aligning LLMs on sequence-level scores in a supervised-friendly fashion [43.77763433288893]
コントラストポリシーグラディエント(Contrastive Policy Gradient, COPG)は、単純かつ数学的に原理化された新しいRLアルゴリズムである。本稿では,直接アライメント手法のIPO(アイデンティティ優先最適化)と古典的政策勾配を一般化する手法を提案する。提案したCOPGをおもちゃのバンディット問題で実験し,その特性を説明するとともに,要約タスクでLLMを微調整する。
論文参考訳（メタデータ） (2024-06-27T14:03:49Z)
Adaptive Preference Scaling for Reinforcement Learning with Human Feedback [103.36048042664768]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の価値を合わせるための一般的なアプローチである。本稿では,分散ロバスト最適化(DRO)に基づく適応的優先損失を提案する。提案手法は多用途であり,様々な選好最適化フレームワークに容易に適用可能である。
論文参考訳（メタデータ） (2024-06-04T20:33:22Z)
Optimal Baseline Corrections for Off-Policy Contextual Bandits [61.740094604552475]
オンライン報酬指標の偏りのないオフライン推定を最適化する意思決定ポリシーを学習することを目指している。学習シナリオにおける同値性に基づく単一のフレームワークを提案する。我々のフレームワークは、分散最適非バイアス推定器の特徴付けを可能にし、それに対する閉形式解を提供する。
論文参考訳（メタデータ） (2024-05-09T12:52:22Z)
Going Beyond Popularity and Positivity Bias: Correcting for Multifactorial Bias in Recommender Systems [74.47680026838128]
ユーザインタラクションデータとレコメンダシステム(RS)の2つの典型的なバイアスは、人気バイアスと肯定バイアスである。項目と評価値の双方に影響される多因子選択バイアスについて検討する。分散を低減し、最適化の堅牢性を向上させるため、スムースで交互に勾配降下する手法を提案する。
論文参考訳（メタデータ） (2024-04-29T12:18:21Z)
Prototypical Contrastive Learning through Alignment and Uniformity for Recommendation [6.790779112538357]
提案するアンダーライン・アライメントとアンダーライン・ユニフォーマル性によるインダーライン型コントラスト学習について述べる。具体的には、まず、原点グラフから異なる拡張点間の整合性を確保するために、潜時空間としてプロトタイプを提案する。明示的な負の欠如は、インスタンスとプロトタイプ間の整合性損失を直接最適化することで、次元的な崩壊の問題が容易に生じることを意味する。
論文参考訳（メタデータ） (2024-02-03T08:19:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。