論文の概要: Maximizing the efficiency of human feedback in AI alignment: a comparative analysis
- arxiv url: http://arxiv.org/abs/2511.12796v1
- Date: Sun, 16 Nov 2025 21:55:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.546654
- Title: Maximizing the efficiency of human feedback in AI alignment: a comparative analysis
- Title(参考訳): AIアライメントにおける人間のフィードバック効率の最大化:比較分析
- Authors: Andreas Chouliaras, Dimitris Chatzopoulos,
- Abstract要約: RLHF(Reinforcement Learning from Human Feedback)における選好推論のための代替サンプリングと評価戦略について検討する。
我々の最高のパフォーマンス手法であるSwiss InfoGainは、プロキシ相互情報ゲインペアリングルールを備えたスイスのトーナメントシステムを採用しており、制約付きアノテーション予算において他の方法よりも大幅に優れています。
本実験は,適応的資源認識戦略が冗長性を低減し,堅牢性を向上し,嗜好学習における統計的に有意な改善をもたらすことを示す。
- 参考スコア(独自算出の注目度): 1.561268797057701
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning from Human Feedback (RLHF) relies on preference modeling to align machine learning systems with human values, yet the popular approach of random pair sampling with Bradley-Terry modeling is statistically limited and inefficient under constrained annotation budgets. In this work, we explore alternative sampling and evaluation strategies for preference inference in RLHF, drawing inspiration from areas such as game theory, statistics, and social choice theory. Our best-performing method, Swiss InfoGain, employs a Swiss tournament system with a proxy mutual-information-gain pairing rule, which significantly outperforms all other methods in constrained annotation budgets while also being more sample-efficient. Even in high-resource settings, we can identify superior alternatives to the Bradley-Terry baseline. Our experiments demonstrate that adaptive, resource-aware strategies reduce redundancy, enhance robustness, and yield statistically significant improvements in preference learning, highlighting the importance of balancing alignment quality with human workload in RLHF pipelines.
- Abstract(参考訳): Reinforcement Learning from Human Feedback (RLHF) は、機械学習システムを人間の値と整合させるための嗜好モデルに依存するが、Bradley-Terry モデルによるランダムペアサンプリングの一般的なアプローチは、制約付きアノテーション予算の下で統計的に制限され、非効率である。
本研究では、ゲーム理論、統計学、社会的選択論などの分野からインスピレーションを得て、RLHFにおける選好推論のための代替サンプリングと評価戦略を検討する。
我々の最高のパフォーマンス手法であるSwiss InfoGainは、プロキシ相互情報ゲインペアリングルールを備えたスイストーナメントシステムを採用しており、制約付きアノテーション予算において他の方法よりもはるかに優れており、よりサンプリング効率が高い。
高リソース設定であっても、Bradley-Terryベースラインの優れた代替品を特定できます。
実験により,RLHFパイプラインにおける適応的資源認識戦略は冗長性を低減し,堅牢性を向上し,嗜好学習における統計的に有意な改善をもたらすことが示された。
関連論文リスト
- PVPO: Pre-Estimated Value-Based Policy Optimization for Agentic Reasoning [6.050409262589219]
本稿では,アドバンスト参照アンカーとデータ事前サンプリングによって強化された効率的な強化学習手法であるPVPOを提案する。
本手法は,グループ内比較によって生じる累積バイアスを効果的に補正し,トレーニング中のロールアウト数への依存を著しく低減する。
このアプローチは,複数のタスクにまたがる堅牢な一般化を示すだけでなく,さまざまなスケールのモデルにまたがるスケーラブルなパフォーマンスを示す。
論文 参考訳(メタデータ) (2025-08-28T09:18:26Z) - Preference Optimization for Combinatorial Optimization Problems [54.87466279363487]
強化学習(Reinforcement Learning, RL)は、ニューラルネットワーク最適化のための強力なツールとして登場した。
大幅な進歩にもかかわらず、既存のRLアプローチは報酬信号の減少や大規模な行動空間における非効率な探索といった課題に直面している。
統計的比較モデルを用いて定量的報酬信号を定性的選好信号に変換する新しい手法であるPreference Optimizationを提案する。
論文 参考訳(メタデータ) (2025-05-13T16:47:00Z) - Robust Reinforcement Learning from Human Feedback for Large Language Models Fine-Tuning [11.31665596884142]
人間からのフィードバックからの強化学習(RLHF)は、大規模言語モデルの出力と人間の嗜好を整合させる重要な手法として登場した。
既存のRLHFアルゴリズムの多くはBradley-Terryモデルを使用しており、これは人間の好みに関する仮定に依存しており、現実世界の判断の複雑さや変動性を反映していない。
そこで我々は,そのような報酬モデルの不特定条件下での既存手法の性能向上のための頑健なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-04-03T16:16:35Z) - Learning Reward and Policy Jointly from Demonstration and Preference Improves Alignment [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。
提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。
本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-06-11T01:20:53Z) - MaxMin-RLHF: Alignment with Diverse Human Preferences [101.57443597426374]
Reinforcement Learning from Human Feedback (RLHF) は、言語モデルと人間の嗜好を一致させる。
予測最大化アルゴリズムを用いて嗜好分布の混合を学習し、人間の嗜好をよりよく表現する。
従来のRLHFアルゴリズムよりも16%以上の勝利率向上を実現している。
論文 参考訳(メタデータ) (2024-02-14T03:56:27Z) - Aligning Language Models with Offline Learning from Human Feedback [5.539080592071948]
環境と対話することなく言語モデルを調整するために,人間のフィードバックフレームワークからオフラインで学習する手法を提案する。
具体的には、フィルタリングアライメント(FA)、報酬重み付けレグレッション(RWR)、条件付きアライメント(CA)について検討し、言語モデルを人間の好みに合わせる。
論文 参考訳(メタデータ) (2023-08-23T10:41:07Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。