論文の概要: Efficient Reinforcement Learning from Human Feedback via Bayesian Preference Inference
- arxiv url: http://arxiv.org/abs/2511.04286v1
- Date: Thu, 06 Nov 2025 11:27:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-07 20:17:53.405163
- Title: Efficient Reinforcement Learning from Human Feedback via Bayesian Preference Inference
- Title(参考訳): ベイズ選好推論による人間のフィードバックからの効率的な強化学習
- Authors: Matteo Cercola, Valeria Capretti, Simone Formentin,
- Abstract要約: 本稿では,RLHFのスケーラビリティとPBOのクエリ効率を一体化するハイブリッドフレームワークを提案する。
提案手法は, (i) 高次元優先最適化と (ii) LLMファインチューニングの2つの代表的な領域に対して検証する。
- 参考スコア(独自算出の注目度): 0.29057513016551245
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning from human preferences is a cornerstone of aligning machine learning models with subjective human judgments. Yet, collecting such preference data is often costly and time-consuming, motivating the need for more efficient learning paradigms. Two established approaches offer complementary advantages: RLHF scales effectively to high-dimensional tasks such as LLM fine-tuning, while PBO achieves greater sample efficiency through active querying. We propose a hybrid framework that unifies RLHF's scalability with PBO's query efficiency by integrating an acquisition-driven module into the RLHF pipeline, thereby enabling active and sample-efficient preference gathering. We validate the proposed approach on two representative domains: (i) high-dimensional preference optimization and (ii) LLM fine-tuning. Experimental results demonstrate consistent improvements in both sample efficiency and overall performance across these tasks.
- Abstract(参考訳): 人間の好みから学ぶことは、機械学習モデルと主観的な人間の判断を合わせるための基礎となる。
しかし、そのような選好データの収集はコストと時間を要することが多く、より効率的な学習パラダイムの必要性を動機付けている。
RLHFはLLMファインチューニングのような高次元のタスクに効果的にスケールし、PBOはアクティブクエリによってより優れたサンプル効率を達成する。
本稿では,RLHFパイプラインに取得駆動モジュールを統合することで,RLHFのスケーラビリティとPBOのクエリ効率を一体化するハイブリッドフレームワークを提案する。
提案手法を2つの代表的な領域に対して検証する。
(一)高次元の選好最適化及び最適化
(II)LDMファインチューニング。
実験の結果、これらのタスクにおけるサンプル効率と全体的な性能の両面で一貫した改善が示された。
関連論文リスト
- GFRIEND: Generative Few-shot Reward Inference through EfficieNt DPO [3.189559302776161]
人間のフィードバックから強化学習の効率性とスケーラビリティを高めるためには,高性能な報酬モデルを数ショットデータでトレーニングする能力が重要である。
本稿では,小規模データセットでトレーニングした生成報酬モデルが大規模データセットでトレーニングしたモデルに匹敵するパフォーマンスを実現するためのデータ拡張拡張フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-10T16:37:13Z) - On the Role of Feedback in Test-Time Scaling of Agentic AI Workflows [71.92083784393418]
エージェントAI(自律的な計画と行動を行うシステム)は広く普及しているが、複雑なタスクにおけるタスクの成功率は低いままである。
推論時のアライメントは、サンプリング、評価、フィードバックの3つのコンポーネントに依存します。
本稿では,様々な形態の批判から抽出されたフィードバックを繰り返し挿入するIterative Agent Decoding(IAD)を紹介する。
論文 参考訳(メタデータ) (2025-04-02T17:40:47Z) - Distributionally Robust Reinforcement Learning with Human Feedback [13.509499718691016]
大規模言語モデルを微調整するための分散ロバストなRLHFを提案する。
我々のゴールは、プロンプトの分布が著しく異なる場合でも、微調整モデルがその性能を維持することである。
我々は,学習した報酬モデルの精度を平均で向上し,推論などのタスクにおいて顕著に向上することを示す。
論文 参考訳(メタデータ) (2025-03-01T15:43:39Z) - Provably Efficient Online RLHF with One-Pass Reward Modeling [70.82499103200402]
人間のフィードバックからの強化学習は、大規模言語モデルと人間の好みを合わせることに顕著な成功を収めた。
オンラインRLHFは有望な方向性として現れ、反復的なデータ収集と改善を可能にしている。
本稿では,過去のデータを保存する必要をなくし,反復毎に一定時間更新を行うワンパス報酬モデリング手法を提案する。
論文 参考訳(メタデータ) (2025-02-11T02:36:01Z) - Teaching LLMs to Refine with Tools [68.23479664749271]
大規模言語モデル(LLM)はフィードバックに基づいて応答を洗練し、反復的なトレーニングやテスト時間の改良を通じて自己改善を可能にする。
外部ツールを用いて同一または他のLLMによって生成されたチェーン・オブ・シント(CoT)応答を洗練するための新しいアプローチであるCaPを提案する。
論文 参考訳(メタデータ) (2024-12-22T05:43:50Z) - A Systematic Examination of Preference Learning through the Lens of Instruction-Following [83.71180850955679]
新たな合成データ生成パイプラインを用いて48,000の命令追従プロンプトを生成する。
合成プロンプトでは、リジェクションサンプリング(RS)とモンテカルロ木探索(MCTS)の2つの選好データセットキュレーション手法を用いる。
実験により、MCTSが生成した選好ペアにおける共有プレフィックスは、限界はあるが一貫した改善をもたらすことが明らかになった。
高コントラストの選好ペアは一般的に低コントラストのペアよりも優れているが、両者を組み合わせることで最高のパフォーマンスが得られることが多い。
論文 参考訳(メタデータ) (2024-12-18T15:38:39Z) - Optimizing LLMs with Direct Preferences: A Data Efficiency Perspective [4.548047308860141]
本研究では,異なる種類の嗜好データがモデル性能に与える影響について検討する。
収集に費用がかかる大量の好みデータへの依存を減らすことを目的としている。
論文 参考訳(メタデータ) (2024-10-22T00:11:41Z) - Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。
その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文 参考訳(メタデータ) (2024-09-26T12:37:26Z) - REAL: Response Embedding-based Alignment for LLMs [1.9513983244114355]
よりあいまいな選好ペアの獲得に焦点を当てた高品質なトレーニングデータセットを構築するための戦略を提案する。
実験により、異なる応答対を選択することで、LSMの直列化が促進されることが示された。
異なるペアにフォーカスすることでラベルエラーを低減し,LLMアライメント効率を向上させることが示唆された。
論文 参考訳(メタデータ) (2024-09-17T22:40:54Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。