論文の概要: Active Human Feedback Collection via Neural Contextual Dueling Bandits
- arxiv url: http://arxiv.org/abs/2504.12016v1
- Date: Wed, 16 Apr 2025 12:16:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-24 18:03:08.851869
- Title: Active Human Feedback Collection via Neural Contextual Dueling Bandits
- Title(参考訳): ニューラルコンテキストデュエルバンドによるアクティブヒューマンフィードバックコレクション
- Authors: Arun Verma, Xiaoqiang Lin, Zhongxiang Dai, Daniela Rus, Bryan Kian Hsiang Low,
- Abstract要約: 本稿では,人間の嗜好フィードバックを抽出するアルゴリズムであるNeural-ADBを提案する。
優先フィードバックがBradley-Terry-Luceモデルに従うと、Neural-ADBが学習したポリシーの最悪の準最適差は、選好データセットが増加するにつれて、サブ線形速度で減少することを示す。
- 参考スコア(独自算出の注目度): 84.7608942821423
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Collecting human preference feedback is often expensive, leading recent works to develop principled algorithms to select them more efficiently. However, these works assume that the underlying reward function is linear, an assumption that does not hold in many real-life applications, such as online recommendation and LLM alignment. To address this limitation, we propose Neural-ADB, an algorithm based on the neural contextual dueling bandit framework that provides a principled and practical method for collecting human preference feedback when the underlying latent reward function is non-linear. We theoretically show that when preference feedback follows the Bradley-Terry-Luce model, the worst sub-optimality gap of the policy learned by Neural-ADB decreases at a sub-linear rate as the preference dataset increases. Our experimental results on problem instances derived from synthetic preference datasets further validate the effectiveness of Neural-ADB.
- Abstract(参考訳): 人間の嗜好フィードバックの収集は、しばしばコストがかかるため、最近の研究は、より効率的に選び出すためのアルゴリズムの開発に繋がる。
しかしながら,これらの研究は,オンラインレコメンデーションやLLMアライメントなど,現実の多くの応用に当てはまらないような,基礎となる報酬関数が線形であると仮定する。
この制限に対処するため,ニューラルADB(Neural-ADB)を提案する。ニューラルADB(Neural-ADB)は,ニューラルネットワークのコンテキスト・デュエル・バンディット・フレームワークをベースとしたアルゴリズムで,基礎となる潜在報酬関数が非線形である場合に,人間の嗜好フィードバックを収集する原理的かつ実践的な手法を提供する。
理論的には、嗜好フィードバックがBradley-Terry-Luceモデルに従うと、Neural-ADBが学習したポリシーの最悪の準最適差は、選好データセットが増加するにつれて、サブ線形速度で減少する。
合成選好データセットから得られた問題事例に対する実験結果により,Neural-ADBの有効性がさらに検証された。
関連論文リスト
- Extragradient Preference Optimization (EGPO): Beyond Last-Iterate Convergence for Nash Learning from Human Feedback [46.7385883375784]
EGPO(Extragradient preference optimization)は、NLHFがKL正規化ゲームのNEへの最終次線形収束を達成するアルゴリズムである。
同数のエポックのトレーニングにおいて,EGPOがベースライン法よりも優れていることを示す実験的検討を行った。
論文 参考訳(メタデータ) (2025-03-11T22:44:54Z) - Active Learning for Direct Preference Optimization [59.84525302418018]
直接選好最適化(DPO)は、人間のフィードバックからの強化学習の一種である。
オンラインのフィードバック収集や,すでに収集したフィードバックの最も情報性の高いサブセットをオフラインで選択できる,DPOのためのアクティブラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-03T00:36:31Z) - Best Policy Learning from Trajectory Preference Feedback [15.799929216215672]
嗜好型強化学習(PbRL)における最良政策識別の問題に対処する。
本稿では,Top-Two Thompson Smplingにヒントを得た新しいアルゴリズムであるPosterior Smpling for Preference Learning(mathsfPSPL$)を提案する。
この設定で PbRL に関する最初の理論的保証を提供し、単純ベイズ的後悔の上限を確立する。
論文 参考訳(メタデータ) (2025-01-31T03:55:10Z) - Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [63.32585910975191]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。
当社のアプローチは,DPOをかなりのマージンで継続的に向上させることを示す。
本手法は,嗜好データの有用性を最大化するだけでなく,未学習の問題も軽減し,データ拡張を超えてその広範な効果を実証する。
論文 参考訳(メタデータ) (2024-10-10T16:01:51Z) - Neural Dueling Bandits: Preference-Based Optimization with Human Feedback [58.90189511247936]
ニューラルネットワークを用いて、予め選択した腕の好みフィードバックを用いて報酬関数を推定する。
また、理論的結果を文脈的包括的問題に拡張し、二元的フィードバックは、それ自体は非自明な貢献である。
論文 参考訳(メタデータ) (2024-07-24T09:23:22Z) - A Unified Linear Programming Framework for Offline Reward Learning from Human Demonstrations and Feedback [6.578074497549894]
Inverse Reinforcement Learning (IRL) と Reinforcement Learning from Human Feedback (RLHF) は報酬学習における重要な方法論である。
本稿では,オフライン報酬学習に適した新しい線形プログラミング(LP)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-20T23:59:26Z) - Sample Efficient Preference Alignment in LLMs via Active Exploration [63.84454768573154]
良い政策を最も効率的に特定するために、人間のフィードバックを得るコンテキストをしばしば選択できるという事実を活用します。
本稿では,データを効率的に選択する能動的探索アルゴリズムを提案する。
提案手法は,複数の言語モデルと4つの実世界のデータセットに対する人間の嗜好の限られたサンプルを用いて,ベースラインよりも優れる。
論文 参考訳(メタデータ) (2023-12-01T00:54:02Z) - Sample Complexity of Preference-Based Nonparametric Off-Policy
Evaluation with Deep Networks [58.469818546042696]
我々は、OPEのサンプル効率を人間の好みで研究し、その統計的保証を確立する。
ReLUネットワークのサイズを適切に選択することにより、マルコフ決定過程において任意の低次元多様体構造を活用できることが示される。
論文 参考訳(メタデータ) (2023-10-16T16:27:06Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z) - Offline Neural Contextual Bandits: Pessimism, Optimization and
Generalization [42.865641215856925]
本稿では,ニューラルネットワーク関数近似を用いた効率の良いオフラインコンテキスト帯域幅を提案する。
本手法は,従来のOPL法よりも分布シフトの軽度な条件下で,未知の文脈を一般化することを示す。
また, 実世界のOPL問題において, 提案手法の実証的有効性を示す。
論文 参考訳(メタデータ) (2021-11-27T03:57:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。