論文の概要: Comparing Few to Rank Many: Active Human Preference Learning using Randomized Frank-Wolfe
- arxiv url: http://arxiv.org/abs/2412.19396v1
- Date: Fri, 27 Dec 2024 01:10:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:29:13.293991
- Title: Comparing Few to Rank Many: Active Human Preference Learning using Randomized Frank-Wolfe
- Title(参考訳): ランダム化Frank-Wolfeを用いた能動人選好学習
- Authors: Kiran Koshy Thekumparampil, Gaurush Hiranandani, Kousha Kalantari, Shoham Sabach, Branislav Kveton,
- Abstract要約: 我々は、この問題を、$K$-way比較フィードバックからN$選択の宇宙上のプラケット・リュックモデルを学習するものとして定式化する。
我々の解は、Pockett-Luce の目的に対する D-optimal 設計である。
この研究の主なアルゴリズム上の課題は、D-最適設計を解くための高速な方法でさえ、O(N choose K)$時間複雑性を持つことである。
- 参考スコア(独自算出の注目度): 16.723420325361975
- License:
- Abstract: We study learning of human preferences from a limited comparison feedback. This task is ubiquitous in machine learning. Its applications such as reinforcement learning from human feedback, have been transformational. We formulate this problem as learning a Plackett-Luce model over a universe of $N$ choices from $K$-way comparison feedback, where typically $K \ll N$. Our solution is the D-optimal design for the Plackett-Luce objective. The design defines a data logging policy that elicits comparison feedback for a small collection of optimally chosen points from all ${N \choose K}$ feasible subsets. The main algorithmic challenge in this work is that even fast methods for solving D-optimal designs would have $O({N \choose K})$ time complexity. To address this issue, we propose a randomized Frank-Wolfe (FW) algorithm that solves the linear maximization sub-problems in the FW method on randomly chosen variables. We analyze the algorithm, and evaluate it empirically on synthetic and open-source NLP datasets.
- Abstract(参考訳): 限定的な比較フィードバックから人選好の学習を研究する。
このタスクは機械学習においてユビキタスです。
人間のフィードバックからの強化学習などの応用は、変革的です。
我々はこの問題を、通常$K \ll N$である$K$-way比較フィードバックからN$選択の宇宙上のプラケット・リュックモデルを学習するものとして定式化する。
我々の解は、Pockett-Luce の目的に対する D-optimal 設計である。
この設計はデータロギングポリシーを定義し、すべての${N \choose K}$ 実現可能なサブセットから最適なポイントの小さなコレクションを比較する。
この研究の主なアルゴリズム上の課題は、D-最適設計を解く高速な方法でさえ、時間複雑性$O({N \choose K})を持つことである。
この問題に対処するために、ランダムに選択された変数に対するFW法における線形最大化サブプロブレムを解く、ランダム化されたフランク・ウルフ(FW)アルゴリズムを提案する。
アルゴリズムを解析し、合成およびオープンソースNLPデータセット上で経験的に評価する。
関連論文リスト
- Robust Reinforcement Learning from Corrupted Human Feedback [86.17030012828003]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の嗜好データを調整するための原則化されたフレームワークを提供する。
我々はRLHFのロバストなアプローチ-$R3M$を提案し、これは、潜在的に破損した選好ラベルをスパースアウトリーとしてモデル化する。
大規模言語モデル(LLM)を用いたロボット制御と自然言語生成の実験により、R3M$は、好みデータに対する様々な摂動に対する報酬の堅牢性を向上することを示した。
論文 参考訳(メタデータ) (2024-06-21T18:06:30Z) - Generating synthetic data for neural operators [0.0]
本稿では,PDEを数値的に解く必要のない合成機能トレーニングデータを生成する方法を提案する。
アイデアは単純だが,古典的な数値解法に依存しないニューラルPDE解法の開発の可能性を広げることを期待している。
論文 参考訳(メタデータ) (2024-01-04T18:31:21Z) - Efficiently Learning One-Hidden-Layer ReLU Networks via Schur
Polynomials [50.90125395570797]
正方形損失に関して、標準的なガウス分布の下での$k$ReLU活性化の線形結合をPAC学習する問題をmathbbRd$で検討する。
本研究の主な成果は,この学習課題に対して,サンプルおよび計算複雑性が$(dk/epsilon)O(k)$で,epsilon>0$が目標精度である。
論文 参考訳(メタデータ) (2023-07-24T14:37:22Z) - Improved Sample Complexity Bounds for Distributionally Robust
Reinforcement Learning [3.222802562733787]
トレーニング環境とテスト環境のパラメータミスマッチに対して頑健な制御ポリシーを学習することの問題点を考察する。
本研究では,4つの異なる発散によって特定される不確実性集合に対して,ロバスト位相値学習(RPVL)アルゴリズムを提案する。
提案アルゴリズムは,既存の結果より一様によいサンプル複雑性を$tildemathcalO(|mathcalSmathcalA| H5)$とする。
論文 参考訳(メタデータ) (2023-03-05T21:47:08Z) - Deterministic Nonsmooth Nonconvex Optimization [94.01526844386977]
次元自由な次元自由アルゴリズムを得るにはランダム化が必要であることを示す。
我々のアルゴリズムは、ReLUネットワークを最適化する最初の決定論的次元自由アルゴリズムを得る。
論文 参考訳(メタデータ) (2023-02-16T13:57:19Z) - Linear Speedup in Personalized Collaborative Learning [69.45124829480106]
フェデレート学習におけるパーソナライゼーションは、モデルのバイアスをトレーディングすることで、モデルの精度を向上させることができる。
ユーザの目的の最適化として、パーソナライズされた協調学習問題を定式化する。
分散の低減のためにバイアスを最適にトレードオフできる条件について検討する。
論文 参考訳(メタデータ) (2021-11-10T22:12:52Z) - Local policy search with Bayesian optimization [73.0364959221845]
強化学習は、環境との相互作用によって最適な政策を見つけることを目的としている。
局所探索のための政策勾配は、しばしばランダムな摂動から得られる。
目的関数の確率モデルとその勾配を用いたアルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-06-22T16:07:02Z) - UVIP: Model-Free Approach to Evaluate Reinforcement Learning Algorithms [5.582861438320171]
政策評価は強化学習(RL)における異なるアルゴリズムの比較のための重要な手段である
Vstar(x) - Vpi(x)$を上から推定し、$Vstar$に対する信頼区間を構築することができる。
一般的な仮定の下では$sf UVIP$の理論的保証を提供し、その性能を多くのベンチマークRL問題で示す。
論文 参考訳(メタデータ) (2021-05-05T15:38:36Z) - Online Model Selection for Reinforcement Learning with Function
Approximation [50.008542459050155]
我々は、$tildeO(L5/6 T2/3)$ regretで最適な複雑性に適応するメタアルゴリズムを提案する。
また、メタアルゴリズムは、インスタンス依存の後悔境界を著しく改善することを示す。
論文 参考訳(メタデータ) (2020-11-19T10:00:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。