論文の概要: Bandits with Preference Feedback: A Stackelberg Game Perspective
- arxiv url: http://arxiv.org/abs/2406.16745v2
- Date: Wed, 30 Oct 2024 17:10:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-31 14:25:35.915410
- Title: Bandits with Preference Feedback: A Stackelberg Game Perspective
- Title(参考訳): 優先順位フィードバックによるバンド:Stackelbergのゲームパースペクティブ
- Authors: Barna Pásztor, Parnian Kassraie, Andreas Krause,
- Abstract要約: 好みのフィードバックを持つ帯域は、未知のターゲット関数を最適化する強力なツールを提供する。
ゼロサムのStackelbergゲームをエミュレートしたMAXMINLCBを提案する。
- 参考スコア(独自算出の注目度): 41.928798759636216
- License:
- Abstract: Bandits with preference feedback present a powerful tool for optimizing unknown target functions when only pairwise comparisons are allowed instead of direct value queries. This model allows for incorporating human feedback into online inference and optimization and has been employed in systems for fine-tuning large language models. The problem is well understood in simplified settings with linear target functions or over finite small domains that limit practical interest. Taking the next step, we consider infinite domains and nonlinear (kernelized) rewards. In this setting, selecting a pair of actions is quite challenging and requires balancing exploration and exploitation at two levels: within the pair, and along the iterations of the algorithm. We propose MAXMINLCB, which emulates this trade-off as a zero-sum Stackelberg game, and chooses action pairs that are informative and yield favorable rewards. MAXMINLCB consistently outperforms existing algorithms and satisfies an anytime-valid rate-optimal regret guarantee. This is due to our novel preference-based confidence sequences for kernelized logistic estimators.
- Abstract(参考訳): 嗜好フィードバックを持つ帯域は、直接値クエリの代わりにペア比較が許される場合にのみ、未知のターゲット関数を最適化する強力なツールを提供する。
このモデルは、人間のフィードバックをオンライン推論と最適化に組み込むことができ、大規模な言語モデルを微調整するためのシステムに採用されている。
この問題は、線形対象関数の単純化された設定や、実用的関心を制限する有限小領域においてよく理解されている。
次のステップとして、無限の領域と非線形(カーネル化された)報酬を考える。
この設定では、一対のアクションを選択することは極めて困難であり、探索と搾取のバランスをとる必要がある。
本稿では,このトレードオフをゼロサムのStackelbergゲームとしてエミュレートしたMAXMINLCBを提案する。
MAXMINLCBは、既存のアルゴリズムを一貫して上回り、常に有意な速度-最適後悔の保証を満たす。
これは、カーネル化されたロジスティック推定器のための新しい嗜好に基づく信頼シーケンスが原因である。
関連論文リスト
- Stochastic Zeroth-Order Optimization under Strongly Convexity and Lipschitz Hessian: Minimax Sample Complexity [59.75300530380427]
本稿では,アルゴリズムが検索対象関数の雑音評価にのみアクセス可能な2次スムーズかつ強い凸関数を最適化する問題を考察する。
本研究は, ミニマックス単純後悔率について, 一致した上界と下界を発達させることにより, 初めて厳密な評価を行ったものである。
論文 参考訳(メタデータ) (2024-06-28T02:56:22Z) - Step-level Value Preference Optimization for Mathematical Reasoning [6.318873143509028]
SVPO(Step-level Value Preference Optimization)と呼ばれる新しいアルゴリズムを導入する。
提案手法は,領域内および領域外両方の数学的推論ベンチマーク上での最先端性能を実現する。
論文 参考訳(メタデータ) (2024-06-16T09:06:17Z) - $ε$-Optimally Solving Zero-Sum POSGs [4.424170214926035]
ゼロサム部分観測可能なゲームの解法は、元のゲームを「占有マルコフゲーム」と呼ばれる新しいゲームに埋め込む。
本稿では、この制限を克服するために、最適値関数の新たな一様連続性特性を利用する。
論文 参考訳(メタデータ) (2024-05-29T08:34:01Z) - PopArt: Efficient Sparse Regression and Experimental Design for Optimal
Sparse Linear Bandits [29.097522376094624]
そこで我々はPopArtと呼ばれる単純で効率的なスパース線形推定法を提案する。
我々は, 粗い線形バンディットアルゴリズムを導出し, 美術品の状態に対する後悔の上界の改善を享受する。
論文 参考訳(メタデータ) (2022-10-25T19:13:20Z) - Sample-Then-Optimize Batch Neural Thompson Sampling [50.800944138278474]
我々はトンプソンサンプリング(TS)ポリシーに基づくブラックボックス最適化のための2つのアルゴリズムを提案する。
入力クエリを選択するには、NNをトレーニングし、トレーニングされたNNを最大化してクエリを選択するだけです。
我々のアルゴリズムは、大きなパラメータ行列を逆転する必要性を助長するが、TSポリシーの妥当性は保たれている。
論文 参考訳(メタデータ) (2022-10-13T09:01:58Z) - Efficient Exploration in Binary and Preferential Bayesian Optimization [0.5076419064097732]
BOアルゴリズムは,異なるタイプの不確かさを区別することが重要であることを示す。
本稿では,最先端のBO関数より優れた新たな獲得関数を提案する。
論文 参考訳(メタデータ) (2021-10-18T14:44:34Z) - Minimax Optimization with Smooth Algorithmic Adversaries [59.47122537182611]
対戦相手が展開するスムーズなアルゴリズムに対して,Min-playerの新しいアルゴリズムを提案する。
本アルゴリズムは,制限周期のない単調進行を保証し,適切な勾配上昇数を求める。
論文 参考訳(メタデータ) (2021-06-02T22:03:36Z) - Modeling the Second Player in Distributionally Robust Optimization [90.25995710696425]
我々は、最悪のケース分布を特徴付けるために神経生成モデルを使うことを議論する。
このアプローチは多くの実装と最適化の課題をもたらします。
提案されたアプローチは、同等のベースラインよりも堅牢なモデルを生み出す。
論文 参考訳(メタデータ) (2021-03-18T14:26:26Z) - Lenient Regret for Multi-Armed Bandits [72.56064196252498]
エージェントが順番に行動を選択し、その行動に対する報酬を観察するマルチアーマッド・バンディット(MAB)問題を考察する。
アルゴリズムの大多数は、後悔、すなわち最高の行動の報酬とエージェントの行動の累積的な差を最小化しようとするが、この基準は望ましくない結果をもたらすかもしれない。
我々は、いくつかの$epsilon$よりも小さな最適性ギャップを無視した、より寛大で寛大で後悔すべき基準を提案する。
論文 参考訳(メタデータ) (2020-08-10T08:30:52Z) - A Convergent and Dimension-Independent Min-Max Optimization Algorithm [32.492526162436405]
min-playerがパラメータを更新するために使用する分布は、滑らかで非凹凸関数に依存していることを示す。
我々のアルゴリズムは、繰り返しに依存しない多くの反復において近似的な局所平衡に収束する。
論文 参考訳(メタデータ) (2020-06-22T16:11:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。