論文の概要: Leveraging Sparsity for Sample-Efficient Preference Learning: A Theoretical Perspective
- arxiv url: http://arxiv.org/abs/2501.18282v1
- Date: Thu, 30 Jan 2025 11:41:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-31 15:14:32.333094
- Title: Leveraging Sparsity for Sample-Efficient Preference Learning: A Theoretical Perspective
- Title(参考訳): サンプル効率の良い選好学習のためのスペシャリティの活用:理論的視点
- Authors: Yunzhen Yao, Lie He, Michael Gastpar,
- Abstract要約: 本稿では、比較判断に基づいて人間の選択をモデル化し、予測する嗜好学習のサンプル効率について考察する。
報酬関数のパラメータが$k$-sparseであるスパースランダムユーティリティモデルでは、minimaxの最適値は$Theta(k/n log(d/k))$に還元できる。
- 参考スコア(独自算出の注目度): 16.610925506252716
- License:
- Abstract: This paper considers the sample-efficiency of preference learning, which models and predicts human choices based on comparative judgments. The minimax optimal estimation rate $\Theta(d/n)$ in traditional estimation theory requires that the number of samples $n$ scales linearly with the dimensionality of the feature space $d$. However, the high dimensionality of the feature space and the high cost of collecting human-annotated data challenge the efficiency of traditional estimation methods. To remedy this, we leverage sparsity in the preference model and establish sharp estimation rates. We show that under the sparse random utility model, where the parameter of the reward function is $k$-sparse, the minimax optimal rate can be reduced to $\Theta(k/n \log(d/k))$. Furthermore, we analyze the $\ell_{1}$-regularized estimator and show that it achieves near-optimal rate under mild assumptions on the Gram matrix. Experiments on synthetic data and LLM alignment data validate our theoretical findings, showing that sparsity-aware methods significantly reduce sample complexity and improve prediction accuracy.
- Abstract(参考訳): 本稿では、比較判断に基づいて人間の選択をモデル化し、予測する嗜好学習のサンプル効率について考察する。
従来の推定理論では、ミニマックス最適推定率 $\Theta(d/n)$ は、特徴空間 $d$ の次元と線形にスケールするサンプルの個数$n$ を必要とする。
しかし、特徴空間の高次元性と人手によるデータ収集のコストは、従来の推定手法の効率性に挑戦する。
これを改善するために、選好モデルにおけるスパーシリティを活用し、鋭い推定率を確立する。
報酬関数のパラメータが$k$-sparseであるスパースランダムユーティリティモデルでは、最小値の最適値は$\Theta(k/n \log(d/k))$に還元できる。
さらに、$\ell_{1}$-regularized estimatorを解析し、グラマー行列の軽度仮定の下で、ほぼ最適な速度を達成することを示す。
合成データとLCMアライメントデータを用いた実験により, サンプルの複雑さを著しく低減し, 予測精度の向上を図った。
関連論文リスト
- Rejection via Learning Density Ratios [50.91522897152437]
拒絶による分類は、モデルを予測しないことを許容する学習パラダイムとして現れます。
そこで我々は,事前学習したモデルの性能を最大化する理想的なデータ分布を求める。
私たちのフレームワークは、クリーンでノイズの多いデータセットで実証的にテストされます。
論文 参考訳(メタデータ) (2024-05-29T01:32:17Z) - Online non-parametric likelihood-ratio estimation by Pearson-divergence
functional minimization [55.98760097296213]
iid 観測のペア $(x_t sim p, x'_t sim q)$ が時間の経過とともに観測されるような,オンラインな非パラメトリック LRE (OLRE) のための新しいフレームワークを提案する。
本稿では,OLRE法の性能に関する理論的保証と,合成実験における実証的検証について述べる。
論文 参考訳(メタデータ) (2023-11-03T13:20:11Z) - U-Statistics for Importance-Weighted Variational Inference [29.750633016889655]
重要重み付き変分推論における推定のばらつきを低減するために,U-statisticsを用いた手法を提案する。
実験により,U-Statistic variance reduction(U-Statistic variance)の低減は,モデルの範囲での推論性能の大幅な改善につながることが確認された。
論文 参考訳(メタデータ) (2023-02-27T16:08:43Z) - SIMPLE: A Gradient Estimator for $k$-Subset Sampling [42.38652558807518]
この作業では、フォワードパスの離散$k$-subsetサンプリングに戻ります。
勾配推定器 SIMPLE は, 最先端推定器と比較して, バイアスやばらつきが低いことを示す。
実験結果から,線形回帰を説明・スパースする学習性能が向上した。
論文 参考訳(メタデータ) (2022-10-04T22:33:16Z) - Human-in-the-loop: Provably Efficient Preference-based Reinforcement
Learning with General Function Approximation [107.54516740713969]
本研究は,RL(Human-in-the-loop reinforcement learning)を軌道的嗜好で検討する。
各ステップで数値的な報酬を受ける代わりに、エージェントは人間の監督者から軌道上のペアよりも優先される。
一般関数近似を用いたPbRLの楽観的モデルベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-23T09:03:24Z) - Variational Inference with NoFAS: Normalizing Flow with Adaptive
Surrogate for Computationally Expensive Models [7.217783736464403]
マルコフ連鎖モンテカルロのようなサンプリングに基づくアプローチの使用は、それぞれの可能性評価が計算的に高価であるときに難解になる可能性がある。
変分推論と正規化フローを組み合わせた新しいアプローチは、潜在変数空間の次元と線形にしか成長しない計算コストによって特徴づけられる。
本稿では,ニューラルネットワークサロゲートモデルの正規化フローパラメータと重みを代わりに更新する最適化戦略である,適応サロゲートを用いた正規化フロー(NoFAS)を提案する。
論文 参考訳(メタデータ) (2021-08-28T14:31:45Z) - Heavy-tailed Streaming Statistical Estimation [58.70341336199497]
ストリーミング$p$のサンプルから重み付き統計推定の課題を考察する。
そこで我々は,傾きの雑音に対して,よりニュアンスな条件下での傾きの傾きの低下を設計し,より詳細な解析を行う。
論文 参考訳(メタデータ) (2021-08-25T21:30:27Z) - SLOE: A Faster Method for Statistical Inference in High-Dimensional
Logistic Regression [68.66245730450915]
実用データセットに対する予測の偏見を回避し、頻繁な不確実性を推定する改善された手法を開発している。
私たちの主な貢献は、推定と推論の計算時間をマグニチュードの順序で短縮する収束保証付き信号強度の推定器SLOEです。
論文 参考訳(メタデータ) (2021-03-23T17:48:56Z) - SUMO: Unbiased Estimation of Log Marginal Probability for Latent
Variable Models [80.22609163316459]
無限級数のランダム化トランケーションに基づく潜在変数モデルに対して、ログ境界確率の非バイアス推定器とその勾配を導入する。
推定器を用いてトレーニングしたモデルは、同じ平均計算コストに対して、標準的な重要度サンプリングに基づくアプローチよりも優れたテストセット確率を与えることを示す。
論文 参考訳(メタデータ) (2020-04-01T11:49:30Z) - Error bounds in estimating the out-of-sample prediction error using
leave-one-out cross validation in high-dimensions [19.439945058410203]
高次元状態におけるサンプル外リスク推定の問題について検討する。
広範囲にわたる経験的証拠は、アウト・ワン・アウト・クロス・バリデーションの正確さを裏付ける。
この理論の技術的利点の1つは、拡張可能な近似LOに関する最近の文献から得られたいくつかの結果を明確化し、接続することができることである。
論文 参考訳(メタデータ) (2020-03-03T20:07:07Z) - Efficient Debiased Evidence Estimation by Multilevel Monte Carlo
Sampling [0.0]
ベイズ推論に基づくマルチレベルモンテカルロ法(MLMC)の最適化手法を提案する。
計算結果から,従来の推定値と比較すると,かなりの計算量の削減が確認できた。
論文 参考訳(メタデータ) (2020-01-14T09:14:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。