論文の概要: Exploiting Transitivity for Top-k Selection with Score-Based Dueling
Bandits
- arxiv url: http://arxiv.org/abs/2012.15637v1
- Date: Thu, 31 Dec 2020 14:54:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-17 23:30:28.361780
- Title: Exploiting Transitivity for Top-k Selection with Score-Based Dueling
Bandits
- Title(参考訳): Score-based Dueling Bandits を用いたトップk選択のための爆発的トランジトリシティ
- Authors: Matthew Groves and Juergen Branke
- Abstract要約: スコア情報を用いたデュエル・バンディット問題における上位kサブセット選択の問題を検討する。
本稿では,thurstonianスタイルモデルを提案し,部分集合選択(pocbam)サンプリング法にペアワイズ最適計算予算割り当てを適用する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider the problem of top-k subset selection in Dueling Bandit problems
with score information. Real-world pairwise ranking problems often exhibit a
high degree of transitivity and prior work has suggested sampling methods that
exploit such transitivity through the use of parametric preference models like
the Bradley-Terry-Luce (BTL) and Thurstone models. To date, this work has
focused on cases where sample outcomes are win/loss binary responses. We extend
this to selection problems where sampling results contain quantitative
information by proposing a Thurstonian style model and adapting the Pairwise
Optimal Computing Budget Allocation for subset selection (POCBAm) sampling
method to exploit this model for efficient sample selection. We compare the
empirical performance against standard POCBAm and other competing algorithms.
- Abstract(参考訳): 得点情報を用いたデュエルバンディット問題において,トップkサブセット選択の問題を考える。
実世界のペアワイズランキング問題はしばしば高い推移性を示し、先行研究ではブラッドリー・テリー・ルース(英語版)(btl)やサーストーン(英語版)モデルのようなパラメトリックな選好モデルを用いてそのような推移性を利用するサンプリング手法が提案されている。
これまでこの研究は、サンプル結果が勝利/損失バイナリ応答であるケースに焦点を当ててきた。
本稿では、サーストン型モデルを提案し、サブセット選択のためのPairwise Optimal Computing Budget Allocation(POCBAm)を適用することで、サンプリング結果が定量的情報を含む選択問題に拡張し、このモデルを効率的なサンプル選択に活用する。
実験性能を標準的なPOCBAmや他の競合アルゴリズムと比較する。
関連論文リスト
- Debiased Sample Selection for Combating Noisy Labels [24.296451733127956]
サンプル選択におけるバイアス学習のためのnoIse-Tolerant Expert Model (ITEM)を提案する。
具体的には、トレーニングバイアスを軽減するために、複数の専門家と統合した堅牢なネットワークアーキテクチャを設計します。
2つのクラス識別型ミニバッチの混合によるトレーニングにより、モデルが不均衡なトレーニングセットの効果を緩和する。
論文 参考訳(メタデータ) (2024-01-24T10:37:28Z) - Causal Feature Selection via Transfer Entropy [59.999594949050596]
因果発見は、観察データによる特徴間の因果関係を特定することを目的としている。
本稿では,前向きと後向きの機能選択に依存する新たな因果的特徴選択手法を提案する。
精度および有限サンプルの場合の回帰誤差と分類誤差について理論的に保証する。
論文 参考訳(メタデータ) (2023-10-17T08:04:45Z) - Optimal Sample Selection Through Uncertainty Estimation and Its
Application in Deep Learning [22.410220040736235]
コアセット選択とアクティブラーニングの両方に対処するための理論的に最適な解を提案する。
提案手法であるCOPSは,サブサンプルデータに基づいてトレーニングされたモデルの損失を最小限に抑えるために設計されている。
論文 参考訳(メタデータ) (2023-09-05T14:06:33Z) - In Search of Insights, Not Magic Bullets: Towards Demystification of the
Model Selection Dilemma in Heterogeneous Treatment Effect Estimation [92.51773744318119]
本稿では,異なるモデル選択基準の長所と短所を実験的に検討する。
選択戦略,候補推定器,比較に用いるデータの間には,複雑な相互作用があることを強調した。
論文 参考訳(メタデータ) (2023-02-06T16:55:37Z) - Double Matching Under Complementary Preferences [18.03464967426957]
本稿では,市場を補完的な選好でマッチングする問題に対処する新しいアルゴリズムを提案する。
相補的な選好の存在は、マッチングプロセスにおける不安定をもたらす可能性がある。
このアルゴリズムは、トンプソンサンプリングの強度を二重マッチング手法と組み合わせて、安定したマッチング結果を得る。
論文 参考訳(メタデータ) (2023-01-24T18:54:29Z) - Out-of-sample scoring and automatic selection of causal estimators [0.0]
本稿では,CATEの場合と器楽変数問題の重要な部分集合に対する新しいスコアリング手法を提案する。
私たちはそれを、DoWhyとEconMLライブラリに依存するオープンソースパッケージで実装しています。
論文 参考訳(メタデータ) (2022-12-20T08:29:18Z) - Bilevel Optimization for Feature Selection in the Data-Driven Newsvendor
Problem [8.281391209717105]
本稿では、意思決定者が過去のデータにアクセス可能な機能ベースのニュースベンダー問題について検討する。
そこで本研究では,スパースモデル,説明可能なモデル,およびアウト・オブ・サンプル性能の改善を目的とした特徴選択について検討する。
本稿では,2レベルプログラムに対する混合整数線形プログラムの修正について述べる。
論文 参考訳(メタデータ) (2022-09-12T08:52:26Z) - Adaptive Sampling for Heterogeneous Rank Aggregation from Noisy Pairwise
Comparisons [85.5955376526419]
ランキングアグリゲーション問題では、各項目を比較する際に、様々な精度レベルが示される。
本稿では,ノイズのあるペアワイズ比較によってアイテムのランクを推定する,除去に基づくアクティブサンプリング戦略を提案する。
提案アルゴリズムは,商品の真のランキングを高い確率で返却できることを示す。
論文 参考訳(メタデータ) (2021-10-08T13:51:55Z) - Local policy search with Bayesian optimization [73.0364959221845]
強化学習は、環境との相互作用によって最適な政策を見つけることを目的としている。
局所探索のための政策勾配は、しばしばランダムな摂動から得られる。
目的関数の確率モデルとその勾配を用いたアルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-06-22T16:07:02Z) - Jo-SRC: A Contrastive Approach for Combating Noisy Labels [58.867237220886885]
Jo-SRC (Joint Sample Selection and Model Regularization based on Consistency) というノイズロバスト手法を提案する。
具体的には、対照的な学習方法でネットワークをトレーニングする。
各サンプルの2つの異なるビューからの予測は、クリーンまたは分布不足の「可能性」を推定するために使用されます。
論文 参考訳(メタデータ) (2021-03-24T07:26:07Z) - Optimal Off-Policy Evaluation from Multiple Logging Policies [77.62012545592233]
我々は,複数のロギングポリシからオフ政治評価を行い,それぞれが一定のサイズ,すなわち階層化サンプリングのデータセットを生成する。
複数ロガーのOPE推定器は,任意のインスタンス,すなわち効率のよいインスタンスに対して最小分散である。
論文 参考訳(メタデータ) (2020-10-21T13:43:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。