論文の概要: On Learning to Rank Long Sequences with Contextual Bandits
- arxiv url: http://arxiv.org/abs/2106.03546v1
- Date: Mon, 7 Jun 2021 12:16:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-08 18:38:41.622016
- Title: On Learning to Rank Long Sequences with Contextual Bandits
- Title(参考訳): 文脈的バンディットを用いた長い列のランク付けの学習
- Authors: Anirban Santara, Claudio Gentile, Gaurav Aggarwal, Shuai Li
- Abstract要約: 本稿では,様々な報酬と損失を伴うフレキシブルな長さ列を考慮したカスケーディング・バンディットモデルを提案する。
我々の分析は、バニラカスケードの盗賊に特化して、文献で以前よりも厳しい保証をもたらす厳格な後悔の限界を提供する。
- 参考スコア(独自算出の注目度): 17.97356309346139
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Motivated by problems of learning to rank long item sequences, we introduce a
variant of the cascading bandit model that considers flexible length sequences
with varying rewards and losses. We formulate two generative models for this
problem within the generalized linear setting, and design and analyze upper
confidence algorithms for it. Our analysis delivers tight regret bounds which,
when specialized to vanilla cascading bandits, results in sharper guarantees
than previously available in the literature. We evaluate our algorithms on a
number of real-world datasets, and show significantly improved empirical
performance as compared to known cascading bandit baselines.
- Abstract(参考訳): 長い項目列をランク付けする学習の問題に動機づけられ,報酬や損失が異なるフレキシブルな長さ列を考えるcascading banditモデルの変種について紹介する。
一般化線形設定において,この問題に対して2つの生成モデルを定式化し,高信頼アルゴリズムの設計と解析を行う。
我々の分析は、バニラカスケードの盗賊に特化して、文献で以前よりも厳しい保証をもたらす厳格な後悔の限界を提供する。
実世界の複数のデータセットでアルゴリズムを評価し,カスケード帯域ベースラインと比較して経験的性能が有意に向上した。
関連論文リスト
- Neural Dueling Bandits [58.90189511247936]
ニューラルネットワークを用いて、予め選択した腕の好みフィードバックを用いて報酬関数を推定する。
次に、理論結果を二項フィードバックによる文脈的帯域幅問題に拡張し、それはそれ自体は自明な寄与ではない。
論文 参考訳(メタデータ) (2024-07-24T09:23:22Z) - High-dimensional Linear Bandits with Knapsacks [8.862707047517913]
特徴量が大きい高次元条件下で,knapsack (CBwK) 問題を用いた文脈的帯域幅について検討した。
本研究では,スパース推定をオンラインで行うハードしきい値アルゴリズムのオンライン版を開発する。
この統合されたアプローチは、特徴次元に対数的に依存するサブリニアな後悔を達成できることを示す。
論文 参考訳(メタデータ) (2023-11-02T15:40:33Z) - Unsupervised Feature Based Algorithms for Time Series Extrinsic
Regression [0.9659642285903419]
Time Series Extrinsic Regression (TSER) は、連続応答変数の予測モデルを形成するために一連のトレーニング時系列を使用する。
DrCIF と FreshPRINCE モデルは、標準の回転森林回帰器を著しく上回っている唯一のモデルである。
論文 参考訳(メタデータ) (2023-05-02T13:58:20Z) - Linear Partial Monitoring for Sequential Decision-Making: Algorithms,
Regret Bounds and Applications [70.67112733968654]
部分的なモニタリングは、シーケンシャルな意思決定のための表現力のあるフレームワークである。
本稿では,部分的モニタリングをシンプルかつ統一的に分析し,そのモデルをさらに文脈的かつカーネル化された設定に拡張する。
論文 参考訳(メタデータ) (2023-02-07T18:58:25Z) - Mutual Exclusivity Training and Primitive Augmentation to Induce
Compositionality [84.94877848357896]
最近のデータセットは、標準的なシーケンス・ツー・シーケンスモデルにおける体系的な一般化能力の欠如を露呈している。
本稿では,セq2seqモデルの振る舞いを分析し,相互排他バイアスの欠如と全例を記憶する傾向の2つの要因を同定する。
広範に使用されている2つの構成性データセット上で、標準的なシーケンス・ツー・シーケンスモデルを用いて、経験的改善を示す。
論文 参考訳(メタデータ) (2022-11-28T17:36:41Z) - On Kernelized Multi-Armed Bandits with Constraints [16.102401271318012]
一般に未知の報酬関数と一般未知の制約関数を併用した帯域幅問題について検討する。
本稿では,アルゴリズムの性能解析のための一般的なフレームワークを提案する。
本稿では,数値実験により提案アルゴリズムの優れた性能を示す。
論文 参考訳(メタデータ) (2022-03-29T14:02:03Z) - Deep Hierarchy in Bandits [51.22833900944146]
行動の報酬は、しばしば相関する。
統計的効率を最大化するためには,これらの相関を学習に活用することが重要である。
平均作用報酬の相関が階層的ベイズモデルで表されるこの問題のバンディット変法を定式化する。
論文 参考訳(メタデータ) (2022-02-03T08:15:53Z) - Outlier-Robust Learning of Ising Models Under Dobrushin's Condition [57.89518300699042]
本研究では, サンプルの一定割合が逆向きに破壊されるような外乱条件下で, ドブルシンの条件を満たすIsingモデルの学習問題について検討する。
我々の主な成果は、ほぼ最適誤差保証を伴うこの問題に対して、計算効率のよい最初の頑健な学習アルゴリズムを提供することである。
論文 参考訳(メタデータ) (2021-02-03T18:00:57Z) - Influence Diagram Bandits: Variational Thompson Sampling for Structured
Bandit Problems [40.957688390621385]
我々のフレームワークは、アクション、潜伏変数、観察の間の複雑な統計的依存関係をキャプチャする。
我々のモデルで効率的に行動することを学ぶ新しいオンライン学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-07-09T16:25:40Z) - A Constraint-Based Algorithm for the Structural Learning of
Continuous-Time Bayesian Networks [70.88503833248159]
連続時間ベイズネットワークの構造を学習するための制約に基づく最初のアルゴリズムを提案する。
我々は,条件付き独立性を確立するために提案した,異なる統計的テストと基礎となる仮説について論じる。
論文 参考訳(メタデータ) (2020-07-07T07:34:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。