論文の概要: Multiclass Online Learnability under Bandit Feedback
- arxiv url: http://arxiv.org/abs/2308.04620v3
- Date: Sat, 20 Jan 2024 15:03:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 21:17:06.513830
- Title: Multiclass Online Learnability under Bandit Feedback
- Title(参考訳): 帯域フィードバックによるマルチクラスオンライン学習
- Authors: Ananth Raman, Vinod Raman, Unique Subedi, Idan Mehalel, Ambuj Tewari
- Abstract要約: ここでは,Bandit Littlestone次元の有限性は,Banditのオンライン学習に十分であることを示す。
完全な情報設定とは異なり、シーケンシャルな一様収束は必要だが、オンライン学習の帯域化には不十分である。
- 参考スコア(独自算出の注目度): 18.52699248325032
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study online multiclass classification under bandit feedback. We extend
the results of Daniely and Helbertal [2013] by showing that the finiteness of
the Bandit Littlestone dimension is necessary and sufficient for bandit online
learnability even when the label space is unbounded. Moreover, we show that,
unlike the full-information setting, sequential uniform convergence is
necessary but not sufficient for bandit online learnability. Our result
complements the recent work by Hanneke, Moran, Raman, Subedi, and Tewari [2023]
who show that the Littlestone dimension characterizes online multiclass
learnability in the full-information setting even when the label space is
unbounded.
- Abstract(参考訳): バンディットフィードバックに基づくオンラインマルチクラス分類について検討する。
ラベル空間が非有界である場合でも、Bandit Littlestone次元の有限性は必要かつ十分であることを示すことにより、Daniely と Helbertal [2013] の結果を拡張した。
また,全情報設定とは異なり,逐次一様収束は必要であるが,オンライン学習能力の確保には不十分であることを示す。
この結果はhanneke, moran, raman, subedi, tewari [2023]の最近の研究を補完するものであり,ラベル空間が無制限であっても,littlestone次元がオンラインのマルチクラス学習性をフル情報環境において特徴付けることを示した。
関連論文リスト
- Multiclass Transductive Online Learning [14.093228102168872]
本稿では,ラベルの数が無制限である場合のオンライン学習の帰納的課題について考察する。
レベル制約されたリトルストーン次元と呼ばれる新しい次元は、この設定におけるオンライン学習可能性の特徴である。
ラベル空間が非有界である場合でも、期待されるミス回数の最小値の3分法が保たれることを示す。
論文 参考訳(メタデータ) (2024-11-03T16:57:13Z) - A Combinatorial Characterization of Supervised Online Learnability [20.291598040396302]
本稿では,任意だが有界な損失関数に対する仮説クラスのオンライン学習可能性について検討する。
連続最小次元と呼ばれる新しいスケール感性次元を与え、オンライン学習可能性の厳密な定量的評価を与えることを示す。
論文 参考訳(メタデータ) (2023-07-07T20:11:07Z) - Online Learning with Set-Valued Feedback [18.054632903107546]
学習者は1つのラベルを予測するが、フィードバックとしてラベルのテキストセットを受け取る。
単一ラベルフィードバックによるオンラインマルチクラス学習とは異なり、決定論的かつランダムなオンライン学習は、実現可能な設定においてもテキストと同等であることを示す。
論文 参考訳(メタデータ) (2023-06-09T20:43:19Z) - Multiclass Online Learning and Uniform Convergence [34.21248304961989]
対戦型オンライン学習環境におけるマルチクラス分類について検討する。
任意のマルチクラスの概念クラスが、そのリトルストーン次元が有限である場合に限り、不可知的に学習可能であることを証明する。
論文 参考訳(メタデータ) (2023-03-30T21:35:48Z) - Repainting and Imitating Learning for Lane Detection [52.5220065495956]
現行の車線検出手法は、重い影による視認性車線問題に苦慮している。
本稿では,教師と学生のペアを含む新しいリペイント・イミメーティング学習フレームワークを提案する。
提案手法は,推定中に余分な時間的コストを伴わず,様々な最先端車線検出ネットワークでプラグアンドプレイが可能となる。
論文 参考訳(メタデータ) (2022-10-11T02:26:39Z) - The Role of Coverage in Online Reinforcement Learning [72.01066664756986]
優れたカバレッジを持つデータ分布が存在するだけで、サンプル効率のよいオンラインRLが実現可能であることを示す。
ベルマンランクやベルマン・エルダー次元を含むオンラインRLの既存の複雑さ測定は、カバービリティを最適に捉えることができない。
本稿では,新たな複雑性尺度である逐次外挿係数を提案する。
論文 参考訳(メタデータ) (2022-10-09T03:50:05Z) - Weakly Supervised Person Search with Region Siamese Networks [65.76237418040071]
教師付き学習は人検索において支配的であるが、境界ボックスとアイデンティティの詳細なラベル付けが必要である。
私たちは、バウンディングボックスアノテーションのみが利用できる弱い教師付き設定を提示します。
我々のモデルはCUHK-SYSUベンチマークで87.1%のランク1と86.0%のmAPを達成している。
論文 参考訳(メタデータ) (2021-09-13T16:33:27Z) - Combining Online Learning and Offline Learning for Contextual Bandits
with Deficient Support [53.11601029040302]
現在のオフライン政治学習アルゴリズムは、主に逆確率スコア(IPS)重み付けに基づいている。
オフライン学習とオンライン探索を組み合わせた新しい手法を提案する。
提案手法は,最小限のオンライン探索数を用いて理論的保証を伴う最適政策を決定する。
論文 参考訳(メタデータ) (2021-07-24T05:07:43Z) - Non-Stationary Latent Bandits [68.21614490603758]
非定常ユーザに対して高速なパーソナライズのための実践的アプローチを提案する。
鍵となる考え方は、この問題を潜在バンディットとみなすことであり、ユーザ行動のプロトタイプモデルがオフラインで学習され、ユーザの潜伏状態がオンラインで推論される。
我々は,非定常潜伏帯域における後悔最小化のためのトンプソンサンプリングアルゴリズムを提案し,それらを解析し,実世界のデータセット上で評価する。
論文 参考訳(メタデータ) (2020-12-01T10:31:57Z) - Online Semi-Supervised Learning in Contextual Bandits with Episodic
Reward [13.173307471333619]
本稿では,自己スーパービジョンモジュールとしてクラスタリングを簡単に組み込むソリューションとして,バックグラウンド・エピソード・リワード・LinUCB(UCB)を紹介する。
6つのシナリオの静止環境と非定常環境の両方において,提案手法の利点を実証した。
論文 参考訳(メタデータ) (2020-09-17T20:41:02Z) - Bandits with Partially Observable Confounded Data [74.04376842070624]
この問題は,サイド情報を用いたバンドイット問題の変種と密接に関連していることを示す。
本稿では,予測情報を活用する線形帯域幅アルゴリズムを構築し,残差を証明した。
この結果から,オンライン学習アルゴリズムにおいて,オフラインデータの集約が著しく向上することが示唆された。
論文 参考訳(メタデータ) (2020-06-11T18:48:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。