論文の概要: Nearest Neighbour with Bandit Feedback
- arxiv url: http://arxiv.org/abs/2306.13773v3
- Date: Thu, 7 Mar 2024 21:07:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-11 23:35:46.968714
- Title: Nearest Neighbour with Bandit Feedback
- Title(参考訳): バンディットフィードバックの最も近い隣人
- Authors: Stephen Pasteris, Chris Hicks, Vasilios Mavroudis
- Abstract要約: 我々のアルゴリズムは、データ生成プロセスに関する仮定が全くなされていない完全に逆向きな設定を処理します。
ユークリッド空間におけるバンドイト問題に適用した場合,アルゴリズムに対する一般的な後悔と解析を行う。
- 参考スコア(独自算出の注目度): 4.9094025705644695
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper we adapt the nearest neighbour rule to the contextual bandit
problem. Our algorithm handles the fully adversarial setting in which no
assumptions at all are made about the data-generation process. When combined
with a sufficiently fast data-structure for (perhaps approximate) adaptive
nearest neighbour search, such as a navigating net, our algorithm is extremely
efficient - having a per trial running time polylogarithmic in both the number
of trials and actions, and taking only quasi-linear space. We give generic
regret bounds for our algorithm and further analyse them when applied to the
stochastic bandit problem in euclidean space. We note that our algorithm can
also be applied to the online classification problem.
- Abstract(参考訳): 本稿では,最寄りの隣接規則を文脈的バンディット問題に適用する。
当社のアルゴリズムは,データ生成プロセスに関する仮定がまったくない,完全に敵対的な設定を処理します。
ナビゲーティングネットのような(おそらく近似的な)適応的近距離探索のための十分高速なデータ構造と組み合わせると、アルゴリズムは非常に効率的で、試行数とアクションの両方において試行時間当たりの多対数を持ち、準線形空間のみを取る。
ユークリッド空間における確率的バンディット問題に適用した場合、アルゴリズムに一般的な後悔境界を与え、さらに解析する。
また,本アルゴリズムはオンライン分類問題にも適用可能であることに留意する。
関連論文リスト
- Causal Bandits without Graph Learning [28.021500949026766]
我々は,原子間干渉を用いた報酬ノードの親ノード探索のための効率的なアルゴリズムを開発した。
報奨ノードが複数の親を持つ場合にアルゴリズムを拡張します。
論文 参考訳(メタデータ) (2023-01-26T20:27:14Z) - Machine Learning for Online Algorithm Selection under Censored Feedback [71.6879432974126]
オンラインアルゴリズム選択(OAS)では、アルゴリズム問題クラスのインスタンスがエージェントに次々に提示され、エージェントは、固定された候補アルゴリズムセットから、おそらく最高のアルゴリズムを迅速に選択する必要がある。
SAT(Satisfiability)のような決定問題に対して、品質は一般的にアルゴリズムのランタイムを指す。
本研究では,OASのマルチアームバンディットアルゴリズムを再検討し,この問題に対処する能力について議論する。
ランタイム指向の損失に適応し、時間的地平線に依存しない空間的・時間的複雑さを維持しながら、部分的に検閲されたデータを可能にする。
論文 参考訳(メタデータ) (2021-09-13T18:10:52Z) - Parallelizing Contextual Linear Bandits [82.65675585004448]
並列な)コンテキスト線形バンディットアルゴリズムの族を提示し、その遺残はそれらの完全シーケンシャルなアルゴリズムとほぼ同一である。
また,これらの並列アルゴリズムについて,材料発見や生物配列設計の問題など,いくつかの領域で実証評価を行った。
論文 参考訳(メタデータ) (2021-05-21T22:22:02Z) - Leveraging Reinforcement Learning for evaluating Robustness of KNN
Search Algorithms [0.0]
与えられたクエリポイントのデータセットでk-nearestの隣人を見つける問題は、数年前から解決されてきた。
本稿では,K-Nearest Neighbor Search(K-Nearest Neighbor Search)の手法について,計算の視点から検討する。
本論文では,KNNSアプローチの対敵点に対する堅牢性を評価するために,汎用的な強化学習ベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-10T16:10:58Z) - An Asymptotically Optimal Primal-Dual Incremental Algorithm for
Contextual Linear Bandits [129.1029690825929]
複数の次元に沿った最先端技術を改善する新しいアルゴリズムを提案する。
非文脈線形帯域の特別な場合において、学習地平線に対して最小限の最適性を確立する。
論文 参考訳(メタデータ) (2020-10-23T09:12:47Z) - Corralling Stochastic Bandit Algorithms [54.10645564702416]
相関アルゴリズムの後悔は、最も報酬の高い腕を含む最高のアルゴリズムの後悔よりも悪くはないことを示す。
最高報酬と他の報酬の差は、最高報酬と他の報酬の差に依存することを示す。
論文 参考訳(メタデータ) (2020-06-16T15:33:12Z) - Learning to Accelerate Heuristic Searching for Large-Scale Maximum
Weighted b-Matching Problems in Online Advertising [51.97494906131859]
バイパルタイトbマッチングはアルゴリズム設計の基本であり、経済市場や労働市場などに広く適用されている。
既存の正確で近似的なアルゴリズムは、通常そのような設定で失敗する。
我々は、以前の事例から学んだ知識を活用して、新しい問題インスタンスを解決するtextttNeuSearcherを提案する。
論文 参考訳(メタデータ) (2020-05-09T02:48:23Z) - Lagrangian Decomposition for Neural Network Verification [148.0448557991349]
ニューラルネットワーク検証の基本的なコンポーネントは、出力が取ることのできる値のバウンダリの計算である。
ラグランジアン分解に基づく新しい手法を提案する。
ランニングタイムのごく一部で、既成の解法に匹敵するバウンダリが得られることを示す。
論文 参考訳(メタデータ) (2020-02-24T17:55:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。