論文の概要: Etat de l'art sur l'application des bandits multi-bras
- arxiv url: http://arxiv.org/abs/2101.00001v1
- Date: Mon, 4 Jan 2021 18:12:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-12 03:05:54.597445
- Title: Etat de l'art sur l'application des bandits multi-bras
- Title(参考訳): ブロードバンドの多層化にむけて
- Authors: Djallel Bouneffouf
- Abstract要約: マルチアームバンディットは、すでに学んだ知識を同時に学び、活用する利点を提供します。
この記事では、実際のシナリオにバンディットを適用する最近の結果のレビューを提供し、これらの各分野のための芸術の状況をまとめます。
- 参考スコア(独自算出の注目度): 9.554282171274126
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Multi-armed bandit offer the advantage to learn and exploit the already
learnt knowledge at the same time. This capability allows this approach to be
applied in different domains, going from clinical trials where the goal is
investigating the effects of different experimental treatments while minimizing
patient losses, to adaptive routing where the goal is to minimize the delays in
a network. This article provides a review of the recent results on applying
bandit to real-life scenario and summarize the state of the art for each of
these fields. Different techniques has been proposed to solve this problem
setting, like epsilon-greedy, Upper confident bound (UCB) and Thompson Sampling
(TS). We are showing here how this algorithms were adapted to solve the
different problems of exploration exploitation.
- Abstract(参考訳): マルチアームのバンディットは、既に学習済みの知識を同時に学習し、活用する利点を提供する。
この能力により、このアプローチは、患者の損失を最小限に抑えながら、異なる実験的な治療の効果を調査している臨床試験から、ネットワークの遅延を最小限にするアダプティブルーティングまで、さまざまな領域で適用することができる。
本稿では,実生活シナリオへの帯域幅の適用に関する最近の成果を概観し,各分野の技術を要約する。
epsilon-greedy, upper confidence bound (ucb) や thompson sampling (ts) など、この問題を解決するために異なる手法が提案されている。
我々は、このアルゴリズムが探査のさまざまな問題を解決するためにどのように適応されたかを示す。
関連論文リスト
- Evolutionary Algorithm with Detection Region Method for Constrained Multi-Objective Problems with Binary Constraints [9.764702512419946]
本稿では,検出領域法に基づくDRMCMOと呼ばれる新しいアルゴリズムを提案する。
DRMCMOでは、検出領域は収束を高めるために実現可能なソリューションを動的に監視し、住民が局所的最適から逃れるのを助ける。
バイナリ制約のあるCMOPのベンチマークテスト問題として、既存の3つのテストスイートを変更しました。
論文 参考訳(メタデータ) (2024-11-13T08:39:04Z) - Neural Active Learning Beyond Bandits [69.99592173038903]
ストリームベースとプールベースの両方のアクティブラーニングをニューラルネットワーク近似を用いて検討する。
ストリームベースおよびプールベースアクティブラーニングのためのニューラルネットワークを新たに設計したエクスプロイトと探索に基づく2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-04-18T21:52:14Z) - Multi-Armed Bandits with Generalized Temporally-Partitioned Rewards [0.4194295877935867]
現実のアプリケーションでは、決定に関するフィードバックが遅れて、異なる遅延で観察される部分的な報酬によって到着する場合がある。
本稿では,時間分割報酬を一般化したマルチアームバンディット(multi-armed bandits)と呼ばれる新しい問題定式化を提案する。
検討した問題に対する一様に効率的なアルゴリズムの性能の低い境界を導出する。
論文 参考訳(メタデータ) (2023-03-01T16:22:22Z) - Vertex-based reachability analysis for verifying ReLU deep neural
networks [3.5816079147181483]
本稿では,ReLUアクティベーションを用いたディープニューラルネットワーク検証のための3つの新しい到達性アルゴリズムを提案する。
ACAS Xu 問題に対する実験により,本研究で提案した Exact Polytope Network Mapping (EPNM) の到達性アルゴリズムが,文献の最先端結果を上回ることがわかった。
論文 参考訳(メタデータ) (2023-01-27T21:46:03Z) - Thompson Sampling with Virtual Helping Agents [0.0]
我々は、オンラインのシーケンシャルな意思決定の問題、すなわち、現在の知識を活用して即時パフォーマンスを最大化し、新しい情報を探索して長期的な利益を得るというトレードオフに対処する。
本稿では,マルチアームバンディット問題に対する2つのアルゴリズムを提案し,累積的後悔に関する理論的境界を提供する。
論文 参考訳(メタデータ) (2022-09-16T23:34:44Z) - Hierarchical Bayesian Bandits [51.67132887113412]
このクラスでは,任意の問題に適用可能な自然階層型トンプソンサンプリングアルゴリズム (hierTS) を解析する。
私たちの後悔の限界は、タスクが順次あるいは並列に解決された場合を含む、そのような問題の多くの事例に当てはまる。
実験により、階層構造はタスク間の知識共有に役立つことが示された。
論文 参考訳(メタデータ) (2021-11-12T20:33:09Z) - ADER:Adapting between Exploration and Robustness for Actor-Critic
Methods [8.750251598581102]
プリミティブな環境では,Vanilla actor-criticメソッドよりもTD3のパフォーマンスが遅れていることが示される。
本稿では,探索とロバストネスの間に適応する新しいアルゴリズム,すなわちADERを提案する。
いくつかの挑戦的な環境における実験は、連続制御タスクにおける提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2021-09-08T05:48:39Z) - An Investigation of Replay-based Approaches for Continual Learning [79.0660895390689]
連続学習(CL)は機械学習(ML)の大きな課題であり、破滅的忘れ(CF)を伴わずに連続的に複数のタスクを学習する能力を記述する。
いくつかの解クラスが提案されており、その単純さと堅牢性から、いわゆるリプレイベースのアプローチは非常に有望であるように思われる。
連続学習におけるリプレイに基づくアプローチを実証的に検討し,応用の可能性を評価する。
論文 参考訳(メタデータ) (2021-08-15T15:05:02Z) - Batched Neural Bandits [107.5072688105936]
BatchNeuralUCBはニューラルネットワークと楽観性を組み合わせ、探索と探索のトレードオフに対処する。
BatchNeuralUCBは、完全なシーケンシャルバージョンと同じ後悔を達成しつつ、ポリシー更新の数を大幅に減らしています。
論文 参考訳(メタデータ) (2021-02-25T17:36:44Z) - Anomalous Example Detection in Deep Learning: A Survey [98.2295889723002]
本調査は,ディープラーニングアプリケーションにおける異常検出の研究について,構造化された包括的概要を提供する。
既存の技術に対する分類法を,その基礎となる前提と採用アプローチに基づいて提案する。
本稿では,DLシステムに異常検出技術を適用しながら未解決の研究課題を取り上げ,今後の課題について述べる。
論文 参考訳(メタデータ) (2020-03-16T02:47:23Z) - Domain Adaptation: Learning Bounds and Algorithms [80.85426994513541]
本稿では,任意の損失関数を持つ適応問題に適した分布距離,差分距離を新たに導入する。
広い損失関数族に対する領域適応のための新しい一般化境界を導出する。
また、正規化に基づくアルゴリズムの大規模クラスに対する新しい適応境界も提示する。
論文 参考訳(メタデータ) (2009-02-19T18:42:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。