Fugu-MT 論文翻訳(概要): Etat de l'art sur l'application des bandits multi-bras

論文の概要: Etat de l'art sur l'application des bandits multi-bras

arxiv url: http://arxiv.org/abs/2101.00001v1
Date: Mon, 4 Jan 2021 18:12:28 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-12 03:05:54.597445
Title: Etat de l'art sur l'application des bandits multi-bras
Title（参考訳）: ブロードバンドの多層化にむけて
Authors: Djallel Bouneffouf
Abstract要約: マルチアームバンディットは、すでに学んだ知識を同時に学び、活用する利点を提供します。この記事では、実際のシナリオにバンディットを適用する最近の結果のレビューを提供し、これらの各分野のための芸術の状況をまとめます。
参考スコア（独自算出の注目度）: 9.554282171274126
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The Multi-armed bandit offer the advantage to learn and exploit the already learnt knowledge at the same time. This capability allows this approach to be applied in different domains, going from clinical trials where the goal is investigating the effects of different experimental treatments while minimizing patient losses, to adaptive routing where the goal is to minimize the delays in a network. This article provides a review of the recent results on applying bandit to real-life scenario and summarize the state of the art for each of these fields. Different techniques has been proposed to solve this problem setting, like epsilon-greedy, Upper confident bound (UCB) and Thompson Sampling (TS). We are showing here how this algorithms were adapted to solve the different problems of exploration exploitation.
Abstract（参考訳）: マルチアームのバンディットは、既に学習済みの知識を同時に学習し、活用する利点を提供する。この能力により、このアプローチは、患者の損失を最小限に抑えながら、異なる実験的な治療の効果を調査している臨床試験から、ネットワークの遅延を最小限にするアダプティブルーティングまで、さまざまな領域で適用することができる。本稿では,実生活シナリオへの帯域幅の適用に関する最近の成果を概観し,各分野の技術を要約する。 epsilon-greedy, upper confidence bound (ucb) や thompson sampling (ts) など、この問題を解決するために異なる手法が提案されている。我々は、このアルゴリズムが探査のさまざまな問題を解決するためにどのように適応されたかを示す。

関連論文リスト

Empirical Bayesian Multi-Bandit Learning [8.980876474818153]
文脈的包帯におけるマルチタスク学習は、大きな研究関心を集めている。本稿では,様々な帯域で学習する階層型ベイズフレームワークを提案する。提案アルゴリズムは既存の手法に比べて累積的後悔度が低いことを示す。
論文参考訳（メタデータ） (2025-10-30T09:08:07Z)
Scalable Policy Maximization Under Network Interference [46.16641537379657]
動的ネットワーク上での干渉下での最適政治学習について検討する。干渉の構造に関する一般的な仮定では、報酬は線形となる。我々は,新しい$n$ノードネットワークが各ラウンドで観測された場合に,ポリシーの影響を最大化するスケーラブルなトンプソンサンプリングアルゴリズムを開発した。
論文参考訳（メタデータ） (2025-05-23T17:19:12Z)
Neural Contextual Bandits Under Delayed Feedback Constraints [3.823356975862005]
本稿では,遅延報酬フィードバックの課題に対処するニューラル・コンテクチュアル・バンディット(CB)の新しいアルゴリズムを提案する。提案したアルゴリズムは、Delayed NeuralUCBと呼ばれ、上位信頼境界(UCB)に基づく探索戦略を使用している。 MNIST や Mushroom のような実世界のデータセットに関する数値実験では,提案アルゴリズムが遅延を効果的に管理できることが示されている。
論文参考訳（メタデータ） (2025-04-16T13:47:25Z)
Evolutionary Algorithm with Detection Region Method for Constrained Multi-Objective Problems with Binary Constraints [9.764702512419946]
本稿では,検出領域法に基づくDRMCMOと呼ばれる新しいアルゴリズムを提案する。 DRMCMOでは、検出領域は収束を高めるために実現可能なソリューションを動的に監視し、住民が局所的最適から逃れるのを助ける。バイナリ制約のあるCMOPのベンチマークテスト問題として、既存の3つのテストスイートを変更しました。
論文参考訳（メタデータ） (2024-11-13T08:39:04Z)
Neural Active Learning Beyond Bandits [69.99592173038903]
ストリームベースとプールベースの両方のアクティブラーニングをニューラルネットワーク近似を用いて検討する。ストリームベースおよびプールベースアクティブラーニングのためのニューラルネットワークを新たに設計したエクスプロイトと探索に基づく2つのアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-04-18T21:52:14Z)
Multi-Armed Bandits with Generalized Temporally-Partitioned Rewards [0.4194295877935867]
現実のアプリケーションでは、決定に関するフィードバックが遅れて、異なる遅延で観察される部分的な報酬によって到着する場合がある。本稿では,時間分割報酬を一般化したマルチアームバンディット(multi-armed bandits)と呼ばれる新しい問題定式化を提案する。検討した問題に対する一様に効率的なアルゴリズムの性能の低い境界を導出する。
論文参考訳（メタデータ） (2023-03-01T16:22:22Z)
Vertex-based reachability analysis for verifying ReLU deep neural networks [3.5816079147181483]
本稿では,ReLUアクティベーションを用いたディープニューラルネットワーク検証のための3つの新しい到達性アルゴリズムを提案する。 ACAS Xu 問題に対する実験により,本研究で提案した Exact Polytope Network Mapping (EPNM) の到達性アルゴリズムが,文献の最先端結果を上回ることがわかった。
論文参考訳（メタデータ） (2023-01-27T21:46:03Z)
Thompson Sampling with Virtual Helping Agents [0.0]
我々は、オンラインのシーケンシャルな意思決定の問題、すなわち、現在の知識を活用して即時パフォーマンスを最大化し、新しい情報を探索して長期的な利益を得るというトレードオフに対処する。本稿では,マルチアームバンディット問題に対する2つのアルゴリズムを提案し,累積的後悔に関する理論的境界を提供する。
論文参考訳（メタデータ） (2022-09-16T23:34:44Z)
Hierarchical Bayesian Bandits [51.67132887113412]
このクラスでは,任意の問題に適用可能な自然階層型トンプソンサンプリングアルゴリズム (hierTS) を解析する。私たちの後悔の限界は、タスクが順次あるいは並列に解決された場合を含む、そのような問題の多くの事例に当てはまる。実験により、階層構造はタスク間の知識共有に役立つことが示された。
論文参考訳（メタデータ） (2021-11-12T20:33:09Z)
ADER:Adapting between Exploration and Robustness for Actor-Critic Methods [8.750251598581102]
プリミティブな環境では,Vanilla actor-criticメソッドよりもTD3のパフォーマンスが遅れていることが示される。本稿では,探索とロバストネスの間に適応する新しいアルゴリズム,すなわちADERを提案する。いくつかの挑戦的な環境における実験は、連続制御タスクにおける提案手法の優位性を実証している。
論文参考訳（メタデータ） (2021-09-08T05:48:39Z)
An Investigation of Replay-based Approaches for Continual Learning [79.0660895390689]
連続学習(CL)は機械学習(ML)の大きな課題であり、破滅的忘れ(CF)を伴わずに連続的に複数のタスクを学習する能力を記述する。いくつかの解クラスが提案されており、その単純さと堅牢性から、いわゆるリプレイベースのアプローチは非常に有望であるように思われる。連続学習におけるリプレイに基づくアプローチを実証的に検討し,応用の可能性を評価する。
論文参考訳（メタデータ） (2021-08-15T15:05:02Z)
Batched Neural Bandits [107.5072688105936]
BatchNeuralUCBはニューラルネットワークと楽観性を組み合わせ、探索と探索のトレードオフに対処する。 BatchNeuralUCBは、完全なシーケンシャルバージョンと同じ後悔を達成しつつ、ポリシー更新の数を大幅に減らしています。
論文参考訳（メタデータ） (2021-02-25T17:36:44Z)
Anomalous Example Detection in Deep Learning: A Survey [98.2295889723002]
本調査は,ディープラーニングアプリケーションにおける異常検出の研究について,構造化された包括的概要を提供する。既存の技術に対する分類法を,その基礎となる前提と採用アプローチに基づいて提案する。本稿では,DLシステムに異常検出技術を適用しながら未解決の研究課題を取り上げ,今後の課題について述べる。
論文参考訳（メタデータ） (2020-03-16T02:47:23Z)
Domain Adaptation: Learning Bounds and Algorithms [80.85426994513541]
本稿では,任意の損失関数を持つ適応問題に適した分布距離,差分距離を新たに導入する。広い損失関数族に対する領域適応のための新しい一般化境界を導出する。また、正規化に基づくアルゴリズムの大規模クラスに対する新しい適応境界も提示する。
論文参考訳（メタデータ） (2009-02-19T18:42:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。