論文の概要: Arm order recognition in multi-armed bandit problem with laser chaos
time series
- arxiv url: http://arxiv.org/abs/2005.13085v1
- Date: Tue, 26 May 2020 23:43:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 00:55:27.577125
- Title: Arm order recognition in multi-armed bandit problem with laser chaos
time series
- Title(参考訳): レーザーカオス時系列を用いたマルチアームバンディット問題におけるアームオーダー認識
- Authors: Naoki Narisawa, Nicolas Chauvet, Mikio Hasegawa and Makoto Naruse
- Abstract要約: 我々は以前、レーザーカオス時系列の時間分割多重化を利用して、マルチアームバンディット(MAB)問題を解決するスケーラブルアルゴリズムを実証した。
本稿では,報酬予測の推定精度を表す信頼区間に基づいて,探索の度合いを適応的に制御するアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 0.1835211348413763
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: By exploiting ultrafast and irregular time series generated by lasers with
delayed feedback, we have previously demonstrated a scalable algorithm to solve
multi-armed bandit (MAB) problems utilizing the time-division multiplexing of
laser chaos time series. Although the algorithm detects the arm with the
highest reward expectation, the correct recognition of the order of arms in
terms of reward expectations is not achievable. Here, we present an algorithm
where the degree of exploration is adaptively controlled based on confidence
intervals that represent the estimation accuracy of reward expectations. We
have demonstrated numerically that our approach did improve arm order
recognition accuracy significantly, along with reduced dependence on reward
environments, and the total reward is almost maintained compared with
conventional MAB methods. This study applies to sectors where the order
information is critical, such as efficient allocation of resources in
information and communications technology.
- Abstract(参考訳): レーザーによる超高速で不規則な時系列を遅延フィードバックで利用することにより,レーザーカオス時系列の時間分割多重化を利用したマルチアームバンディット(MAB)問題を解決するスケーラブルなアルゴリズムを以前実証した。
アルゴリズムは報奨期待が最も高いアームを検出するが、報奨期待の観点で腕の順番を正しく認識することは不可能である。
本稿では,報酬予測の推定精度を表す信頼区間に基づいて,探索の度合いを適応的に制御するアルゴリズムを提案する。
従来のmab法と比較して,報奨環境への依存度が小さくなるとともに,アームオーダー認識精度が著しく向上し,報酬総量はほぼ維持できることを示した。
本研究は、情報通信技術における資源の効率的な配分など、注文情報が重要である分野に適用する。
関連論文リスト
- Contextual Bandits with Arm Request Costs and Delays [19.263086804406786]
本稿では,時間的遅延と関連するコストを伴って,新たなアームセットを要求できるコンテキスト的バンディット問題の拡張を提案する。
この設定では、学習者は、各選択が1つの時間単位を取るように、決定セットから複数のアームを選択することができる。
我々は、武器を効果的に選択し、新しい武器を要求する適切な時間を決定するアルゴリズムを設計し、彼らの後悔を最小限に抑える。
論文 参考訳(メタデータ) (2024-10-17T00:44:50Z) - Best Arm Identification with Minimal Regret [55.831935724659175]
最高の腕識別問題 優雅にアマルガメートは、最小化とBAIを後悔している。
エージェントの目標は、所定の信頼度で最高の腕を特定することである。
二重KL-UCBアルゴリズムは、信頼度がゼロになる傾向があるため、最適性を達成する。
論文 参考訳(メタデータ) (2024-09-27T16:46:02Z) - Best Arm Identification with Fixed Budget: A Large Deviation Perspective [54.305323903582845]
我々は、様々な武器の報酬間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
特に、様々な武器の報酬の間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
論文 参考訳(メタデータ) (2023-12-19T13:17:43Z) - Differential Good Arm Identification [4.666048091337632]
本稿では,GAI(Good Arm Identification)と呼ばれる多腕バンディット問題の変種を対象とする。
GAIは純粋な探索用バンディット問題であり、できるだけ少ないサンプルで優れた腕を出力することを目的としている。
本稿では,DGAI - 優れた腕識別アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-13T14:28:21Z) - Mean-based Best Arm Identification in Stochastic Bandits under Reward
Contamination [80.53485617514707]
本稿では,ギャップベースアルゴリズムと逐次除去に基づく2つのアルゴリズムを提案する。
具体的には、ギャップベースのアルゴリズムでは、サンプルの複雑さは定数要素まで最適であり、連続的な除去では対数因子まで最適である。
論文 参考訳(メタデータ) (2021-11-14T21:49:58Z) - Adaptive Algorithms for Multi-armed Bandit with Composite and Anonymous
Feedback [32.62857394584907]
複合および匿名フィードバックによるマルチアームバンディット(MAB)問題を研究する。
本稿では,逆の場合と非逆の場合の適応アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-13T12:25:41Z) - Optimal Best-arm Identification in Linear Bandits [79.3239137440876]
サンプルの複雑さが既知のインスタンス固有の下界と一致する単純なアルゴリズムを考案する。
既存のベストアーム識別戦略とは異なり、我々のアルゴリズムは武器の数に依存しない停止規則を用いる。
論文 参考訳(メタデータ) (2020-06-29T14:25:51Z) - Quantile Multi-Armed Bandits: Optimal Best-Arm Identification and a
Differentially Private Scheme [16.1694012177079]
我々は,多腕バンディットにおける最高の武器識別問題,潜在的に私的な報酬について検討する。
ゴールは、固定された所定のレベルで、最も高い定量値を持つ腕を特定することである。
このアルゴリズムは$delta$-PACであり,サンプルの複雑さを特徴付ける。
論文 参考訳(メタデータ) (2020-06-11T20:23:43Z) - A Novel Confidence-Based Algorithm for Structured Bandits [129.30402124516507]
両腕の報酬が他の腕の報酬と相関する可能性のある有限腕包帯について検討した。
本稿では、与えられた構造を利用して、真のバンディット問題のパラメータに対する信頼セットを構築する新しい位相アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-23T19:52:44Z) - Robustness Guarantees for Mode Estimation with an Application to Bandits [131.21717367564963]
平均ではなく報酬分布のモードを値とするマルチアームバンディットの理論を導入する。
我々は,我々のアルゴリズムが逆雑音列による腕の摂動に頑健であることを示すシミュレーションで示す。
論文 参考訳(メタデータ) (2020-03-05T21:29:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。