Fugu-MT 論文翻訳(概要): Multi-Armed Bandits with Abstention

論文の概要: Multi-Armed Bandits with Abstention

arxiv url: http://arxiv.org/abs/2402.15127v1
Date: Fri, 23 Feb 2024 06:27:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-26 15:29:35.729741
Title: Multi-Armed Bandits with Abstention
Title（参考訳）: 留置用多関節バンド
Authors: Junwen Yang, Tianyuan Jin, Vincent Y. F. Tan
Abstract要約: 本稿では, 新たな戦略要素である禁忌を取り入れた, 正準多重武装バンディット問題の拡張を提案する。この強化されたフレームワークでは、エージェントは各タイムステップでアームを選択することだけでなく、観察する前に即時報酬を受け付けないオプションも備えている。
参考スコア（独自算出の注目度）: 62.749500564313834
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce a novel extension of the canonical multi-armed bandit problem that incorporates an additional strategic element: abstention. In this enhanced framework, the agent is not only tasked with selecting an arm at each time step, but also has the option to abstain from accepting the stochastic instantaneous reward before observing it. When opting for abstention, the agent either suffers a fixed regret or gains a guaranteed reward. Given this added layer of complexity, we ask whether we can develop efficient algorithms that are both asymptotically and minimax optimal. We answer this question affirmatively by designing and analyzing algorithms whose regrets meet their corresponding information-theoretic lower bounds. Our results offer valuable quantitative insights into the benefits of the abstention option, laying the groundwork for further exploration in other online decision-making problems with such an option. Numerical results further corroborate our theoretical findings.
Abstract（参考訳）: 我々は,新たな戦略要素を組み込んだ,正準多武装バンディット問題の新たな拡張を提案する。この強化されたフレームワークでは、エージェントは各時間ステップでアームを選択することだけでなく、観察する前に確率的な瞬間的な報酬を受け取ることを拒否するオプションを持っている。棄権を選択した場合、エージェントは一定の後悔に苦しむか、保証された報酬を得る。この付加的な複雑性層を考えると、漸近的かつミニマックス最適である効率的なアルゴリズムを開発できるかどうかを問う。我々は,後悔が対応する情報理論下限を満たすアルゴリズムを設計・分析することで,この疑問に肯定的に答える。以上の結果から,提案オプションのメリットを定量的に把握し,他のオンライン意思決定問題へのさらなる探究の基盤となるものと考えられる。数値的な結果は我々の理論的な結果をさらに裏付ける。

関連論文リスト

Optimal Multi-Objective Best Arm Identification with Fixed Confidence [62.36929749450298]
我々は、各アームが選択時にM$Dのベクトル報酬を得られる多腕バンディット設定を考える。最終的なゴールは、最も短い(予想される)時間において、エラーの確率の上限に従属する全ての目的の最良のアームを特定することである。本稿では,各ステップでアームをサンプリングするために,エミュロゲート比例という新しいアイデアを用いたアルゴリズムを提案し,各ステップにおける最大最小最適化問題を解く必要をなくした。
論文参考訳（メタデータ） (2025-01-23T12:28:09Z)
Contextual Bandits with Arm Request Costs and Delays [19.263086804406786]
本稿では,時間的遅延と関連するコストを伴って,新たなアームセットを要求できるコンテキスト的バンディット問題の拡張を提案する。この設定では、学習者は、各選択が1つの時間単位を取るように、決定セットから複数のアームを選択することができる。我々は、武器を効果的に選択し、新しい武器を要求する適切な時間を決定するアルゴリズムを設計し、彼らの後悔を最小限に抑える。
論文参考訳（メタデータ） (2024-10-17T00:44:50Z)
Best Arm Identification with Minimal Regret [55.831935724659175]
最高の腕識別問題優雅にアマルガメートは、最小化とBAIを後悔している。エージェントの目標は、所定の信頼度で最高の腕を特定することである。二重KL-UCBアルゴリズムは、信頼度がゼロになる傾向があるため、最適性を達成する。
論文参考訳（メタデータ） (2024-09-27T16:46:02Z)
Optimal Multi-Fidelity Best-Arm Identification [65.23078799972188]
バンディットのベストアーム識別において、アルゴリズムは、できるだけ早く特定の精度で、最高平均報酬の腕を見つけることを任務とする。マルチフィデリティのベストアーム識別について検討し、低コストで低いフィデリティ(正確な平均推定値を持たない)で腕をサンプリングすることを選択できる。この問題に対処するためのいくつかの方法が提案されているが、その最適性は、特に最適な腕を特定するのに必要な総コストのゆるやかな下限のため、未解決のままである。
論文参考訳（メタデータ） (2024-06-05T08:02:40Z)
Multi-Armed Bandit Problem with Temporally-Partitioned Rewards: When Partial Feedback Counts [53.579515853222986]
時間分割リワード(TP-MAB)を用いたマルチアーメッド・バンディット(Multi-Armed Bandit)について検討する。この設定は、プル後の有限時間スパン上で報酬が拡張されるケースに対する遅延フィードバックバンディットの自然な拡張である。本稿では,TP-UCB-FRとTP-UCB-EWの2つのアルゴリズムを提案する。
論文参考訳（メタデータ） (2022-06-01T15:56:59Z)
Asymptotic Optimality for Decentralised Bandits [7.057937612386993]
多数の武器で盗賊問題に協力するエージェントを多数検討する。目標は、コミュニケーション制約のある環境で各エージェントの後悔を最小限にすることである。
論文参考訳（メタデータ） (2021-09-20T11:10:10Z)
Navigating to the Best Policy in Markov Decision Processes [68.8204255655161]
マルコフ決定過程における純粋探索問題について検討する。エージェントはアクションを逐次選択し、結果のシステム軌道から可能な限り早くベストを目標とする。
論文参考訳（メタデータ） (2021-06-05T09:16:28Z)
Adaptive Algorithms for Multi-armed Bandit with Composite and Anonymous Feedback [32.62857394584907]
複合および匿名フィードバックによるマルチアームバンディット(MAB)問題を研究する。本稿では,逆の場合と非逆の場合の適応アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-12-13T12:25:41Z)
Lenient Regret for Multi-Armed Bandits [72.56064196252498]
エージェントが順番に行動を選択し、その行動に対する報酬を観察するマルチアーマッド・バンディット(MAB)問題を考察する。アルゴリズムの大多数は、後悔、すなわち最高の行動の報酬とエージェントの行動の累積的な差を最小化しようとするが、この基準は望ましくない結果をもたらすかもしれない。我々は、いくつかの$epsilon$よりも小さな最適性ギャップを無視した、より寛大で寛大で後悔すべき基準を提案する。
論文参考訳（メタデータ） (2020-08-10T08:30:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。