Fugu-MT 論文翻訳(概要): Networked Restless Bandits with Positive Externalities

論文の概要: Networked Restless Bandits with Positive Externalities

arxiv url: http://arxiv.org/abs/2212.05144v1
Date: Fri, 9 Dec 2022 23:37:14 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-13 15:44:52.351768
Title: Networked Restless Bandits with Positive Externalities
Title（参考訳）: 正の外部性を有するネットワークレストレストバンド
Authors: Christine Herlihy, John P. Dickerson
Abstract要約: ネットワーク型レスト・バンディット(networked restless bandit)は、腕をレストと有向グラフに埋め込んだ、新しいマルチアーム・バンディット・セッティングである。次に、グラフ対応のWhittleインデックスベースのアルゴリズムであるGretaを紹介し、各時間ステップで制約付き報酬最大化アクションベクトルを効率的に構築することができる。
参考スコア（独自算出の注目度）: 34.792869761921565
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Restless multi-armed bandits are often used to model budget-constrained resource allocation tasks where receipt of the resource is associated with an increased probability of a favorable state transition. Prior work assumes that individual arms only benefit if they receive the resource directly. However, many allocation tasks occur within communities and can be characterized by positive externalities that allow arms to derive partial benefit when their neighbor(s) receive the resource. We thus introduce networked restless bandits, a novel multi-armed bandit setting in which arms are both restless and embedded within a directed graph. We then present Greta, a graph-aware, Whittle index-based heuristic algorithm that can be used to efficiently construct a constrained reward-maximizing action vector at each timestep. Our empirical results demonstrate that Greta outperforms comparison policies across a range of hyperparameter values and graph topologies.
Abstract（参考訳）: restless multi-armed banditsは予算に制約されたリソース割り当てタスクのモデル化によく使われ、リソースの受領と好ましい状態遷移の確率の増加に関連付けられる。以前の作業では、個々のアームはリソースを直接受け取る場合にのみ有効であると仮定している。しかし、多くの割り当てタスクはコミュニティ内で発生し、隣人がリソースを受け取ったときに腕が部分的な利益を得られるような、ポジティブな外部性によって特徴づけられる。そこで,本研究では,腕がレストで,有向グラフに埋め込まれた,新しい多腕バンディットセットであるネットワークレスレスバンディットを紹介する。次に,制約付き報酬最大化動作ベクトルを各時間ステップで効率的に構築できる,グラフ認識型,ウィットルインデックスに基づくヒューリスティックアルゴリズムgretaを提案する。実験の結果、Gretaはハイパーパラメータ値とグラフトポロジーの範囲で比較ポリシーを上回ります。

関連論文リスト

Lagrangian Relaxation for Multi-Action Partially Observable Restless Bandits: Heuristic Policies and Indexability [0.0]
本研究では,多動作部分観察可能なレストレスマルチアームバンドについて検討した。バンディットの状態は観測できないが、有限個のフィードバック信号のうちの1つは観測可能である。有限状態有限作用 POMDP に対する最適値関数の計算は非自明である。
論文参考訳（メタデータ） (2025-08-30T08:47:33Z)
Quick-Draw Bandits: Quickly Optimizing in Nonstationary Environments with Extremely Many Arms [80.05851139852311]
本稿では,ガウス的手法を用いて連続空間上の報酬環境を学習するための新しいポリシーを提案する。提案手法は,$mathcalO*(sqrtT)$ cumulative regret を用いて連続リプシッツ報酬関数を効率よく学習することを示す。
論文参考訳（メタデータ） (2025-05-30T15:15:18Z)
Bridging Rested and Restless Bandits with Graph-Triggering: Rising and Rotting [67.1631453378926]
Graph-Triggered Banditsは、安静と安静のバンディットを一般化するフレームワークである。本研究は,2種類の単調包帯に焦点をあてる: 立ち上がり, 腕の期待される報酬が増加する, 引き金の数が増える, 回転する, 反対の行動が起こる。
論文参考訳（メタデータ） (2024-09-09T18:23:07Z)
Neural Dueling Bandits [58.90189511247936]
ニューラルネットワークを用いて、予め選択した腕の好みフィードバックを用いて報酬関数を推定する。次に、理論結果を二項フィードバックによる文脈的帯域幅問題に拡張し、それはそれ自体は自明な寄与ではない。
論文参考訳（メタデータ） (2024-07-24T09:23:22Z)
Robust and Performance Incentivizing Algorithms for Multi-Armed Bandits with Strategic Agents [52.75161794035767]
性能インセンティブとロバストネスの2つの目的を同時に満たすバンディットアルゴリズムのクラスを導入する。そこで本研究では,第2価格オークションのアイデアをアルゴリズムと組み合わせることで,プリンシパルが腕の性能特性に関する情報を持たないような設定が可能であることを示す。
論文参考訳（メタデータ） (2023-12-13T06:54:49Z)
Reproducible Bandits [95.8830340560603]
バンディット環境におけるポリシーは、2つの異なる実行において全く同じ腕列を高い確率で引き出すと再現可能と呼ばれる。再現可能なポリシが存在するだけでなく、時間的地平線の観点から、ほぼ同じ(再現不可能な)後悔境界を達成することを示す。以上の結果から,無作為化が探索・探索トレードオフに不可欠であるにもかかわらず,同一の腕を2回の異なるラウンドで引き抜いて最適なバランスをとれることが示唆された。
論文参考訳（メタデータ） (2022-10-04T20:36:45Z)
Multi-Armed Bandit Problem with Temporally-Partitioned Rewards: When Partial Feedback Counts [53.579515853222986]
時間分割リワード(TP-MAB)を用いたマルチアーメッド・バンディット(Multi-Armed Bandit)について検討する。この設定は、プル後の有限時間スパン上で報酬が拡張されるケースに対する遅延フィードバックバンディットの自然な拡張である。本稿では,TP-UCB-FRとTP-UCB-EWの2つのアルゴリズムを提案する。
論文参考訳（メタデータ） (2022-06-01T15:56:59Z)
Asymptotically Optimal Bandits under Weighted Information [10.939683083130616]
エージェントが各ラウンドで複数のアームを演奏できるマルチアームバンディット装置における後悔の問題について検討する。本稿では,Thompson-Sampling ベースの戦略を提案する。この戦略は,各腕が最高の腕であるという後続の信念として,パワープロファイルを設計する。
論文参考訳（メタデータ） (2021-05-28T21:28:44Z)
Combinatorial Blocking Bandits with Stochastic Delays [33.65025386998747]
最近の研究は、各腕の報酬が最後の引き抜きから経過した時間の特別な機能であるマルチアームバンディット問題の自然変化を考察している。本研究では, 上記のモデルを2つの方向に拡張する。 (i) 各ラウンドで複数の腕を演奏できる汎用的な設定を, 実現可能性制約の下で検討する。我々は、利用可能な(非ブロック化された)アームの中で、常に最大で期待される報酬を再生する自然な欲求部分集合の近似を厳密に分析する。腕の期待報酬が不明な場合、上記のアルゴリズムを盗賊に適応させる。
論文参考訳（メタデータ） (2021-05-22T02:46:04Z)
Output-Weighted Sampling for Multi-Armed Bandits with Extreme Payoffs [11.1546439770774]
極度のペイオフを伴うバンディット問題におけるオンライン意思決定のための新しいタイプの獲得機能を提示する。我々は,最も関連性が高いと考えられる盗賊を探索する新しいタイプの上位信頼境界(UCB)取得関数を定式化する。
論文参考訳（メタデータ） (2021-02-19T18:36:03Z)
Robustness Guarantees for Mode Estimation with an Application to Bandits [131.21717367564963]
平均ではなく報酬分布のモードを値とするマルチアームバンディットの理論を導入する。我々は,我々のアルゴリズムが逆雑音列による腕の摂動に頑健であることを示すシミュレーションで示す。
論文参考訳（メタデータ） (2020-03-05T21:29:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。