論文の概要: Towards a Pretrained Model for Restless Bandits via Multi-arm
Generalization
- arxiv url: http://arxiv.org/abs/2310.14526v3
- Date: Tue, 30 Jan 2024 02:35:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-31 11:44:27.380705
- Title: Towards a Pretrained Model for Restless Bandits via Multi-arm
Generalization
- Title(参考訳): マルチアーム一般化によるレストレスバンディットの事前学習モデルに向けて
- Authors: Yunfan Zhao, Nikhil Behari, Edward Hughes, Edwin Zhang, Dheeraj
Nagaraj, Karl Tuyls, Aparna Taneja, Milind Tambe
- Abstract要約: Restless Multi-arm bandits (RMAB) は、医療、オンライン広告、密猟などの分野で広く利用されているリソース割り当て問題である。
本研究では,これまで見つからなかった広範囲なRMABに対して,一般的なゼロショット能力を有するニューラルネットワークベース事前学習モデル(PreFeRMAB)を開発した。
- 参考スコア(独自算出の注目度): 32.90636136408938
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Restless multi-arm bandits (RMABs), a class of resource allocation problems
with broad application in areas such as healthcare, online advertising, and
anti-poaching, have recently been studied from a multi-agent reinforcement
learning perspective. Prior RMAB research suffers from several limitations,
e.g., it fails to adequately address continuous states, and requires retraining
from scratch when arms opt-in and opt-out over time, a common challenge in many
real world applications. We address these limitations by developing a neural
network-based pre-trained model (PreFeRMAB) that has general zero-shot ability
on a wide range of previously unseen RMABs, and which can be fine-tuned on
specific instances in a more sample-efficient way than retraining from scratch.
Our model also accommodates general multi-action settings and discrete or
continuous state spaces. To enable fast generalization, we learn a novel single
policy network model that utilizes feature information and employs a training
procedure in which arms opt-in and out over time. We derive a new update rule
for a crucial $\lambda$-network with theoretical convergence guarantees and
empirically demonstrate the advantages of our approach on several challenging,
real-world inspired problems.
- Abstract(参考訳): レストレス・マルチアーム・バンディット (RMABs) は, 医療, オンライン広告, 密猟などの分野で広く応用されている資源配分問題のクラスであり, マルチエージェント強化学習の観点から最近研究されている。
RMAB以前の研究はいくつかの制限に悩まされており、例えば、連続状態に適切に対処できず、多くの現実世界で一般的な課題である腕のオプトインやオプトアウト時にスクラッチから再トレーニングする必要がある。
これらの制限に対処するために、ニューラルネットワークベースの事前訓練モデル(PreFeRMAB)を開発し、これまで見つからなかったRMABの幅広い範囲で、一般的なゼロショット能力を持ち、スクラッチからリトレーニングするよりも、よりサンプル効率の良い方法で特定のインスタンスで微調整できる。
このモデルは、一般的なマルチアクション設定や離散状態空間や連続状態空間も含む。
迅速な一般化を実現するために,特徴情報を活用し,武器のオプトイン・アウトを経時的に行う新しい単一政策ネットワークモデルを学習する。
理論的収束を保証する重要な$\lambda$-networkに対する新しい更新ルールを導き、いくつかの挑戦的で現実世界にインスパイアされた問題に対するアプローチの利点を実証的に示す。
関連論文リスト
- A Bayesian Approach to Online Learning for Contextual Restless Bandits
with Applications to Public Health [39.513593558052314]
本稿では,RMABのオンライン強化学習手法としてBayesian Learning for Contextual RMABs(BCoR)を提案する。
BCoRは, 実験条件下での既存手法に比べて, かなり高い有限サンプル性能を実現することを示す。
論文 参考訳(メタデータ) (2024-02-07T15:11:37Z) - A General Framework for Learning from Weak Supervision [97.4298482689398]
本稿では、新しいアルゴリズムを用いて、弱監督(GLWS)から学習するための一般的な枠組みを紹介する。
GLWSの中心は期待最大化(EM)の定式化であり、様々な弱い監督源を順応的に収容している。
また,EM計算要求を大幅に単純化する高度なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-02T21:48:50Z) - Multi-Modality Guidance Network For Missing Modality Inference [7.43909951663486]
本稿では,学習中の知識共有を促進する新しいガイダンスネットワークを提案し,マルチモーダル表現を活用して,より優れた単一モダリティモデルを推論のために訓練する。
暴力検出における実生活実験は、提案フレームワークが従来の訓練されたモデルよりもはるかに優れている単一モダリティモデルを訓練していることを示している。
論文 参考訳(メタデータ) (2023-09-07T02:26:55Z) - Self-regulating Prompts: Foundational Model Adaptation without
Forgetting [112.66832145320434]
本稿では,PromptSRCと呼ばれる自己正規化フレームワークを提案する。
PromptSRCはタスク固有の汎用表現とタスクに依存しない汎用表現の両方に最適化するプロンプトを導く。
論文 参考訳(メタデータ) (2023-07-13T17:59:35Z) - Large-scale Pre-trained Models are Surprisingly Strong in Incremental
Novel Class Discovery [76.35226130521758]
我々は,MSc-iNCDという,より挑戦的で実践的な学習パラダイムを提案する。
本研究では,MSc-iNCDという,より困難で実践的な学習パラダイムを提案する。
論文 参考訳(メタデータ) (2023-03-28T13:47:16Z) - Safe Multi-agent Learning via Trapping Regions [89.24858306636816]
我々は、動的システムの定性理論から知られているトラップ領域の概念を適用し、分散学習のための共同戦略空間に安全セットを作成する。
本稿では,既知の学習力学を持つシステムにおいて,候補がトラップ領域を形成することを検証するための二分分割アルゴリズムと,学習力学が未知のシナリオに対するサンプリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-27T14:47:52Z) - Generalization of Deep Reinforcement Learning for Jammer-Resilient
Frequency and Power Allocation [4.436632973105495]
我々は,深層強化学習モデルの一般化能力を強調しつつ,結合周波数と電力配分の問題に取り組む。
従来は見つからなかった無線ネットワーク上で,提案手法のトレーニングと推論性能の向上について検討した。
エンド・ツー・エンドのソリューションは組込みソフトウェア定義無線で実装され、オーバー・ザ・エア評価を用いて検証された。
論文 参考訳(メタデータ) (2023-02-04T22:15:32Z) - When Neural Networks Fail to Generalize? A Model Sensitivity Perspective [82.36758565781153]
ドメイン一般化 (Domain Generalization, DG) は、異なる分布の下で見えないドメインでうまく機能するようにモデルを訓練することを目的としている。
本稿では,より現実的で,より困難なシナリオである単一領域一般化(Single-DG)について考察する。
我々は「モデル感度」と命名する一般化と強く相関するモデルの性質を経験的に確認する。
本稿では、高感度の周波数をターゲットとした拡張画像を生成するために、スペクトル逆データ拡張(SADA)の新たな戦略を提案する。
論文 参考訳(メタデータ) (2022-12-01T20:15:15Z) - Toward Certified Robustness Against Real-World Distribution Shifts [65.66374339500025]
我々は、データから摂動を学ぶために生成モデルを訓練し、学習したモデルの出力に関して仕様を定義する。
この設定から生じるユニークな挑戦は、既存の検証者がシグモイドの活性化を厳密に近似できないことである。
本稿では,古典的な反例誘導的抽象的洗練の概念を活用するシグモイドアクティベーションを扱うための一般的なメタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-08T04:09:13Z) - Global-Local Regularization Via Distributional Robustness [26.983769514262736]
ディープニューラルネットワークは、しばしば敵の例や分布シフトに弱い。
最近のアプローチでは、分散ロバストネス最適化(DRO)を利用して、最も難しい分布を見つける。
本稿では,Wasserstein をベースとした DRO フレームワークの後継として,新たな正規化手法を提案する。
論文 参考訳(メタデータ) (2022-03-01T15:36:12Z) - Robust Restless Bandits: Tackling Interval Uncertainty with Deep
Reinforcement Learning [31.515757763077065]
我々は、レスレス・マルチアーム・バンディット(RMAB)の一般化であるRobust Restless Banditsを紹介する。
遷移が区間不確実性によって与えられる場合、最小限の後悔目標に対する解を開発する。
RMABPPOはRMABを解くための新しい深層強化学習アルゴリズムである。
論文 参考訳(メタデータ) (2021-07-04T17:21:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。