論文の概要: MARBLE: Multi-Armed Restless Bandits in Latent Markovian Environment
- arxiv url: http://arxiv.org/abs/2511.09324v1
- Date: Thu, 13 Nov 2025 01:46:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 22:34:54.520499
- Title: MARBLE: Multi-Armed Restless Bandits in Latent Markovian Environment
- Title(参考訳): MARBLE:後期マルコフ環境における多関節レストレスバンド
- Authors: Mohsen Amiri, Konstantin Avrachenkov, Ibtihal El Mimouni, Sindri Magnússon,
- Abstract要約: 我々は,MARBLE(Multi-Armed Restless Bandits in a Latent Markovian Environment)を導入する。
我々は,Whittle Indices と同期 Q-learning が最適 Q-function と対応するWhittle Indices にほぼ確実に収束することを証明した。
- 参考スコア(独自算出の注目度): 3.1498833540989413
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Restless Multi-Armed Bandits (RMABs) are powerful models for decision-making under uncertainty, yet classical formulations typically assume fixed dynamics, an assumption often violated in nonstationary environments. We introduce MARBLE (Multi-Armed Restless Bandits in a Latent Markovian Environment), which augments RMABs with a latent Markov state that induces nonstationary behavior. In MARBLE, each arm evolves according to a latent environment state that switches over time, making policy learning substantially more challenging. We further introduce the Markov-Averaged Indexability (MAI) criterion as a relaxed indexability assumption and prove that, despite unobserved regime switches, under the MAI criterion, synchronous Q-learning with Whittle Indices (QWI) converges almost surely to the optimal Q-function and the corresponding Whittle indices. We validate MARBLE on a calibrated simulator-embedded (digital twin) recommender system, where QWI consistently adapts to a shifting latent state and converges to an optimal policy, empirically corroborating our theoretical findings.
- Abstract(参考訳): Restless Multi-Armed Bandits (RMAB) は不確実性の下での意思決定のための強力なモデルであるが、古典的な定式化は一般に固定力学を仮定する。
我々は,MARBLE(Multi-Armed Restless Bandits in a Latent Markovian Environment)を導入する。
MARBLEでは、各アームは、時間とともに切り替える潜在環境状態に従って進化し、ポリシー学習を著しく困難にする。
さらに、マルコフ平均指数性(MAI)基準を緩和された指数性仮定として導入し、MAI基準の下では、観測されていない状態スイッチにもかかわらず、Whittle Indices(QWI)による同期Q-ラーニングは、ほぼ確実に最適なQ-関数と対応するWhittle Indicesに収束することを示す。
我々は,MARBLEをキャリブレーションしたシミュレータ埋め込み型(デジタルツイン)レコメンデータシステムで検証し,QWIは定常的に潜伏状態に適応し,最適方針に収束し,理論的知見を実証的に裏付ける。
関連論文リスト
- Marker Gene Method : Identifying Stable Solutions in a Dynamic Environment [12.645653825213046]
競合的共進化アルゴリズム(CCEA)は、しばしば不透過性やレッドクイーン効果のような複雑な力学によって妨げられる。
本稿では,「マーカー遺伝子」を動的ベンチマークとして使用することで安定性を確立するフレームワークであるマーカー遺伝子法(MGM)を紹介する。
論文 参考訳(メタデータ) (2025-06-30T11:13:36Z) - Benchmarking Multi-modal Semantic Segmentation under Sensor Failures: Missing and Noisy Modality Robustness [61.87055159919641]
マルチモーダルセマンティックセグメンテーション(MMSS)は、モーダル間で補完情報を統合することで、単一モーダルデータの制限に対処する。
顕著な進歩にもかかわらず、マルチモーダルデータ品質の変動と不確実性により、研究と実世界の展開の間に大きなギャップが持続する。
Intire-Missing Modality (EMM)、Random-Missing Modality (RMM)、Noisy Modality (NM)の3つのシナリオでMMSSモデルを評価する頑健性ベンチマークを導入する。
論文 参考訳(メタデータ) (2025-03-24T08:46:52Z) - Sample-Efficient Robust Multi-Agent Reinforcement Learning in the Face of Environmental Uncertainty [40.55653383218379]
本研究は,ロバストなマルコフゲーム(RMG)の学習に焦点を当てる。
ゲーム理論平衡の様々な概念の頑健な変種を学習するために,有限サンプルの複雑性を保証するサンプル効率モデルベースアルゴリズム(DRNVI)を提案する。
論文 参考訳(メタデータ) (2024-04-29T17:51:47Z) - Hoeffding's Inequality for Markov Chains under Generalized
Concentrability Condition [15.228649445346473]
本稿では,積分確率計量(IPM)によって定義される一般化可積分性条件下でのマルコフ鎖の不等式について検討する。
我々のフレームワークの柔軟性により、伝統的な意味でのエルゴード的マルコフ連鎖を超えて、ホーフディングの不等式を適用することができる。
論文 参考訳(メタデータ) (2023-10-04T16:21:23Z) - BERTifying the Hidden Markov Model for Multi-Source Weakly Supervised
Named Entity Recognition [57.2201011783393]
条件付き隠れマルコフモデル(CHMM)
CHMMは、入力トークンのBERT埋め込みからトークン単位の遷移と放出確率を予測する。
BERTベースのNERモデルを微調整し、ラベルをCHMMで推論する。
論文 参考訳(メタデータ) (2021-05-26T21:18:48Z) - A Unified Joint Maximum Mean Discrepancy for Domain Adaptation [73.44809425486767]
本論文は,最適化が容易なjmmdの統一形式を理論的に導出する。
統合JMMDから、JMMDは分類に有利な特徴ラベル依存を低下させることを示す。
本稿では,その依存を促進する新たなmmd行列を提案し,ラベル分布シフトにロバストな新しいラベルカーネルを考案する。
論文 参考訳(メタデータ) (2021-01-25T09:46:14Z) - Semi-Supervised Learning with Variational Bayesian Inference and Maximum
Uncertainty Regularization [62.21716612888669]
半教師付き学習(SSL)を改善するための2つの一般的な方法を提案する。
第一に、重量摂動(WP)を既存のCR(Consistency regularization)ベースの手法に統合する。
第2の手法は「最大不確実性正規化(MUR)」と呼ばれる新しい整合性損失を提案する。
論文 参考訳(メタデータ) (2020-12-03T09:49:35Z) - Robustness Guarantees for Mode Estimation with an Application to Bandits [131.21717367564963]
平均ではなく報酬分布のモードを値とするマルチアームバンディットの理論を導入する。
我々は,我々のアルゴリズムが逆雑音列による腕の摂動に頑健であることを示すシミュレーションで示す。
論文 参考訳(メタデータ) (2020-03-05T21:29:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。