Fugu-MT 論文翻訳(概要): Combinatorial Multivariant Multi-Armed Bandits with Applications to Episodic Reinforcement Learning and Beyond

論文の概要: Combinatorial Multivariant Multi-Armed Bandits with Applications to Episodic Reinforcement Learning and Beyond

arxiv url: http://arxiv.org/abs/2406.01386v2
Date: Mon, 18 Nov 2024 22:18:03 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:33.190962
Title: Combinatorial Multivariant Multi-Armed Bandits with Applications to Episodic Reinforcement Learning and Beyond
Title（参考訳）: 複合型多言語帯域とエピソード強化学習への応用
Authors: Xutong Liu, Siwei Wang, Jinhang Zuo, Han Zhong, Xuchuang Wang, Zhiyong Wang, Shuai Li, Mohammad Hajiesmaili, John C. S. Lui, Wei Chen,
Abstract要約: CMAB(Multi-armed bandits)の多変量および確率的トリガーアーム(CMAB-MT)を用いた新しい枠組みを導入する。 CMAB-MTは既存のCMABと比べ、モデリング能力を高めるだけでなく、多変量確率変数の異なる統計特性を活用することで結果を改善することができる。本フレームワークは, エピソード強化学習(RL)や商品分布の確率的最大カバレッジなど, 応用として多くの重要な問題を含むことができる。
参考スコア（独自算出の注目度）: 58.39457881271146
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce a novel framework of combinatorial multi-armed bandits (CMAB) with multivariant and probabilistically triggering arms (CMAB-MT), where the outcome of each arm is a $d$-dimensional multivariant random variable and the feedback follows a general arm triggering process. Compared with existing CMAB works, CMAB-MT not only enhances the modeling power but also allows improved results by leveraging distinct statistical properties for multivariant random variables. For CMAB-MT, we propose a general 1-norm multivariant and triggering probability-modulated smoothness condition, and an optimistic CUCB-MT algorithm built upon this condition. Our framework can include many important problems as applications, such as episodic reinforcement learning (RL) and probabilistic maximum coverage for goods distribution, all of which meet the above smoothness condition and achieve matching or improved regret bounds compared to existing works. Through our new framework, we build the first connection between the episodic RL and CMAB literature, by offering a new angle to solve the episodic RL through the lens of CMAB, which may encourage more interactions between these two important directions.
Abstract（参考訳）: 本稿では,多変量および確率的トリガーアーム(CMAB-MT)を用いたCMAB(combinatorial multi-armed bandits)の新たな枠組みを紹介し,各アームの結果は$d$次元の多変量変数であり,フィードバックは一般的なアームトリガープロセスに従う。 CMAB-MTは既存のCMABと比べ、モデリング能力を高めるだけでなく、多変量確率変数の異なる統計特性を活用することで結果を改善することができる。 CMAB-MTに対して,確率変調スムーズな条件を誘導する一般1ノルム多変量法と,この条件に基づく楽観的なCUCB-MTアルゴリズムを提案する。提案手法は, 商品流通におけるエピソード強化学習 (RL) や確率的最大カバレッジなど, 上記の滑らかさ条件を満たすとともに, 既存の作品と比較して, 一致あるいは改善された後悔境界を達成できるような多くの重要な問題を含むことができる。我々の新しい枠組みにより、この2つの重要な方向の相互作用を促進するために、CMABのレンズを通して、エピソードRLを解くための新しい角度を提供することにより、エピソードRLとCMABの文献の間の最初の接続を構築する。

関連論文リスト

FindRec: Stein-Guided Entropic Flow for Multi-Modal Sequential Recommendation [50.438552588818]
textbfFindRec (textbfFlexible unified textbfinformation textbfdisentanglement for multi-modal sequence textbfRecommendation)を提案する。 Stein kernel-based Integrated Information Coordination Module (IICM) は理論上、マルチモーダル特徴とIDストリーム間の分散一貫性を保証する。マルチモーダル特徴を文脈的関連性に基づいて適応的にフィルタリング・結合するクロスモーダル・エキスパート・ルーティング機構。
論文参考訳（メタデータ） (2025-07-07T04:09:45Z)
Activation-Guided Consensus Merging for Large Language Models [25.68958388022476]
textbfActivation-Guided textbfConsensus textbfMerging(textbfACM)は,層固有のマージ係数を決定するプラグインとプレイのマージフレームワークである。 L2S(Long-to-Short)と一般的なマージタスクの実験は、ACMが全てのベースラインメソッドを一貫して上回ることを示した。
論文参考訳（メタデータ） (2025-05-20T07:04:01Z)
UniCombine: Unified Multi-Conditional Combination with Diffusion Transformer [24.159791066104358]
条件の組み合わせを扱える多条件制御可能な多条件生成フレームワークを提案する。具体的には、新しいMMDiTアテンション機構を導入し、トレーニング可能なLoRAモジュールを組み込む。また,マルチ条件生成タスク用に設計された最初のデータセットであるSubjectSpatial200Kを構築するための新しいパイプラインを提案する。
論文参考訳（メタデータ） (2025-03-12T11:22:47Z)
Reinforcement learning with combinatorial actions for coupled restless bandits [62.89013331120493]
提案するSEQUOIAは,動作空間に対する長期報酬を直接最適化するRLアルゴリズムである。我々は,複数介入,経路制約,二部間マッチング,容量制約という,制約を伴う4つの新しいレスレス・バンディット問題に対して,SEQUOIAを実証的に検証した。
論文参考訳（メタデータ） (2025-03-01T21:25:21Z)
Semi-Parametric Batched Global Multi-Armed Bandits with Covariates [0.48342038441006807]
マルチアームバンディット(MAB)フレームワークは、シーケンシャルな意思決定に広く使われているアプローチである。本稿では,コパラメトリックと腕間の共有パラメータを持つバッチバンドの半パラメトリックフレームワークを提案する。 Batched Single-Index Dynamic binning and Successive arm elimination (BIDS) というアルゴリズムでは、バッチ化された逐次アームの除去戦略を採用している。
論文参考訳（メタデータ） (2025-03-01T17:23:55Z)
Offline Learning for Combinatorial Multi-armed Bandits [56.96242764723241]
Off-CMABはCMABの最初のオフライン学習フレームワークである。 Off-CMABは悲観的な報酬推定と解法を組み合わせる。合成および実世界のデータセットの実験は、CLCBの優れた性能を強調している。
論文参考訳（メタデータ） (2025-01-31T16:56:18Z)
GINO-Q: Learning an Asymptotically Optimal Index Policy for Restless Multi-armed Bandits [16.054685587034836]
GINO-Qは、レスレスマルチアームバンディット(RMAB)の最適指標ポリシーを学習するために設計された3段階近似アルゴリズムである。 GINO-QはRMABをインデックス化する必要がなく、柔軟性と適用性を高めている。実験結果から, GINO-Q は非接種可能なRMABに対しても, ほぼ最適に学習できることが示唆された。
論文参考訳（メタデータ） (2024-08-19T10:50:45Z)
Towards a Pretrained Model for Restless Bandits via Multi-arm Generalization [32.90636136408938]
Restless Multi-arm bandits (RMAB) は、医療、オンライン広告、密猟などの分野で広く利用されているリソース割り当て問題である。本研究では,これまで見つからなかった広範囲なRMABに対して,一般的なゼロショット能力を有するニューラルネットワークベース事前学習モデル(PreFeRMAB)を開発した。
論文参考訳（メタデータ） (2023-10-23T03:16:32Z)
Non-stationary Reinforcement Learning under General Function Approximation [60.430936031067006]
まず,非定常MDPに対する動的ベルマンエルダー次元(DBE)と呼ばれる新しい複雑性指標を提案する。提案する複雑性指標に基づいて,SW-OPEAと呼ばれる新しい信頼度セットに基づくモデルフリーアルゴリズムを提案する。 SW-OPEAは,変動予算がそれほど大きくない限り,有効に有効であることを示す。
論文参考訳（メタデータ） (2023-06-01T16:19:37Z)
On the Complexity of Multi-Agent Decision Making: From Learning in Games to Partial Monitoring [105.13668993076801]
マルチエージェント強化学習(MARL)理論における中心的な問題は、構造条件やアルゴリズムの原理がサンプル効率の学習保証につながるかを理解することである。本稿では,複数のエージェントを用いた対話型意思決定のための一般的な枠組みとして,この問題について考察する。マルチエージェント意思決定における統計的複雑性を特徴付けることは、単一エージェント決定の統計的複雑性を特徴付けることと等価であることを示す。
論文参考訳（メタデータ） (2023-05-01T06:46:22Z)
Batch-Size Independent Regret Bounds for Combinatorial Semi-Bandits with Probabilistically Triggered Arms or Independent Arms [59.8188496313214]
半帯域 (CMAB) について検討し, 半帯域 (CMAB) におけるバッチサイズ (K$) の依存性の低減に着目した。まず,確率的に引き起こされるアーム(CMAB-T)を用いたCMABの設定に対して,分散を考慮した信頼区間を持つBCUCB-Tアルゴリズムを提案する。次に,独立アームを用いた非トリガ型CMABの設定に対して,TPVM条件の非トリガ型を利用したSESCBアルゴリズムを提案する。
論文参考訳（メタデータ） (2022-08-31T13:09:39Z)
A Novel Unified Conditional Score-based Generative Framework for Multi-modal Medical Image Completion [54.512440195060584]
我々は、スコアベース生成モデル(SGM)を活用するために、統一多モードスコアベース生成モデル(UMM-CSGM)を提案する。 UMM-CSGMは、新しいマルチインマルチアウトコンディションスコアネットワーク(mm-CSN)を用いて、クロスモーダル条件分布の包括的集合を学習する。 BraTS19データセットの実験により、UMM-CSGMは腫瘍誘発病変における不均一な増強と不規則な領域をより確実に合成できることが示された。
論文参考訳（メタデータ） (2022-07-07T16:57:21Z)
Robust Restless Bandits: Tackling Interval Uncertainty with Deep Reinforcement Learning [31.515757763077065]
我々は、レスレス・マルチアーム・バンディット(RMAB)の一般化であるRobust Restless Banditsを紹介する。遷移が区間不確実性によって与えられる場合、最小限の後悔目標に対する解を開発する。 RMABPPOはRMABを解くための新しい深層強化学習アルゴリズムである。
論文参考訳（メタデータ） (2021-07-04T17:21:26Z)
Q-Learning Lagrange Policies for Multi-Action Restless Bandits [35.022322303796216]
RMAB(Multi-action restless multi-armed bandits)は、N$独立プロセスを管理する制約付きリソース割り当てのための強力なフレームワークである。我々は,ラグランジアン緩和とQラーニングを組み合わせて,Multi-action RMABをオンラインで学習するための最初のアルゴリズムを設計する。
論文参考訳（メタデータ） (2021-06-22T19:20:09Z)
UPDeT: Universal Multi-agent Reinforcement Learning via Policy Decoupling with Transformers [108.92194081987967]
タスクに適合する1つのアーキテクチャを設計し、汎用的なマルチエージェント強化学習パイプラインを最初に試行する。従来のRNNモデルとは異なり、トランスフォーマーモデルを用いてフレキシブルなポリシーを生成する。提案方式はUPDeT(Universal Policy Decoupling Transformer)と名付けられ,動作制限を緩和し,マルチエージェントタスクの決定プロセスをより説明しやすいものにする。
論文参考訳（メタデータ） (2021-01-20T07:24:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。