Fugu-MT 論文翻訳(概要): Contextual Restless Multi-Armed Bandits with Application to Demand Response Decision-Making

論文の概要: Contextual Restless Multi-Armed Bandits with Application to Demand Response Decision-Making

arxiv url: http://arxiv.org/abs/2403.15640v1
Date: Fri, 22 Mar 2024 22:35:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-26 21:41:55.416301
Title: Contextual Restless Multi-Armed Bandits with Application to Demand Response Decision-Making
Title（参考訳）: レストレスマルチアーマッドバンドの要求応答決定への応用
Authors: Xin Chen, I-Hong Hou,
Abstract要約: 本稿では、複雑なオンライン意思決定のための新しいマルチアームバンドキットフレームワーク、Contextual Restless Bandits (CRB)を紹介する。 CRBは、各アームの内部状態遷移と、外部のグローバル環境コンテキストの影響の両方をモデル化できるように、コンテキストブレイディットとレスレスブレイディットのコア特徴を取り入れている。
参考スコア（独自算出の注目度）: 10.054978663965533
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: This paper introduces a novel multi-armed bandits framework, termed Contextual Restless Bandits (CRB), for complex online decision-making. This CRB framework incorporates the core features of contextual bandits and restless bandits, so that it can model both the internal state transitions of each arm and the influence of external global environmental contexts. Using the dual decomposition method, we develop a scalable index policy algorithm for solving the CRB problem, and theoretically analyze the asymptotical optimality of this algorithm. In the case when the arm models are unknown, we further propose a model-based online learning algorithm based on the index policy to learn the arm models and make decisions simultaneously. Furthermore, we apply the proposed CRB framework and the index policy algorithm specifically to the demand response decision-making problem in smart grids. The numerical simulations demonstrate the performance and efficiency of our proposed CRB approaches.
Abstract（参考訳）: 本稿では,複雑なオンライン意思決定のための新しいマルチアーム・バンディット・フレームワークである Contextual Restless Bandits (CRB) を紹介する。このCRBフレームワークは、各アームの内部状態遷移と、外部のグローバル環境コンテキストの影響の両方をモデル化できるように、コンテキストブレイディットとレスレスブレイディットのコア特徴を取り入れている。二重分解法を用いて,CRB問題を解くためのスケーラブルな指数ポリシアルゴリズムを開発し,このアルゴリズムの漸近的最適性を理論的に解析する。アームモデルが未知の場合、さらにインデックスポリシーに基づくモデルベースオンライン学習アルゴリズムを提案し、アームモデルを学び、同時に決定する。さらに,提案したCRBフレームワークとインデックスポリシアルゴリズムを,スマートグリッドにおける需要応答決定問題に適用する。数値シミュレーションにより,提案手法の有効性と有効性を示す。

関連論文リスト

Generalized Low-Rank Matrix Contextual Bandits with Graph Information [10.955203089942582]
行列文脈帯域(CB)は、シーケンシャルな意思決定シナリオに広く適用されている強力なフレームワークである。オンライン広告やレコメンダシステムのような現実世界のシナリオでは、低ランク構造を超えるグラフ情報が存在することが多い。本稿では,古典的上位信頼境界(UCB)に基づく新しい行列CBアルゴリズムフレームワークを提案する。
論文参考訳（メタデータ） (2025-07-23T14:07:47Z)
Semi-Parametric Batched Global Multi-Armed Bandits with Covariates [0.48342038441006807]
マルチアームバンディット(MAB)フレームワークは、シーケンシャルな意思決定に広く使われているアプローチである。本稿では,コパラメトリックと腕間の共有パラメータを持つバッチバンドの半パラメトリックフレームワークを提案する。 Batched Single-Index Dynamic binning and Successive arm elimination (BIDS) というアルゴリズムでは、バッチ化された逐次アームの除去戦略を採用している。
論文参考訳（メタデータ） (2025-03-01T17:23:55Z)
Online Clustering of Dueling Bandits [59.09590979404303]
本稿では、優先フィードバックに基づく協調的な意思決定を可能にするために、最初の「デュエルバンディットアルゴリズムのクラスタリング」を導入する。本稿では,(1)ユーザ報酬関数をコンテキストベクトルの線形関数としてモデル化する線形デューリング帯域のクラスタリング(COLDB)と,(2)ニューラルネットワークを用いて複雑な非線形ユーザ報酬関数をモデル化するニューラルデューリング帯域のクラスタリング(CONDB)の2つの新しいアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-02-04T07:55:41Z)
Demystifying Online Clustering of Bandits: Enhanced Exploration Under Stochastic and Smoothed Adversarial Contexts [27.62165569135504]
バンディットのオンラインクラスタリングとして知られる一連の研究は、類似のユーザをクラスタにグループ化することで、コンテキストMABを拡張している。既存のアルゴリズムは、上位信頼境界(UCB)戦略に依存しており、未知のユーザクラスタを正確に識別するために十分な統計情報を集めるのに苦労している。クラスタ識別を高速化する探索機構を改良した,UniCLUB と PhaseUniCLUB の2つの新しいアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-01-01T16:38:29Z)
Meta Clustering of Neural Bandits [45.77505279698894]
ニューラルバンドのクラスタリング(Clustering of Neural Bandits)という新しい問題を,任意の報酬関数に拡張することで研究する。本稿では,メタラーナーを用いて動的クラスタを高速に表現・適応する,M-CNBという新しいアルゴリズムを提案する。 M-CNBはレコメンデーションとオンラインの分類シナリオの両方で広範な実験を行い、SOTAベースラインを上回ります。
論文参考訳（メタデータ） (2024-08-10T16:09:51Z)
Best Arm Identification with Fixed Budget: A Large Deviation Perspective [54.305323903582845]
我々は、様々な武器の報酬間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。特に、様々な武器の報酬の間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
論文参考訳（メタデータ） (2023-12-19T13:17:43Z)
Iterative Preference Learning from Human Feedback: Bridging Theory and Practice for RLHF under KL-Constraint [56.74058752955209]
本稿では,RLHFによる強化学習を用いた生成モデルのアライメント過程について検討する。まず、オフラインPPOやオフラインDPOのような既存の一般的な手法の主な課題を、環境の戦略的探索に欠如していると認識する。有限サンプル理論保証を用いた効率的なアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-12-18T18:58:42Z)
Provably Efficient UCB-type Algorithms For Learning Predictive State Representations [55.00359893021461]
逐次決定問題は、予測状態表現(PSR)によってモデル化された低ランク構造が認められる場合、統計的に学習可能である本稿では,推定モデルと実モデル間の全変動距離を上限とする新しいボーナス項を特徴とする,PSRに対する最初のUCB型アプローチを提案する。 PSRに対する既存のアプローチとは対照的に、UCB型アルゴリズムは計算的トラクタビリティ、最優先の準最適ポリシー、モデルの精度が保証される。
論文参考訳（メタデータ） (2023-07-01T18:35:21Z)
Distributed Consensus Algorithm for Decision-Making in Multi-agent Multi-armed Bandit [7.708904950194129]
動的環境におけるマルチエージェント・マルチアーム・バンディット(MAMAB)問題について検討する。グラフはエージェント間の情報共有構造を反映し、腕の報酬分布はいくつかの未知の変化点を持つ断片的に定常である。目的は、後悔を最小限に抑えるエージェントのための意思決定ポリシーを開発することである。
論文参考訳（メタデータ） (2023-06-09T16:10:26Z)
Tight Guarantees for Interactive Decision Making with the Decision-Estimation Coefficient [51.37720227675476]
我々は、決定推定係数の新たな変種を導入し、それを用いて、3つの面における事前の作業を改善する新しい下界を導出する。我々は同じ量でスケールした後悔について上界を与え、フォスター等における上界と下界の間のギャップの1つを除いて全てを閉じる。この結果は、後悔のフレームワークとPACフレームワークの両方に適用され、我々が期待するいくつかの新しい分析とアルゴリズム設計技術を利用して、より広範な利用が期待できる。
論文参考訳（メタデータ） (2023-01-19T18:24:08Z)
On the Complexity of Adversarial Decision Making [101.14158787665252]
決定推定係数は, 相手の意思決定に対する後悔度を低く抑えるのに必要であり, 十分であることを示す。我々は、決定推定係数を他のよく知られた複雑性尺度の変種に結びつける新しい構造結果を提供する。
論文参考訳（メタデータ） (2022-06-27T06:20:37Z)
Sample Complexity of Robust Reinforcement Learning with a Generative Model [0.0]
本稿では,モデルに基づく強化学習(RL)アルゴリズムを提案する。我々は,全変動距離,カイ二乗発散,KL発散の3種類の不確実性集合を考察した。この結果に加えて,ロバストポリシの利点に関する公式な分析的議論も提示する。
論文参考訳（メタデータ） (2021-12-02T18:55:51Z)
A Multi-criteria Approach to Evolve Sparse Neural Architectures for Stock Market Forecasting [0.0]
本研究は, 市場指標の移動予測のための, 効率的かつ同相なニューラルアーキテクチャを進化させる新しい枠組みを提案する。新しい探索パラダイムである2次元スワム (2DS) が, マルチ基準ニューラルアーキテクチャサーチのために提案されている。本研究の結果は,提案手法がより優れた一般化能力を持つ同相ネットワークを進化させることができることを示すものである。
論文参考訳（メタデータ） (2021-11-15T19:44:10Z)
Robust Reinforcement Learning using Least Squares Policy Iteration with Provable Performance Guarantees [3.8073142980733]
本稿では,ロバストマルコフ決定過程(RMDP)におけるモデルレス強化学習の課題について述べる。本稿では、まず、ポリシー評価のための多段階オンラインモデルフリー学習アルゴリズムであるRobust Least Squares Policy Evaluationアルゴリズムを提案する。次に,ロバスト・ラスト・スクエアズ・ポリシー・イテレーション (RLSPI) アルゴリズムを提案し,ロバスト・ラスト・スクエアズ・ポリシーを最適に学習する。
論文参考訳（メタデータ） (2020-06-20T16:26:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。