論文の概要: Decision Making in Hybrid Environments: A Model Aggregation Approach
- arxiv url: http://arxiv.org/abs/2502.05974v1
- Date: Sun, 09 Feb 2025 17:59:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:35:11.643077
- Title: Decision Making in Hybrid Environments: A Model Aggregation Approach
- Title(参考訳): ハイブリッド環境における意思決定:モデル集約アプローチ
- Authors: Haolin Liu, Chen-Yu Wei, Julian Zimmert,
- Abstract要約: オンライン意思決定問題に対する決定推定係数(DEC)の枠組みを拡張した。
我々のフレームワークはフレキシブルなアルゴリズム設計につながり、学習者は仮説セットのサブセットについて学習する。
本研究は,ハイブリッドシステムにおけるモデルベース学習とモデルフリー学習を対象としている。
- 参考スコア(独自算出の注目度): 26.993355411130505
- License:
- Abstract: Recent work by Foster et al. (2021, 2022, 2023) and Xu and Zeevi (2023) developed the framework of decision estimation coefficient (DEC) that characterizes the complexity of general online decision making problems and provides a general algorithm design principle. These works, however, either focus on the pure stochastic regime where the world remains fixed over time, or the pure adversarial regime where the world arbitrarily changes over time. For the hybrid regime where the dynamics of the world is fixed while the reward arbitrarily changes, they only give pessimistic bounds on the decision complexity. In this work, we propose a general extension of DEC that more precisely characterizes this case. Besides applications in special cases, our framework leads to a flexible algorithm design where the learner learns over subsets of the hypothesis set, trading estimation complexity with decision complexity, which could be of independent interest. Our work covers model-based learning and model-free learning in the hybrid regime, with a newly proposed extension of the bilinear classes (Du et al., 2021) to the adversarial-reward case. We also recover some existing model-free learning results in the pure stochastic regime.
- Abstract(参考訳): Foster et al (2021, 2022, 2023) と Xu and Zeevi (2023) による最近の研究は、一般的なオンライン意思決定問題の複雑さを特徴づけ、一般的なアルゴリズム設計原則を提供する決定推定係数(DEC)の枠組みを開発した。
しかし、これらの作品は、世界が時間とともに固定される純粋な確率的体制、または世界が時間とともに任意に変化する純粋な敵対的体制に焦点を当てている。
報酬が任意に変化する間に世界の力学が固定されるハイブリッド体制では、それらは決定の複雑さに悲観的な境界を与えるだけである。
本稿では、より正確にこのケースを特徴付けるDECの一般的な拡張を提案する。
特殊な場合のアプリケーション以外に、我々のフレームワークはフレキシブルなアルゴリズム設計に導かれ、学習者は仮説セットのサブセットについて学習する。
本研究は,両線形クラス(Du et al , 2021)を, 逆回帰の場合へ拡張したハイブリッドシステムにおけるモデルベース学習とモデルフリー学習を対象としている。
また,従来のモデルなし学習結果を,純粋確率的体制で復元する。
関連論文リスト
- Learning in Hybrid Active Inference Models [0.8749675983608172]
本稿では,高レベル離散型アクティブ・推論・プランナを低レベル連続型アクティブ・推論・コントローラの上に置く階層型ハイブリッド・アクティブ・推論・エージェントを提案する。
我々は、意味のある離散表現のエンドツーエンド学習を実装する線形力学系をリカレントに切り替えるという最近の研究を活用している。
当社のモデルを,探索と計画成功による高速なシステム識別を実証し,スパースな連続マウンテンカータスクに適用する。
論文 参考訳(メタデータ) (2024-09-02T08:41:45Z) - Tight Guarantees for Interactive Decision Making with the
Decision-Estimation Coefficient [51.37720227675476]
我々は、決定推定係数の新たな変種を導入し、それを用いて、3つの面における事前の作業を改善する新しい下界を導出する。
我々は同じ量でスケールした後悔について上界を与え、フォスター等における上界と下界の間のギャップの1つを除いて全てを閉じる。
この結果は、後悔のフレームワークとPACフレームワークの両方に適用され、我々が期待するいくつかの新しい分析とアルゴリズム設計技術を利用して、より広範な利用が期待できる。
論文 参考訳(メタデータ) (2023-01-19T18:24:08Z) - Model-Free Reinforcement Learning with the Decision-Estimation
Coefficient [79.30248422988409]
本稿では,汎用関数近似による構造化帯域と強化学習を包含する対話型意思決定の課題について考察する。
提案手法は,値関数近似を用いたモデル自由強化学習における残差を導出し,より一般的には有効かつ不可能な構造的結果を与える。
論文 参考訳(メタデータ) (2022-11-25T17:29:40Z) - GEC: A Unified Framework for Interactive Decision Making in MDP, POMDP,
and Beyond [101.5329678997916]
対話型意思決定の一般的な枠組みの下で, サンプル高能率強化学習(RL)について検討した。
本稿では,探索とエクスプロイトの基本的なトレードオフを特徴付ける,新しい複雑性尺度である一般化エルダー係数(GEC)を提案する。
低 GEC の RL 問題は非常にリッチなクラスであり、これは低ベルマン楕円体次元問題、双線型クラス、低証人ランク問題、PO-双線型クラス、一般化正規PSR を仮定する。
論文 参考訳(メタデータ) (2022-11-03T16:42:40Z) - On the Complexity of Adversarial Decision Making [101.14158787665252]
決定推定係数は, 相手の意思決定に対する後悔度を低く抑えるのに必要であり, 十分であることを示す。
我々は、決定推定係数を他のよく知られた複雑性尺度の変種に結びつける新しい構造結果を提供する。
論文 参考訳(メタデータ) (2022-06-27T06:20:37Z) - The Statistical Complexity of Interactive Decision Making [126.04974881555094]
複雑度尺度であるDecision-Estimation Coefficientは,サンプル効率のインタラクティブ学習に必要かつ十分であることが証明された。
統合アルゴリズム設計原則であるE2Dは、教師付き推定のための任意のアルゴリズムを、意思決定のためのオンラインアルゴリズムに変換する。
論文 参考訳(メタデータ) (2021-12-27T02:53:44Z) - Regular Decision Processes for Grid Worlds [0.0]
本稿では、最近導入された非マルコフ報酬関数と遷移関数の両方をサポートする正規決定過程の実験的研究について述べる。
我々は、正規決定プロセスのためのツールチェーン、オンライン、インクリメンタルラーニングに関連するアルゴリズム拡張、モデルフリーおよびモデルベースソリューションアルゴリズムの実証的評価、そして正規だが非マルコフ的グリッドワールドにおける応用を提供する。
論文 参考訳(メタデータ) (2021-11-05T17:54:43Z) - Federated Multi-Armed Bandits [18.95281057580889]
FMAB(Federated Multi-armed Bandits)は、教師付き学習において、FL(Federated Learning)フレームワークを並列化する新しいバンドイットパラダイムである。
本稿では,FMABの一般的な枠組みを提案し,その上で2つの特定の帯域幅モデルについて検討する。
やや意外なことに、順序-最適の後悔は、更新周期を慎重に選択したクライアントの数から独立して達成できることが示されています。
論文 参考訳(メタデータ) (2021-01-28T18:59:19Z) - Stein Variational Model Predictive Control [130.60527864489168]
不確実性の下での意思決定は、現実の自律システムにとって極めて重要である。
モデル予測制御 (MPC) 法は, 複雑な分布を扱う場合, 適用範囲が限られている。
この枠組みが、挑戦的で非最適な制御問題における計画の成功に繋がることを示す。
論文 参考訳(メタデータ) (2020-11-15T22:36:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。