論文の概要: SIDE: I Infer the State I Want to Learn
- arxiv url: http://arxiv.org/abs/2105.06228v1
- Date: Thu, 13 May 2021 12:26:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-14 14:03:37.921070
- Title: SIDE: I Infer the State I Want to Learn
- Title(参考訳): SIDE:私は学びたい国家を推測する
- Authors: Zhiwei Xu, Yunpeng Bai, Dapeng Li, Bin Zhang, Guoliang Fan
- Abstract要約: 本稿では,値分解のための状態推論(State Inference for Value Decomposition, SIDE)と呼ばれる新しい値分解フレームワークを提案する。
SIDEは、任意の値分解法や、Dec-POMDPの場合の他の種類のマルチエージェントアルゴリズムにも拡張できる。
- 参考スコア(独自算出の注目度): 17.993973801986677
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As one of the solutions to the Dec-POMDP problem, the value decomposition
method has achieved good results recently. However, most value decomposition
methods require the global state during training, but this is not feasible in
some scenarios where the global state cannot be obtained. Therefore, we propose
a novel value decomposition framework, named State Inference for value
DEcomposition (SIDE), which eliminates the need to know the true state by
simultaneously seeking solutions to the two problems of optimal control and
state inference. SIDE can be extended to any value decomposition method, as
well as other types of multi-agent algorithms in the case of Dec-POMDP. Based
on the performance results of different algorithms in Starcraft II
micromanagement tasks, we verified that SIDE can construct the current state
that contributes to the reinforcement learning process based on past local
observations.
- Abstract(参考訳): Dec-POMDP問題の解決策の1つとして、近年、値分解法は良い結果を得た。
しかし、ほとんどの値分解法はトレーニング中にグローバル状態を必要とするが、グローバル状態が得られないいくつかのシナリオでは実現不可能である。
そこで我々は, 最適制御と状態推論という2つの問題の解を求めることによって, 真の状態を知る必要性をなくし, 価値分解のための状態推論(side)という新しい価値分解フレームワークを提案する。
SIDEは任意の値分解法や、Dec-POMDPの場合の他の種類のマルチエージェントアルゴリズムにも拡張できる。
starcraft iiのマイクロマネジメントタスクにおける様々なアルゴリズムのパフォーマンス結果に基づいて,過去の局所観測に基づく強化学習プロセスに寄与する現在の状態をサイドが構築できることを確認した。
関連論文リスト
- STAT: Towards Generalizable Temporal Action Localization [56.634561073746056]
WTAL(Wakly-supervised temporal action Localization)は、ビデオレベルのラベルだけでアクションインスタンスを認識およびローカライズすることを目的としている。
既存の手法は、異なる分布に転送する際の重大な性能劣化に悩まされる。
本稿では,アクションローカライズ手法の一般化性向上に焦点を当てたGTALを提案する。
論文 参考訳(メタデータ) (2024-04-20T07:56:21Z) - Online POMDP Planning with Anytime Deterministic Guarantees [11.157761902108692]
不確実性の下での計画は、部分的に観測可能なマルコフ決定プロセス(POMDP)を用いて数学的に定式化できる
POMDPの最適計画を見つけるには計算コストがかかり、小さなタスクにのみ適用可能である。
簡便な解と理論的に最適な解との決定論的関係を導出する。
論文 参考訳(メタデータ) (2023-10-03T04:40:38Z) - Intermittently Observable Markov Decision Processes [26.118176084782842]
本稿では,制御者が信頼できない通信チャネルを通じてプロセスの状態情報を知覚するシナリオについて考察する。
地平線全体にわたる状態情報の伝達はベルヌーイ損失過程としてモデル化される。
木MDPに対する2つの有限状態近似を開発し,その近似を効率的に求める。
論文 参考訳(メタデータ) (2023-02-23T03:38:03Z) - GEC: A Unified Framework for Interactive Decision Making in MDP, POMDP,
and Beyond [101.5329678997916]
対話型意思決定の一般的な枠組みの下で, サンプル高能率強化学習(RL)について検討した。
本稿では,探索とエクスプロイトの基本的なトレードオフを特徴付ける,新しい複雑性尺度である一般化エルダー係数(GEC)を提案する。
低 GEC の RL 問題は非常にリッチなクラスであり、これは低ベルマン楕円体次元問題、双線型クラス、低証人ランク問題、PO-双線型クラス、一般化正規PSR を仮定する。
論文 参考訳(メタデータ) (2022-11-03T16:42:40Z) - Nearly Optimal Latent State Decoding in Block MDPs [74.51224067640717]
エピソードブロック MDP では、意思決定者は少数の潜在状態から生成される豊富な観測やコンテキストにアクセスすることができる。
まず、固定動作ポリシーに基づいて生成されたデータに基づいて、潜時状態復号関数を推定することに興味がある。
次に、報酬のないフレームワークにおいて、最適に近いポリシーを学習する問題について研究する。
論文 参考訳(メタデータ) (2022-08-17T18:49:53Z) - Value-Consistent Representation Learning for Data-Efficient
Reinforcement Learning [105.70602423944148]
本稿では,意思決定に直接関連のある表現を学習するための,VCR(Value-Consistent Expression Learning)という新しい手法を提案する。
この想像された状態と環境によって返される実状態とを一致させる代わりに、VCRは両方の状態に$Q$-valueヘッドを適用し、2つのアクション値の分布を得る。
検索不要なRLアルゴリズムに対して,提案手法が新たな最先端性能を実現することが実証された。
論文 参考訳(メタデータ) (2022-06-25T03:02:25Z) - Embed to Control Partially Observed Systems: Representation Learning with Provable Sample Efficiency [105.17746223041954]
部分的に観察されたマルコフ決定過程(POMDP)における強化学習は2つの課題に直面している。
しばしば、未来を予測するのに完全な歴史を要し、地平線と指数関数的にスケールするサンプルの複雑さを誘導する。
本稿では,2段階の表現を最適化しながら学習するETC(Embed to Control)という強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-26T16:34:46Z) - An Adaptive State Aggregation Algorithm for Markov Decision Processes [10.494611365482028]
同様のコスト・ツー・ゴー値の状態を動的にグループ化することで、価値反復更新のコストを削減できるMDPを解くための直感的なアルゴリズムを提案する。
我々のアルゴリズムはほぼ確実に(2varepsilon / (1 - gamma) に収束し、(γ) は割引係数であり、集約された状態は最大で (varepsilon) 異なる。
論文 参考訳(メタデータ) (2021-07-23T07:19:43Z) - Combining Deep Learning and Optimization for Security-Constrained
Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。
SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。
本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-14T12:38:21Z) - State Action Separable Reinforcement Learning [11.04892417160547]
我々は,新たな学習パラダイムである状態行動分離型強化学習(sasRL)を提案する。
sasRLでは、アクション空間が値関数学習プロセスから切り離され、効率が向上する。
いくつかのゲームシナリオの実験では、sasRLは最先端のMDPベースのRLアルゴリズムより75%高い性能を示している。
論文 参考訳(メタデータ) (2020-06-05T22:02:57Z) - A State Aggregation Approach for Solving Knapsack Problem with Deep
Reinforcement Learning [3.614984020677526]
本稿では,knapsack問題の解法として,Deep Reinforcement Learning (DRL)アプローチを提案する。
状態集約ポリシーは、knapsack問題の各問題インスタンスに適用される。
ステートアグリゲーション戦略を用いた提案モデルは、より良いソリューションを提供するだけでなく、ステートアグリゲーションのないモデルよりも少ないタイムステップで学習する。
論文 参考訳(メタデータ) (2020-04-25T11:52:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。