論文の概要: No Prior Mask: Eliminate Redundant Action for Deep Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2312.06258v1
- Date: Mon, 11 Dec 2023 09:56:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 16:21:14.893623
- Title: No Prior Mask: Eliminate Redundant Action for Deep Reinforcement
Learning
- Title(参考訳): No Prior Mask: 深層強化学習における冗長行動の排除
- Authors: Dianyu Zhong, Yiqin Yang, Qianchuan Zhao
- Abstract要約: 大規模なアクションスペースは、実世界で強化学習メソッドをデプロイする上での基本的な障害のひとつです。
我々はNo Prior Mask (NPM) という新しい冗長な動作フィルタリング機構を提案する。
- 参考スコア(独自算出の注目度): 13.341525656639583
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The large action space is one fundamental obstacle to deploying Reinforcement
Learning methods in the real world. The numerous redundant actions will cause
the agents to make repeated or invalid attempts, even leading to task failure.
Although current algorithms conduct some initial explorations for this issue,
they either suffer from rule-based systems or depend on expert demonstrations,
which significantly limits their applicability in many real-world settings. In
this work, we examine the theoretical analysis of what action can be eliminated
in policy optimization and propose a novel redundant action filtering
mechanism. Unlike other works, our method constructs the similarity factor by
estimating the distance between the state distributions, which requires no
prior knowledge. In addition, we combine the modified inverse model to avoid
extensive computation in high-dimensional state space. We reveal the underlying
structure of action spaces and propose a simple yet efficient redundant action
filtering mechanism named No Prior Mask (NPM) based on the above techniques. We
show the superior performance of our method by conducting extensive experiments
on high-dimensional, pixel-input, and stochastic problems with various action
redundancy. Our code is public online at https://github.com/zhongdy15/npm.
- Abstract(参考訳): 大きなアクションスペースは、現実世界に強化学習メソッドを展開する上で、基本的な障害のひとつです。
多くの冗長なアクションは、エージェントが繰り返しまたは無効な試みをし、タスクの失敗につながる。
現在のアルゴリズムは、この問題のためにいくつかの初期調査を行っているが、それらはルールベースのシステムに苦しむか、専門家によるデモンストレーションに依存している。
本研究では,政策最適化においてどのような動作を排除できるかの理論解析を行い,新しい冗長な動作フィルタリング機構を提案する。
他の研究と異なり,本手法では,事前知識を必要としない状態分布間の距離を推定することにより類似度係数を構築する。
さらに,修正逆モデルを組み合わせて,高次元状態空間における広範な計算を回避する。
動作空間の基盤構造を明らかにし、上記の手法に基づいて、No Prior Mask (NPM) という名前の単純な冗長な動作フィルタリング機構を提案する。
本手法は,様々な動作冗長性を有する高次元,画素入力,確率問題に対して広範な実験を行い,優れた性能を示す。
私たちのコードはhttps://github.com/zhongdy15/npmで公開されている。
関連論文リスト
- Context Enhancement with Reconstruction as Sequence for Unified Unsupervised Anomaly Detection [68.74469657656822]
非教師付き異常検出(AD)は、通常のサンプルのみを用いて堅牢な検出モデルを訓練することを目的としている。
最近の研究は、すべてのクラスに対して1つのモデルのみをトレーニングする、統一された教師なしAD設定に焦点を当てている。
本稿では,特徴再構成時の文脈対応性を高める新しいRAS法を提案する。
論文 参考訳(メタデータ) (2024-09-10T07:37:58Z) - Deciphering Movement: Unified Trajectory Generation Model for Multi-Agent [53.637837706712794]
任意の軌道をマスク入力として処理する統一軌道生成モデルUniTrajを提案する。
具体的には,空間特徴抽出のためのトランスフォーマーエンコーダ内に埋め込まれたゴースト空間マスキング(GSM)モジュールを導入する。
バスケットボール-U,サッカー-U,サッカー-Uの3つの実用的なスポーツゲームデータセットをベンチマークして評価を行った。
論文 参考訳(メタデータ) (2024-05-27T22:15:23Z) - Accelerating Search-Based Planning for Multi-Robot Manipulation by Leveraging Online-Generated Experiences [20.879194337982803]
MAPF(Multi-Agent Path-Finding)アルゴリズムは、離散的な2Dドメインで保証され、厳密な保証を提供する。
本稿では,その反復的かつ漸進的な性質を活用して,競合に基づく探索アルゴリズムを高速化する手法を提案する。
論文 参考訳(メタデータ) (2024-03-29T20:31:07Z) - Generative Modelling of Stochastic Actions with Arbitrary Constraints in
Reinforcement Learning [25.342811509665097]
強化学習(RL)における多くの問題は、大きな離散多次元かつ非順序の作用空間を持つ最適ポリシーを求める。
この設定の課題は、下層の作用空間が分類的(離散的かつ非順序的)で大きいことである。
本研究では,(状態)条件正規化フローを適用して,ポリシーをコンパクトに表現することで,これらの課題に対処する。
論文 参考訳(メタデータ) (2023-11-26T15:57:20Z) - Continuous Control with Action Quantization from Demonstrations [35.44893918778709]
強化学習(Reinforcement Learning, RL)では、連続的な行動とは対照的に、離散的な行動はより複雑な探索問題をもたらす。
本稿では, 連続的な行動空間の離散化を学習するために, デモからのアクション量子化(AQuaDem)を提案する。
提案手法は,実演付きRL,プレイデータ付きRL,環境下での人間の演奏を実証するが,特定の課題を解決しないImitation Learningと,3つの異なる設定で評価する。
論文 参考訳(メタデータ) (2021-10-19T17:59:04Z) - Robust Predictable Control [149.71263296079388]
提案手法は,従来の手法よりもはるかに厳密な圧縮を実現し,標準的な情報ボトルネックよりも最大5倍高い報酬が得られることを示す。
また,本手法はより堅牢で,新しいタスクをより一般化したポリシーを学習することを示す。
論文 参考訳(メタデータ) (2021-09-07T17:29:34Z) - Learning Salient Boundary Feature for Anchor-free Temporal Action
Localization [81.55295042558409]
時間的行動のローカライゼーションはビデオ理解において重要な課題である。
純粋にアンカーフリーな時間的定位法を初めて提案する。
このモデルには,(i)エンドツーエンドのトレーニング可能な基本予測器,(ii)サリエンシベースのリファインメントモジュール,(iii)いくつかの一貫性制約が含まれている。
論文 参考訳(メタデータ) (2021-03-24T12:28:32Z) - Regressive Domain Adaptation for Unsupervised Keypoint Detection [67.2950306888855]
ドメイン適応(DA)は、ラベル付きソースドメインからラベル付きターゲットドメインに知識を転送することを目的とする。
本稿では,教師なしキーポイント検出のためのレグレッシブドメイン適応(RegDA)法を提案する。
提案手法は,異なるデータセット上のPCKにおいて,8%から11%の大幅な改善をもたらす。
論文 参考訳(メタデータ) (2021-03-10T16:45:22Z) - Manifold Regularized Dynamic Network Pruning [102.24146031250034]
本稿では,全インスタンスの多様体情報をプルーンドネットワークの空間に埋め込むことにより,冗長フィルタを動的に除去する新しいパラダイムを提案する。
提案手法の有効性をいくつかのベンチマークで検証し,精度と計算コストの両面で優れた性能を示す。
論文 参考訳(メタデータ) (2021-03-10T03:59:03Z) - Multiagent Rollout and Policy Iteration for POMDP with Application to
Multi-Robot Repair Problems [1.6939372704265414]
有限状態および制御空間,部分状態観測,マルチエージェント構造を有する無限地平面割引動的プログラミング問題を考える。
本手法は、部分的に観測可能なマルチエージェント問題の計算問題に特に対処する。
論文 参考訳(メタデータ) (2020-11-09T06:51:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。