論文の概要: DATD3: Depthwise Attention Twin Delayed Deep Deterministic Policy Gradient For Model Free Reinforcement Learning Under Output Feedback Control
- arxiv url: http://arxiv.org/abs/2505.23857v1
- Date: Thu, 29 May 2025 06:22:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.574808
- Title: DATD3: Depthwise Attention Twin Delayed Deep Deterministic Policy Gradient For Model Free Reinforcement Learning Under Output Feedback Control
- Title(参考訳): DATD3: 出力フィードバック制御によるモデル自由強化学習のための深部決定論的ポリシーの遅延
- Authors: Wuhao Wang, Zhiyong Chen,
- Abstract要約: 実世界のアプリケーションにおける強化学習は、エージェントが部分的な状態情報のみを受け取る出力フィードバック設定を含むことが多い。
観測履歴に基づく意思決定に対応するため,標準MPPの定式化を拡張した出力フィードバックマルコフ決定プロセス(OPMDP)を提案する。
本稿では,DATD3(Depthwise Attention Twin Delayed Deep Deterministic Policy Gradient)について紹介する。
連続制御タスクの実験は、DATD3が既存のメモリベースおよびリカレントベースラインを部分的および完全の両方で上回ることを示した。
- 参考スコア(独自算出の注目度): 4.473337652382325
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning in real-world applications often involves output-feedback settings, where the agent receives only partial state information. To address this challenge, we propose the Output-Feedback Markov Decision Process (OPMDP), which extends the standard MDP formulation to accommodate decision-making based on observation histories. Building on this framework, we introduce Depthwise Attention Twin Delayed Deep Deterministic Policy Gradient (DATD3), a novel actor-critic algorithm that employs depthwise separable convolution and multi-head attention to encode historical observations. DATD3 maintains policy expressiveness while avoiding the instability of recurrent models. Extensive experiments on continuous control tasks demonstrate that DATD3 outperforms existing memory-based and recurrent baselines under both partial and full observability.
- Abstract(参考訳): 実世界のアプリケーションにおける強化学習は、エージェントが部分的な状態情報のみを受け取る出力フィードバック設定を含むことが多い。
この課題に対処するため、観測履歴に基づく意思決定に対応するため、標準MPPの定式化を拡張した出力フィードバックマルコフ決定プロセス(OPMDP)を提案する。
この枠組みに基づいて,深度分離可能な畳み込みとマルチヘッドアテンションを用いて歴史的観測を符号化する新しいアクター批判アルゴリズムであるDATD3を導入する。
DATD3は、リカレントモデルの不安定性を避けながらポリシー表現性を維持する。
連続制御タスクに関する大規模な実験は、DATD3が既存のメモリベースとリカレントベースラインを半可観測性および完全可観測性の両方で上回ることを示した。
関連論文リスト
- ACTRESS: Active Retraining for Semi-supervised Visual Grounding [52.08834188447851]
前回の研究であるRefTeacherは、疑似自信と注意に基づく監督を提供するために教師学生の枠組みを採用することで、この課題に取り組むための最初の試みである。
このアプローチは、Transformerベースのパイプラインに従う現在の最先端のビジュアルグラウンドモデルと互換性がない。
本稿では, ACTRESS を略したセミスーパービジョン視覚グラウンドのためのアクティブ・リトレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-07-03T16:33:31Z) - Decision Mamba: A Multi-Grained State Space Model with Self-Evolution Regularization for Offline RL [57.202733701029594]
本稿では,自己進化型政策学習戦略を持つ新しい多粒状態空間モデル(SSM)であるDecision Mambaを提案する。
これらの課題に対処するため、我々は自己進化型政策学習戦略を持つ新しい多粒状態空間モデル(SSM)であるDecision Mambaを提案する。
雑音性軌道上における過度に適合する問題を緩和するために,進行正則化を用いて自己進化政策を提案する。
論文 参考訳(メタデータ) (2024-06-08T10:12:00Z) - IPED: An Implicit Perspective for Relational Triple Extraction based on
Diffusion Model [7.894136732348917]
拡散モデル(IPED)に基づく三重抽出のインプシット・パースペクティブ
拡散モデル(IPED)に基づく三重抽出のためのインプリシト視点を提案する。
私たちのソリューションでは、ブロックカバレッジを使用してテーブルを補完し、明示的なタグ付けメソッドの制限を回避する。
論文 参考訳(メタデータ) (2024-02-24T14:18:11Z) - Exploiting Estimation Bias in Clipped Double Q-Learning for Continous Control Reinforcement Learning Tasks [5.968716050740402]
本稿では,連続制御タスクに対するアクター・クライブ法における推定バイアスの対処と活用に焦点を当てた。
RLエージェントのトレーニング中に最も有利な推定バイアスを動的に選択するためのBias Exploiting (BE) 機構を設計する。
多くの最先端のDeep RLアルゴリズムはBE機構を備えており、性能や計算の複雑さを妨げない。
論文 参考訳(メタデータ) (2024-02-14T10:44:03Z) - Gleo-Det: Deep Convolution Feature-Guided Detector with Local Entropy
Optimization for Salient Points [5.955667705173262]
本稿では, 深い畳み込み特徴のガイダンスを伴い, 繰り返し可能性の要求に基づき, きめ細かな制約を実現することを提案する。
畳み込み特徴のガイダンスを用いて、正と負の両面からコスト関数を定義する。
論文 参考訳(メタデータ) (2022-04-27T12:40:21Z) - Uncertainty-Aware Adaptation for Self-Supervised 3D Human Pose
Estimation [70.32536356351706]
本稿では、2つの出力ヘッドを2つの異なる構成にサブスクライブする共通のディープネットワークバックボーンを構成するMPP-Netを紹介する。
ポーズと関節のレベルで予測の不確実性を定量化するための適切な尺度を導出する。
本稿では,提案手法の総合評価を行い,ベンチマークデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2022-03-29T07:14:58Z) - Unsupervised Visual Attention and Invariance for Reinforcement Learning [25.673868326662024]
我々は,タスクに無関係に干渉要因を分散させる独立したモジュールを開発し,視覚に基づく強化学習政策の「クリーン」な観察を行う。
すべてのコンポーネントは、手動アノテーションや環境内部へのアクセスなしに、監視されていない方法で最適化されます。
VAIは強力な一般化能力を示し、DeepMind Controlのベンチマークでは現在の最先端(SOTA)メソッドを15%から49%上回っている。
論文 参考訳(メタデータ) (2021-04-07T05:28:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。