論文の概要: A Convolution and Attention Based Encoder for Reinforcement Learning under Partial Observability
- arxiv url: http://arxiv.org/abs/2505.23857v2
- Date: Sat, 13 Sep 2025 03:54:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 15:23:16.188776
- Title: A Convolution and Attention Based Encoder for Reinforcement Learning under Partial Observability
- Title(参考訳): 部分観測可能性下での強化学習のための畳み込みと注意に基づくエンコーダ
- Authors: Wuhao Wang, Zhiyong Chen,
- Abstract要約: 固定長観測履歴を拡張状態とした完全可観測プロセスとしてPOMDPを再構成した。
本稿では,深度的に分離可能な畳み込みと自己注意に基づく軽量時間エンコーダを提案する。
本手法は,部分観測可能性下での連続制御ベンチマークにおいて優れた性能を実現する。
- 参考スコア(独自算出の注目度): 5.873753767034555
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Partially Observable Markov Decision Processes (POMDPs) remain a core challenge in reinforcement learning due to incomplete state information. We address this by reformulating POMDPs as fully observable processes with fixed-length observation histories as augmented states. To efficiently encode these histories, we propose a lightweight temporal encoder based on depthwise separable convolution and self-attention, avoiding the overhead of recurrent and Transformer-based models. Integrated into an actor-critic framework, our method achieves superior performance on continuous control benchmarks under partial observability. More broadly, this work shows that lightweight temporal encoding can improve the scalability of AI systems under uncertainty. It advances the development of agents capable of reasoning robustly in real-world environments where information is incomplete or delayed.
- Abstract(参考訳): 部分的に観測可能なマルコフ決定過程(POMDP)は、不完全状態情報による強化学習における中核的な課題である。
固定長観測履歴を拡張状態として完全に観測可能なプロセスとしてPOMDPを再構成することでこの問題に対処する。
これらの履歴を効率的にエンコードするために,重み付き分離可能な畳み込みと自己アテンションに基づく軽量なテンポラリエンコーダを提案する。
そこで本手法はアクター・クリティカルなフレームワークに統合され,部分的可観測性の下での連続制御ベンチマークにおける優れた性能を実現する。
より広範に、この研究は、軽量なテンポラリエンコーディングが不確実性の下でAIシステムのスケーラビリティを向上させることを示している。
情報が不完全または遅延している現実の環境で、しっかりと推論できるエージェントの開発を進める。
関連論文リスト
- Evaluating Robustness of Monocular Depth Estimation with Procedural Scene Perturbations [55.4735586739093]
我々は,系統的ロバストネス評価を可能にする新しいベンチマークであるPDEを紹介する。
PDEは手続き生成を使用して、様々な制御された摂動に対する堅牢性をテストする3Dシーンを生成する。
我々の分析は、最先端の深度モデルではどのような摂動が困難なのか、興味深い結果をもたらす。
論文 参考訳(メタデータ) (2025-07-01T17:33:48Z) - ACTRESS: Active Retraining for Semi-supervised Visual Grounding [52.08834188447851]
前回の研究であるRefTeacherは、疑似自信と注意に基づく監督を提供するために教師学生の枠組みを採用することで、この課題に取り組むための最初の試みである。
このアプローチは、Transformerベースのパイプラインに従う現在の最先端のビジュアルグラウンドモデルと互換性がない。
本稿では, ACTRESS を略したセミスーパービジョン視覚グラウンドのためのアクティブ・リトレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-07-03T16:33:31Z) - Decision Mamba: A Multi-Grained State Space Model with Self-Evolution Regularization for Offline RL [57.202733701029594]
本稿では,自己進化型政策学習戦略を持つ新しい多粒状態空間モデル(SSM)であるDecision Mambaを提案する。
これらの課題に対処するため、我々は自己進化型政策学習戦略を持つ新しい多粒状態空間モデル(SSM)であるDecision Mambaを提案する。
雑音性軌道上における過度に適合する問題を緩和するために,進行正則化を用いて自己進化政策を提案する。
論文 参考訳(メタデータ) (2024-06-08T10:12:00Z) - DPMesh: Exploiting Diffusion Prior for Occluded Human Mesh Recovery [71.6345505427213]
DPMeshは、人間のメッシュリカバリを排除した革新的なフレームワークである。
これは、事前訓練されたテキスト・ツー・イメージ拡散モデルに埋め込まれた対象構造と空間的関係について、より深い拡散に乗じる。
論文 参考訳(メタデータ) (2024-04-01T18:59:13Z) - IPED: An Implicit Perspective for Relational Triple Extraction based on
Diffusion Model [7.894136732348917]
拡散モデル(IPED)に基づく三重抽出のインプシット・パースペクティブ
拡散モデル(IPED)に基づく三重抽出のためのインプリシト視点を提案する。
私たちのソリューションでは、ブロックカバレッジを使用してテーブルを補完し、明示的なタグ付けメソッドの制限を回避する。
論文 参考訳(メタデータ) (2024-02-24T14:18:11Z) - Exploiting Estimation Bias in Clipped Double Q-Learning for Continous Control Reinforcement Learning Tasks [5.968716050740402]
本稿では,連続制御タスクに対するアクター・クライブ法における推定バイアスの対処と活用に焦点を当てた。
RLエージェントのトレーニング中に最も有利な推定バイアスを動的に選択するためのBias Exploiting (BE) 機構を設計する。
多くの最先端のDeep RLアルゴリズムはBE機構を備えており、性能や計算の複雑さを妨げない。
論文 参考訳(メタデータ) (2024-02-14T10:44:03Z) - Gleo-Det: Deep Convolution Feature-Guided Detector with Local Entropy
Optimization for Salient Points [5.955667705173262]
本稿では, 深い畳み込み特徴のガイダンスを伴い, 繰り返し可能性の要求に基づき, きめ細かな制約を実現することを提案する。
畳み込み特徴のガイダンスを用いて、正と負の両面からコスト関数を定義する。
論文 参考訳(メタデータ) (2022-04-27T12:40:21Z) - Uncertainty-Aware Adaptation for Self-Supervised 3D Human Pose
Estimation [70.32536356351706]
本稿では、2つの出力ヘッドを2つの異なる構成にサブスクライブする共通のディープネットワークバックボーンを構成するMPP-Netを紹介する。
ポーズと関節のレベルで予測の不確実性を定量化するための適切な尺度を導出する。
本稿では,提案手法の総合評価を行い,ベンチマークデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2022-03-29T07:14:58Z) - Depth-Cooperated Trimodal Network for Video Salient Object Detection [13.727763221832532]
我々はDCTNet(Deep-operated triOD network)を提案する。
この目的のために、まずRGBフレームから深度を生成し、次に3つのモダリティを不等に扱うアプローチを提案する。
また、各モードの雑音を抑えるための改良融合モジュール(RFM)を導入し、機能改善のために有用な情報を動的に選択する。
論文 参考訳(メタデータ) (2022-02-12T13:04:16Z) - Unsupervised Visual Attention and Invariance for Reinforcement Learning [25.673868326662024]
我々は,タスクに無関係に干渉要因を分散させる独立したモジュールを開発し,視覚に基づく強化学習政策の「クリーン」な観察を行う。
すべてのコンポーネントは、手動アノテーションや環境内部へのアクセスなしに、監視されていない方法で最適化されます。
VAIは強力な一般化能力を示し、DeepMind Controlのベンチマークでは現在の最先端(SOTA)メソッドを15%から49%上回っている。
論文 参考訳(メタデータ) (2021-04-07T05:28:01Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。