論文の概要: A Convolution and Attention Based Encoder for Reinforcement Learning under Partial Observability
- arxiv url: http://arxiv.org/abs/2505.23857v2
- Date: Sat, 13 Sep 2025 03:54:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 15:23:16.188776
- Title: A Convolution and Attention Based Encoder for Reinforcement Learning under Partial Observability
- Title(参考訳): 部分観測可能性下での強化学習のための畳み込みと注意に基づくエンコーダ
- Authors: Wuhao Wang, Zhiyong Chen,
- Abstract要約: 固定長観測履歴を拡張状態とした完全可観測プロセスとしてPOMDPを再構成した。
本稿では,深度的に分離可能な畳み込みと自己注意に基づく軽量時間エンコーダを提案する。
本手法は,部分観測可能性下での連続制御ベンチマークにおいて優れた性能を実現する。
- 参考スコア(独自算出の注目度): 5.873753767034555
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Partially Observable Markov Decision Processes (POMDPs) remain a core challenge in reinforcement learning due to incomplete state information. We address this by reformulating POMDPs as fully observable processes with fixed-length observation histories as augmented states. To efficiently encode these histories, we propose a lightweight temporal encoder based on depthwise separable convolution and self-attention, avoiding the overhead of recurrent and Transformer-based models. Integrated into an actor-critic framework, our method achieves superior performance on continuous control benchmarks under partial observability. More broadly, this work shows that lightweight temporal encoding can improve the scalability of AI systems under uncertainty. It advances the development of agents capable of reasoning robustly in real-world environments where information is incomplete or delayed.
- Abstract(参考訳): 部分的に観測可能なマルコフ決定過程(POMDP)は、不完全状態情報による強化学習における中核的な課題である。
固定長観測履歴を拡張状態として完全に観測可能なプロセスとしてPOMDPを再構成することでこの問題に対処する。
これらの履歴を効率的にエンコードするために,重み付き分離可能な畳み込みと自己アテンションに基づく軽量なテンポラリエンコーダを提案する。
そこで本手法はアクター・クリティカルなフレームワークに統合され,部分的可観測性の下での連続制御ベンチマークにおける優れた性能を実現する。
より広範に、この研究は、軽量なテンポラリエンコーディングが不確実性の下でAIシステムのスケーラビリティを向上させることを示している。
情報が不完全または遅延している現実の環境で、しっかりと推論できるエージェントの開発を進める。
関連論文リスト
- StepVAR: Structure-Texture Guided Pruning for Visual Autoregressive Models [98.72926158261937]
本稿では,Visual AutoRegressive モデルのためのトレーニングフリートークン解析フレームワークを提案する。
我々は局所的なテクスチャの詳細を捉えるために軽量なハイパスフィルタを使用し、グローバルな構造情報を保存するために主成分分析(PCA)を活用している。
スパーストークンの下で有効な次世代の予測を維持するために,近接した特徴伝達戦略を導入する。
論文 参考訳(メタデータ) (2026-03-02T11:35:05Z) - Improving Reconstruction of Representation Autoencoder [52.817427902597416]
低レベル情報を欠いた意味的特徴を増強する表現オートエンコーダLV-RAEを提案する。
実験により,LV-RAEは意味的抽象化を保ちながら,再構成の忠実度を著しく向上することが示された。
論文 参考訳(メタデータ) (2026-02-09T13:12:35Z) - Accordion-Thinking: Self-Regulated Step Summaries for Efficient and Readable LLM Reasoning [62.680551162054975]
我々はLLMが動的要約によって推論ステップの粒度を自己制御することを学ぶエンドツーエンドのフレームワークを紹介した。
高い効率のFoldモードと徹底的なUnfoldモードの精度ギャップを徐々に狭めていくという重要な知見を見出し,この能力をさらにインセンティブ化するために強化学習を適用した。
私たちのAccordion-Thinkerは、学習した自己圧縮により、LLMは依存性トークンのオーバーヘッドを最小限に抑えながら複雑な推論タスクに取り組むことができることを示した。
論文 参考訳(メタデータ) (2026-02-03T08:34:20Z) - Learning to Focus: Prioritizing Informative Histories with Structured Attention Mechanisms in Partially Observable Reinforcement Learning [9.233407096706744]
本研究では, 動的ヘッドの自己保持機構に, 構造的インダクティブ先行を導入する。
Atari 100kベンチマークの実験では、ほとんどの効率向上がガウス以前の結果から生じることが示されている。
論文 参考訳(メタデータ) (2025-11-10T10:53:16Z) - RationAnomaly: Log Anomaly Detection with Rationality via Chain-of-Thought and Reinforcement Learning [27.235259453535537]
RationAnomalyは、Chain-of-Thoughtファインチューニングと強化学習を相乗化することにより、ログの異常検出を強化する新しいフレームワークである。
コードとデータセットを含む、対応するリソースをリリースしました。
論文 参考訳(メタデータ) (2025-09-18T07:35:58Z) - Evaluating Robustness of Monocular Depth Estimation with Procedural Scene Perturbations [55.4735586739093]
我々は,系統的ロバストネス評価を可能にする新しいベンチマークであるPDEを紹介する。
PDEは手続き生成を使用して、様々な制御された摂動に対する堅牢性をテストする3Dシーンを生成する。
我々の分析は、最先端の深度モデルではどのような摂動が困難なのか、興味深い結果をもたらす。
論文 参考訳(メタデータ) (2025-07-01T17:33:48Z) - SCENT: Robust Spatiotemporal Learning for Continuous Scientific Data via Scalable Conditioned Neural Fields [11.872753517172555]
SCENTは、スケーラブルで連続性に富んだモデリング学習のための新しいフレームワークである。
SCENTは単一のアーキテクチャ内で表現、再構築、予測を統一する。
我々はSCENTを広範囲なシミュレーションと実世界の実験により検証し、最先端の性能を実証した。
論文 参考訳(メタデータ) (2025-04-16T17:17:31Z) - Localized Gaussians as Self-Attention Weights for Point Clouds Correspondence [92.07601770031236]
本稿では,エンコーダのみのトランスフォーマーアーキテクチャのアテンションヘッドにおける意味的意味パターンについて検討する。
注意重みの修正はトレーニングプロセスの促進だけでなく,最適化の安定性の向上にも寄与する。
論文 参考訳(メタデータ) (2024-09-20T07:41:47Z) - ACTRESS: Active Retraining for Semi-supervised Visual Grounding [52.08834188447851]
前回の研究であるRefTeacherは、疑似自信と注意に基づく監督を提供するために教師学生の枠組みを採用することで、この課題に取り組むための最初の試みである。
このアプローチは、Transformerベースのパイプラインに従う現在の最先端のビジュアルグラウンドモデルと互換性がない。
本稿では, ACTRESS を略したセミスーパービジョン視覚グラウンドのためのアクティブ・リトレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-07-03T16:33:31Z) - Decision Mamba: A Multi-Grained State Space Model with Self-Evolution Regularization for Offline RL [57.202733701029594]
本稿では,自己進化型政策学習戦略を持つ新しい多粒状態空間モデル(SSM)であるDecision Mambaを提案する。
これらの課題に対処するため、我々は自己進化型政策学習戦略を持つ新しい多粒状態空間モデル(SSM)であるDecision Mambaを提案する。
雑音性軌道上における過度に適合する問題を緩和するために,進行正則化を用いて自己進化政策を提案する。
論文 参考訳(メタデータ) (2024-06-08T10:12:00Z) - DPMesh: Exploiting Diffusion Prior for Occluded Human Mesh Recovery [71.6345505427213]
DPMeshは、人間のメッシュリカバリを排除した革新的なフレームワークである。
これは、事前訓練されたテキスト・ツー・イメージ拡散モデルに埋め込まれた対象構造と空間的関係について、より深い拡散に乗じる。
論文 参考訳(メタデータ) (2024-04-01T18:59:13Z) - Deep Common Feature Mining for Efficient Video Semantic Segmentation [25.851900402539467]
ビデオセマンティックセグメンテーションのためのDeep Common Feature Mining(DCFM)を提案する。
DCFMは、機能を2つの補完的なコンポーネントに明示的に分解する。
自己教師付き損失関数を組み込んで,クラス内特徴の類似性を強化し,時間的整合性を高める。
論文 参考訳(メタデータ) (2024-03-05T06:17:59Z) - IPED: An Implicit Perspective for Relational Triple Extraction based on
Diffusion Model [7.894136732348917]
拡散モデル(IPED)に基づく三重抽出のインプシット・パースペクティブ
拡散モデル(IPED)に基づく三重抽出のためのインプリシト視点を提案する。
私たちのソリューションでは、ブロックカバレッジを使用してテーブルを補完し、明示的なタグ付けメソッドの制限を回避する。
論文 参考訳(メタデータ) (2024-02-24T14:18:11Z) - Exploiting Estimation Bias in Clipped Double Q-Learning for Continous Control Reinforcement Learning Tasks [5.968716050740402]
本稿では,連続制御タスクに対するアクター・クライブ法における推定バイアスの対処と活用に焦点を当てた。
RLエージェントのトレーニング中に最も有利な推定バイアスを動的に選択するためのBias Exploiting (BE) 機構を設計する。
多くの最先端のDeep RLアルゴリズムはBE機構を備えており、性能や計算の複雑さを妨げない。
論文 参考訳(メタデータ) (2024-02-14T10:44:03Z) - Sequential Action-Induced Invariant Representation for Reinforcement
Learning [1.2046159151610263]
視覚的障害を伴う高次元観察からタスク関連状態表現を正確に学習する方法は、視覚的強化学習において難しい問題である。
本稿では,逐次動作の制御信号に従うコンポーネントのみを保持するために,補助学習者によってエンコーダを最適化した逐次行動誘発不変表現(SAR)法を提案する。
論文 参考訳(メタデータ) (2023-09-22T05:31:55Z) - Exploiting Diffusion Prior for Real-World Image Super-Resolution [75.5898357277047]
本稿では,事前学習したテキスト・画像拡散モデルにカプセル化された事前知識を視覚的超解像に活用するための新しいアプローチを提案する。
時間認識エンコーダを用いることで、事前学習した合成モデルを変更することなく、有望な復元結果が得られる。
論文 参考訳(メタデータ) (2023-05-11T17:55:25Z) - CCLF: A Contrastive-Curiosity-Driven Learning Framework for
Sample-Efficient Reinforcement Learning [56.20123080771364]
我々は、強化学習のためのモデルに依存しないコントラスト駆動学習フレームワーク(CCLF)を開発した。
CCLFは、サンプルの重要性を完全に活用し、自己管理的な学習効率を向上させる。
このアプローチをDeepMind Control Suite、Atari、MiniGridベンチマークで評価する。
論文 参考訳(メタデータ) (2022-05-02T14:42:05Z) - Gleo-Det: Deep Convolution Feature-Guided Detector with Local Entropy
Optimization for Salient Points [5.955667705173262]
本稿では, 深い畳み込み特徴のガイダンスを伴い, 繰り返し可能性の要求に基づき, きめ細かな制約を実現することを提案する。
畳み込み特徴のガイダンスを用いて、正と負の両面からコスト関数を定義する。
論文 参考訳(メタデータ) (2022-04-27T12:40:21Z) - Uncertainty-Aware Adaptation for Self-Supervised 3D Human Pose
Estimation [70.32536356351706]
本稿では、2つの出力ヘッドを2つの異なる構成にサブスクライブする共通のディープネットワークバックボーンを構成するMPP-Netを紹介する。
ポーズと関節のレベルで予測の不確実性を定量化するための適切な尺度を導出する。
本稿では,提案手法の総合評価を行い,ベンチマークデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2022-03-29T07:14:58Z) - Depth-Cooperated Trimodal Network for Video Salient Object Detection [13.727763221832532]
我々はDCTNet(Deep-operated triOD network)を提案する。
この目的のために、まずRGBフレームから深度を生成し、次に3つのモダリティを不等に扱うアプローチを提案する。
また、各モードの雑音を抑えるための改良融合モジュール(RFM)を導入し、機能改善のために有用な情報を動的に選択する。
論文 参考訳(メタデータ) (2022-02-12T13:04:16Z) - Unsupervised Visual Attention and Invariance for Reinforcement Learning [25.673868326662024]
我々は,タスクに無関係に干渉要因を分散させる独立したモジュールを開発し,視覚に基づく強化学習政策の「クリーン」な観察を行う。
すべてのコンポーネントは、手動アノテーションや環境内部へのアクセスなしに、監視されていない方法で最適化されます。
VAIは強力な一般化能力を示し、DeepMind Controlのベンチマークでは現在の最先端(SOTA)メソッドを15%から49%上回っている。
論文 参考訳(メタデータ) (2021-04-07T05:28:01Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。