論文の概要: PDiT: Interleaving Perception and Decision-making Transformers for Deep
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2312.15863v1
- Date: Tue, 26 Dec 2023 03:07:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 16:10:29.939486
- Title: PDiT: Interleaving Perception and Decision-making Transformers for Deep
Reinforcement Learning
- Title(参考訳): PDiT:深層強化学習のための相互理解と意思決定変換器
- Authors: Hangyu Mao, Rui Zhao, Ziyue Li, Zhiwei Xu, Hao Chen, Yiqun Chen, Bin
Zhang, Zhen Xiao, Junge Zhang, and Jiangjin Yin
- Abstract要約: パーセプション・デシジョン・メイキング・インターリーブ・トランス(PDiT)ネットワークを提案する。
実験の結果,PDiTは強いベースラインよりも優れた性能を発揮するだけでなく,抽出可能な特徴表現も達成できることがわかった。
- 参考スコア(独自算出の注目度): 27.128220336919195
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Designing better deep networks and better reinforcement learning (RL)
algorithms are both important for deep RL. This work studies the former.
Specifically, the Perception and Decision-making Interleaving Transformer
(PDiT) network is proposed, which cascades two Transformers in a very natural
way: the perceiving one focuses on \emph{the environmental perception} by
processing the observation at the patch level, whereas the deciding one pays
attention to \emph{the decision-making} by conditioning on the history of the
desired returns, the perceiver's outputs, and the actions. Such a network
design is generally applicable to a lot of deep RL settings, e.g., both the
online and offline RL algorithms under environments with either image
observations, proprioception observations, or hybrid image-language
observations. Extensive experiments show that PDiT can not only achieve
superior performance than strong baselines in different settings but also
extract explainable feature representations. Our code is available at
\url{https://github.com/maohangyu/PDiT}.
- Abstract(参考訳): ディープ・ネットワークと強化学習(RL)アルゴリズムの設計はどちらもディープ・RLにとって重要である。
この作品は前者を研究する。
具体的には,2つのトランスを非常に自然な方法でカスケードする知覚・意思決定間変換(pdit)ネットワークを提案する。パーセプションはパッチレベルでの観察を処理して,環境知覚に焦点をあてる一方,決定者は所望のリターン,知覚者の出力,行動の履歴を条件として,意思決定に注意を払う。
このようなネットワーク設計は、画像観察、固有受容観測、ハイブリッド画像言語観測などの環境下でのオンラインおよびオフラインのrlアルゴリズムなど、多くの深いrl設定に適用できる。
広汎な実験により、PDiTは異なる設定で強いベースラインよりも優れた性能を達成できるだけでなく、説明可能な特徴表現を抽出できることが示されている。
私たちのコードは \url{https://github.com/maohangyu/PDiT} で利用可能です。
関連論文リスト
- Adaptive Step-size Perception Unfolding Network with Non-local Hybrid Attention for Hyperspectral Image Reconstruction [0.39134031118910273]
FISTAアルゴリズムに基づく深層展開ネットワークであるASPUNを提案する。
さらに,非局所的ハイブリッドアテンショントランス (NHAT) モジュールを設計し,コンバータの受容場特性をフル活用する。
実験の結果, ASPUNは既存のSOTAアルゴリズムよりも優れ, 最高の性能が得られることがわかった。
論文 参考訳(メタデータ) (2024-07-04T16:09:52Z) - CT-MVSNet: Efficient Multi-View Stereo with Cross-scale Transformer [8.962657021133925]
クロススケールトランス(CT)プロセスは、追加計算なしで異なる段階の表現を特徴付ける。
複数のスケールで異なる対話型アテンションの組み合わせを利用する適応型マッチング認識変換器(AMT)を導入する。
また、より細かなコストボリューム構成に大まかにグローバルな意味情報を埋め込む2機能ガイドアグリゲーション(DFGA)も提案する。
論文 参考訳(メタデータ) (2023-12-14T01:33:18Z) - RePo: Resilient Model-Based Reinforcement Learning by Regularizing
Posterior Predictability [25.943330238941602]
本稿では,視覚モデルに基づくRL法を提案する。
我々の訓練目的は、表現が力学と報酬を最大限に予測することを奨励する。
我々の取り組みは、モデルベースのRLを動的で多様なドメインのための実用的で有用なツールにするためのステップです。
論文 参考訳(メタデータ) (2023-08-31T18:43:04Z) - Transformer in Transformer as Backbone for Deep Reinforcement Learning [43.354375917223656]
本稿では,深部RLのためのエンフレアトランスフォーマーネットワークの設計を提案する。
Transformer in Transformer (TIT) バックボーンが提案されている。
実験により、TITは異なる設定で一貫して満足なパフォーマンスを達成できることが示された。
論文 参考訳(メタデータ) (2022-12-30T03:50:38Z) - On Transforming Reinforcement Learning by Transformer: The Development
Trajectory [97.79247023389445]
Transformerは元々自然言語処理用に開発されたもので、コンピュータビジョンでも大きな成功を収めている。
既存の開発をアーキテクチャ拡張と軌道最適化の2つのカテゴリに分類する。
ロボット操作,テキストベースのゲーム,ナビゲーション,自律運転におけるTRLの主な応用について検討する。
論文 参考訳(メタデータ) (2022-12-29T03:15:59Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z) - Video Super-Resolution Transformer [85.11270760456826]
ビデオ超解像(VSR)は、高解像度映像を対応する低解像度バージョンから復元することを目的としており、時空間シーケンス予測問題である。
近年,シークエンス・ツー・シーケンス・モデリングの並列計算能力により,Transformerが人気を集めている。
本稿では,空間的・時間的畳み込み型自己認識層を理論的に理解し,局所性情報を活用する。
論文 参考訳(メタデータ) (2021-06-12T20:00:32Z) - LocalViT: Bringing Locality to Vision Transformers [132.42018183859483]
線、エッジ、形状、さらにはオブジェクトなどの構造に関連するため、画像には局所性が不可欠です。
フィードフォワードネットワークに奥行き畳み込みを導入することで,視覚トランスフォーメーションに局所性を加える。
この一見シンプルなソリューションは、フィードフォワードネットワークと反転残留ブロックの比較に触発されます。
論文 参考訳(メタデータ) (2021-04-12T17:59:22Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。