論文の概要: A Reliable Representation with Bidirectional Transition Model for Visual
Reinforcement Learning Generalization
- arxiv url: http://arxiv.org/abs/2312.01915v1
- Date: Mon, 4 Dec 2023 14:19:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 15:04:10.505434
- Title: A Reliable Representation with Bidirectional Transition Model for Visual
Reinforcement Learning Generalization
- Title(参考訳): 視覚強化学習一般化のための双方向遷移モデルを用いた信頼表現
- Authors: Xiaobo Hu, Youfang Lin, Yue Liu, Jinwen Wang, Shuo Wang, Hehe Fan and
Kai Lv
- Abstract要約: 本稿では, 環境遷移を前方と後方の両方で双方向に予測し, 信頼性のある表現を抽出するBidirectional Transition (BiT) モデルを提案する。
本モデルでは,DeepMind Controlスイートの2つの設定に対して,競合一般化性能とサンプル効率を示す。
- 参考スコア(独自算出の注目度): 39.6041403130768
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual reinforcement learning has proven effective in solving control tasks
with high-dimensional observations. However, extracting reliable and
generalizable representations from vision-based observations remains a central
challenge. Inspired by the human thought process, when the representation
extracted from the observation can predict the future and trace history, the
representation is reliable and accurate in comprehending the environment. Based
on this concept, we introduce a Bidirectional Transition (BiT) model, which
leverages the ability to bidirectionally predict environmental transitions both
forward and backward to extract reliable representations. Our model
demonstrates competitive generalization performance and sample efficiency on
two settings of the DeepMind Control suite. Additionally, we utilize robotic
manipulation and CARLA simulators to demonstrate the wide applicability of our
method.
- Abstract(参考訳): 視覚強化学習は高次元観察による制御課題の解決に有効であることが証明されている。
しかし、視覚に基づく観察から信頼できる一般化された表現を抽出することは依然として大きな課題である。
人間の思考プロセスにインスパイアされた観察から抽出された表現が未来とトレース履歴を予測できる場合、その表現は環境の理解において信頼性と正確である。
この概念に基づいて, 環境遷移を前方と後方の両方で双方向に予測し, 信頼性のある表現を抽出する二方向性遷移(BiT)モデルを導入する。
本モデルでは,DeepMind Controlスイートの2つの設定に対して,競合一般化性能とサンプル効率を示す。
さらに,ロボット操作とCARLAシミュレータを用いて,本手法の適用性を実証した。
関連論文リスト
- Learning Interpretable Policies in Hindsight-Observable POMDPs through
Partially Supervised Reinforcement Learning [57.67629402360924]
本稿では,PSRL(Partially Supervised Reinforcement Learning)フレームワークを紹介する。
PSRLの中心は、教師なし学習と教師なし学習の融合である。
PSRLは、保存中のモデル解釈可能性を高め、従来の手法で設定された性能ベンチマークよりも大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-02-14T16:23:23Z) - Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - Visual Forecasting as a Mid-level Representation for Avoidance [8.712750753534532]
動的物体を持つ環境におけるナビゲーションの課題は、自律エージェントの研究において依然として中心的な課題である。
予測手法は約束を守るが、正確な状態情報に依存しているため、実際の実装では実用的ではない。
本研究では,視覚的予測を革新的な代替手段として提示する。
論文 参考訳(メタデータ) (2023-09-17T13:32:03Z) - VS-TransGRU: A Novel Transformer-GRU-based Framework Enhanced by
Visual-Semantic Fusion for Egocentric Action Anticipation [33.41226268323332]
エゴセントリックなアクション予測は、一人称視点で将来のアクションを先進的に予測することを目的とした課題である。
既存のほとんどの手法は、視覚入力とリカレントニューラルネットワークに基づくモデルアーキテクチャと損失関数の改善に重点を置いている。
本稿では,新しいビジュアル・セマンティック融合とトランスフォーマーGRUに基づくアクション予測フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-08T06:49:54Z) - Mutual Information Regularization for Weakly-supervised RGB-D Salient
Object Detection [33.210575826086654]
弱教師付きRGB-Dサルエント物体検出モデルを提案する。
モーダル相互情報正規化による効果的なマルチモーダル表現学習に着目した。
論文 参考訳(メタデータ) (2023-06-06T12:36:57Z) - Inverse Dynamics Pretraining Learns Good Representations for Multitask
Imitation [66.86987509942607]
このようなパラダイムを模倣学習でどのように行うべきかを評価する。
本稿では,事前学習コーパスがマルチタスクのデモンストレーションから成り立つ環境について考察する。
逆動力学モデリングはこの設定に適していると主張する。
論文 参考訳(メタデータ) (2023-05-26T14:40:46Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - Anticipating the Unseen Discrepancy for Vision and Language Navigation [63.399180481818405]
視覚言語ナビゲーションでは、エージェントは特定のターゲットに到達するために自然言語命令に従う必要がある。
目に見える環境と目に見えない環境の間に大きな違いがあるため、エージェントがうまく一般化することは困難である。
本研究では,テストタイムの視覚的整合性を促進することによって,未知の環境への一般化を学習する,未知の離散性予測ビジョンと言語ナビゲーション(DAVIS)を提案する。
論文 参考訳(メタデータ) (2022-09-10T19:04:40Z) - Self-supervised Multi-view Stereo via Effective Co-Segmentation and
Data-Augmentation [39.95831985522991]
セマンティック・コセグメンテーションとデータ強化によってガイドされるより信頼性の高い監視と統合されたフレームワークを提案する。
提案手法は教師なし手法の最先端性能を実現し,教師付き手法と同等に競合する。
論文 参考訳(メタデータ) (2021-04-12T11:48:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。