論文の概要: A Reliable Representation with Bidirectional Transition Model for Visual
Reinforcement Learning Generalization
- arxiv url: http://arxiv.org/abs/2312.01915v1
- Date: Mon, 4 Dec 2023 14:19:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 15:04:10.505434
- Title: A Reliable Representation with Bidirectional Transition Model for Visual
Reinforcement Learning Generalization
- Title(参考訳): 視覚強化学習一般化のための双方向遷移モデルを用いた信頼表現
- Authors: Xiaobo Hu, Youfang Lin, Yue Liu, Jinwen Wang, Shuo Wang, Hehe Fan and
Kai Lv
- Abstract要約: 本稿では, 環境遷移を前方と後方の両方で双方向に予測し, 信頼性のある表現を抽出するBidirectional Transition (BiT) モデルを提案する。
本モデルでは,DeepMind Controlスイートの2つの設定に対して,競合一般化性能とサンプル効率を示す。
- 参考スコア(独自算出の注目度): 39.6041403130768
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual reinforcement learning has proven effective in solving control tasks
with high-dimensional observations. However, extracting reliable and
generalizable representations from vision-based observations remains a central
challenge. Inspired by the human thought process, when the representation
extracted from the observation can predict the future and trace history, the
representation is reliable and accurate in comprehending the environment. Based
on this concept, we introduce a Bidirectional Transition (BiT) model, which
leverages the ability to bidirectionally predict environmental transitions both
forward and backward to extract reliable representations. Our model
demonstrates competitive generalization performance and sample efficiency on
two settings of the DeepMind Control suite. Additionally, we utilize robotic
manipulation and CARLA simulators to demonstrate the wide applicability of our
method.
- Abstract(参考訳): 視覚強化学習は高次元観察による制御課題の解決に有効であることが証明されている。
しかし、視覚に基づく観察から信頼できる一般化された表現を抽出することは依然として大きな課題である。
人間の思考プロセスにインスパイアされた観察から抽出された表現が未来とトレース履歴を予測できる場合、その表現は環境の理解において信頼性と正確である。
この概念に基づいて, 環境遷移を前方と後方の両方で双方向に予測し, 信頼性のある表現を抽出する二方向性遷移(BiT)モデルを導入する。
本モデルでは,DeepMind Controlスイートの2つの設定に対して,競合一般化性能とサンプル効率を示す。
さらに,ロボット操作とCARLAシミュレータを用いて,本手法の適用性を実証した。
関連論文リスト
- MOOSS: Mask-Enhanced Temporal Contrastive Learning for Smooth State Evolution in Visual Reinforcement Learning [8.61492882526007]
視覚的強化学習(RL)では、ピクセルベースの観察から学ぶことは、サンプル効率に大きな課題をもたらす。
グラフベースの時空間マスキングの助けを借りて時間的コントラストの目的を生かした新しいフレームワークMOOSSを紹介する。
複数の連続的および離散的な制御ベンチマークにおいて、MOOSSはサンプル効率の観点から従来の最先端の視覚的RL法よりも優れていたことを示す。
論文 参考訳(メタデータ) (2024-09-02T18:57:53Z) - AdaOcc: Adaptive Forward View Transformation and Flow Modeling for 3D Occupancy and Flow Prediction [56.72301849123049]
CVPR 2024 における nuScenes Open-Occ データセットチャレンジにおいて,視覚中心の3次元活動とフロー予測トラックのソリューションを提案する。
我々の革新的なアプローチは、適応的なフォワード・ビュー・トランスフォーメーションとフロー・モデリングを取り入れることで、3次元の占有率とフロー予測を向上させる2段階のフレームワークである。
提案手法は回帰と分類を組み合わせることで,様々な場面におけるスケールの変動に対処し,予測フローを利用して将来のフレームに現行のボクセル特徴をワープする。
論文 参考訳(メタデータ) (2024-07-01T16:32:15Z) - Learning Interpretable Policies in Hindsight-Observable POMDPs through
Partially Supervised Reinforcement Learning [57.67629402360924]
本稿では,PSRL(Partially Supervised Reinforcement Learning)フレームワークを紹介する。
PSRLの中心は、教師なし学習と教師なし学習の融合である。
PSRLは、保存中のモデル解釈可能性を高め、従来の手法で設定された性能ベンチマークよりも大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-02-14T16:23:23Z) - Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - Visual Forecasting as a Mid-level Representation for Avoidance [8.712750753534532]
動的物体を持つ環境におけるナビゲーションの課題は、自律エージェントの研究において依然として中心的な課題である。
予測手法は約束を守るが、正確な状態情報に依存しているため、実際の実装では実用的ではない。
本研究では,視覚的予測を革新的な代替手段として提示する。
論文 参考訳(メタデータ) (2023-09-17T13:32:03Z) - Mutual Information Regularization for Weakly-supervised RGB-D Salient
Object Detection [33.210575826086654]
弱教師付きRGB-Dサルエント物体検出モデルを提案する。
モーダル相互情報正規化による効果的なマルチモーダル表現学習に着目した。
論文 参考訳(メタデータ) (2023-06-06T12:36:57Z) - Inverse Dynamics Pretraining Learns Good Representations for Multitask
Imitation [66.86987509942607]
このようなパラダイムを模倣学習でどのように行うべきかを評価する。
本稿では,事前学習コーパスがマルチタスクのデモンストレーションから成り立つ環境について考察する。
逆動力学モデリングはこの設定に適していると主張する。
論文 参考訳(メタデータ) (2023-05-26T14:40:46Z) - Anticipating the Unseen Discrepancy for Vision and Language Navigation [63.399180481818405]
視覚言語ナビゲーションでは、エージェントは特定のターゲットに到達するために自然言語命令に従う必要がある。
目に見える環境と目に見えない環境の間に大きな違いがあるため、エージェントがうまく一般化することは困難である。
本研究では,テストタイムの視覚的整合性を促進することによって,未知の環境への一般化を学習する,未知の離散性予測ビジョンと言語ナビゲーション(DAVIS)を提案する。
論文 参考訳(メタデータ) (2022-09-10T19:04:40Z) - Self-supervised Multi-view Stereo via Effective Co-Segmentation and
Data-Augmentation [39.95831985522991]
セマンティック・コセグメンテーションとデータ強化によってガイドされるより信頼性の高い監視と統合されたフレームワークを提案する。
提案手法は教師なし手法の最先端性能を実現し,教師付き手法と同等に競合する。
論文 参考訳(メタデータ) (2021-04-12T11:48:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。