Fugu-MT 論文翻訳(概要): A Reliable Representation with Bidirectional Transition Model for Visual Reinforcement Learning Generalization

論文の概要: A Reliable Representation with Bidirectional Transition Model for Visual Reinforcement Learning Generalization

arxiv url: http://arxiv.org/abs/2312.01915v1
Date: Mon, 4 Dec 2023 14:19:36 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-05 15:04:10.505434
Title: A Reliable Representation with Bidirectional Transition Model for Visual Reinforcement Learning Generalization
Title（参考訳）: 視覚強化学習一般化のための双方向遷移モデルを用いた信頼表現
Authors: Xiaobo Hu, Youfang Lin, Yue Liu, Jinwen Wang, Shuo Wang, Hehe Fan and Kai Lv
Abstract要約: 本稿では, 環境遷移を前方と後方の両方で双方向に予測し, 信頼性のある表現を抽出するBidirectional Transition (BiT) モデルを提案する。本モデルでは,DeepMind Controlスイートの2つの設定に対して,競合一般化性能とサンプル効率を示す。
参考スコア（独自算出の注目度）: 39.6041403130768
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Visual reinforcement learning has proven effective in solving control tasks with high-dimensional observations. However, extracting reliable and generalizable representations from vision-based observations remains a central challenge. Inspired by the human thought process, when the representation extracted from the observation can predict the future and trace history, the representation is reliable and accurate in comprehending the environment. Based on this concept, we introduce a Bidirectional Transition (BiT) model, which leverages the ability to bidirectionally predict environmental transitions both forward and backward to extract reliable representations. Our model demonstrates competitive generalization performance and sample efficiency on two settings of the DeepMind Control suite. Additionally, we utilize robotic manipulation and CARLA simulators to demonstrate the wide applicability of our method.
Abstract（参考訳）: 視覚強化学習は高次元観察による制御課題の解決に有効であることが証明されている。しかし、視覚に基づく観察から信頼できる一般化された表現を抽出することは依然として大きな課題である。人間の思考プロセスにインスパイアされた観察から抽出された表現が未来とトレース履歴を予測できる場合、その表現は環境の理解において信頼性と正確である。この概念に基づいて, 環境遷移を前方と後方の両方で双方向に予測し, 信頼性のある表現を抽出する二方向性遷移(BiT)モデルを導入する。本モデルでは,DeepMind Controlスイートの2つの設定に対して,競合一般化性能とサンプル効率を示す。さらに,ロボット操作とCARLAシミュレータを用いて,本手法の適用性を実証した。

関連論文リスト

Unseen from Seen: Rewriting Observation-Instruction Using Foundation Models for Augmenting Vision-Language Navigation [67.31811007549489]
視覚言語ナビゲーション(VLN)のためのリライト駆動型AugMentation(RAM)パラダイムを提案する。書き換え機構を応用して, シミュレータフリー, 省力化の両面で新たな観察指導が可能となり, 一般化が促進される。離散環境 (R2R, REVERIE, R4R) と連続環境 (R2R-CE) の両方における実験により, 本手法の優れた性能と優れた一般化能力が示された。
論文参考訳（メタデータ） (2025-03-23T13:18:17Z)
MOOSS: Mask-Enhanced Temporal Contrastive Learning for Smooth State Evolution in Visual Reinforcement Learning [8.61492882526007]
視覚的強化学習(RL)では、ピクセルベースの観察から学ぶことは、サンプル効率に大きな課題をもたらす。グラフベースの時空間マスキングの助けを借りて時間的コントラストの目的を生かした新しいフレームワークMOOSSを紹介する。複数の連続的および離散的な制御ベンチマークにおいて、MOOSSはサンプル効率の観点から従来の最先端の視覚的RL法よりも優れていたことを示す。
論文参考訳（メタデータ） (2024-09-02T18:57:53Z)
AdaOcc: Adaptive Forward View Transformation and Flow Modeling for 3D Occupancy and Flow Prediction [56.72301849123049]
CVPR 2024 における nuScenes Open-Occ データセットチャレンジにおいて,視覚中心の3次元活動とフロー予測トラックのソリューションを提案する。我々の革新的なアプローチは、適応的なフォワード・ビュー・トランスフォーメーションとフロー・モデリングを取り入れることで、3次元の占有率とフロー予測を向上させる2段階のフレームワークである。提案手法は回帰と分類を組み合わせることで,様々な場面におけるスケールの変動に対処し,予測フローを利用して将来のフレームに現行のボクセル特徴をワープする。
論文参考訳（メタデータ） (2024-07-01T16:32:15Z)
Learning Interpretable Policies in Hindsight-Observable POMDPs through Partially Supervised Reinforcement Learning [57.67629402360924]
本稿では,PSRL(Partially Supervised Reinforcement Learning)フレームワークを紹介する。 PSRLの中心は、教師なし学習と教師なし学習の融合である。 PSRLは、保存中のモデル解釈可能性を高め、従来の手法で設定された性能ベンチマークよりも大幅に向上することを示す。
論文参考訳（メタデータ） (2024-02-14T16:23:23Z)
Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文参考訳（メタデータ） (2023-12-22T14:40:55Z)
Visual Forecasting as a Mid-level Representation for Avoidance [8.712750753534532]
動的物体を持つ環境におけるナビゲーションの課題は、自律エージェントの研究において依然として中心的な課題である。予測手法は約束を守るが、正確な状態情報に依存しているため、実際の実装では実用的ではない。本研究では,視覚的予測を革新的な代替手段として提示する。
論文参考訳（メタデータ） (2023-09-17T13:32:03Z)
Mutual Information Regularization for Weakly-supervised RGB-D Salient Object Detection [33.210575826086654]
弱教師付きRGB-Dサルエント物体検出モデルを提案する。モーダル相互情報正規化による効果的なマルチモーダル表現学習に着目した。
論文参考訳（メタデータ） (2023-06-06T12:36:57Z)
Inverse Dynamics Pretraining Learns Good Representations for Multitask Imitation [66.86987509942607]
このようなパラダイムを模倣学習でどのように行うべきかを評価する。本稿では,事前学習コーパスがマルチタスクのデモンストレーションから成り立つ環境について考察する。逆動力学モデリングはこの設定に適していると主張する。
論文参考訳（メタデータ） (2023-05-26T14:40:46Z)
Anticipating the Unseen Discrepancy for Vision and Language Navigation [63.399180481818405]
視覚言語ナビゲーションでは、エージェントは特定のターゲットに到達するために自然言語命令に従う必要がある。目に見える環境と目に見えない環境の間に大きな違いがあるため、エージェントがうまく一般化することは困難である。本研究では,テストタイムの視覚的整合性を促進することによって,未知の環境への一般化を学習する,未知の離散性予測ビジョンと言語ナビゲーション(DAVIS)を提案する。
論文参考訳（メタデータ） (2022-09-10T19:04:40Z)
Self-supervised Multi-view Stereo via Effective Co-Segmentation and Data-Augmentation [39.95831985522991]
セマンティック・コセグメンテーションとデータ強化によってガイドされるより信頼性の高い監視と統合されたフレームワークを提案する。提案手法は教師なし手法の最先端性能を実現し,教師付き手法と同等に競合する。
論文参考訳（メタデータ） (2021-04-12T11:48:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。