論文の概要: Learning Long-term Visual Dynamics with Region Proposal Interaction
Networks
- arxiv url: http://arxiv.org/abs/2008.02265v5
- Date: Fri, 2 Apr 2021 20:12:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 18:02:41.095825
- Title: Learning Long-term Visual Dynamics with Region Proposal Interaction
Networks
- Title(参考訳): 地域提案インタラクションネットワークを用いた長期視覚ダイナミクスの学習
- Authors: Haozhi Qi, Xiaolong Wang, Deepak Pathak, Yi Ma, Jitendra Malik
- Abstract要約: オブジェクト間およびオブジェクト環境間の相互作用を長距離にわたってキャプチャするオブジェクト表現を構築します。
単純だが効果的なオブジェクト表現のおかげで、我々の手法は先行手法よりも大幅に優れている。
- 参考スコア(独自算出の注目度): 75.06423516419862
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning long-term dynamics models is the key to understanding physical
common sense. Most existing approaches on learning dynamics from visual input
sidestep long-term predictions by resorting to rapid re-planning with
short-term models. This not only requires such models to be super accurate but
also limits them only to tasks where an agent can continuously obtain feedback
and take action at each step until completion. In this paper, we aim to
leverage the ideas from success stories in visual recognition tasks to build
object representations that can capture inter-object and object-environment
interactions over a long-range. To this end, we propose Region Proposal
Interaction Networks (RPIN), which reason about each object's trajectory in a
latent region-proposal feature space. Thanks to the simple yet effective object
representation, our approach outperforms prior methods by a significant margin
both in terms of prediction quality and their ability to plan for downstream
tasks, and also generalize well to novel environments. Code, pre-trained
models, and more visualization results are available at https://haozhi.io/RPIN.
- Abstract(参考訳): 長期間のダイナミクスモデルを学ぶことが、物理的な常識を理解する鍵となる。
視覚入力サイドステップから学習ダイナミクスへの既存のアプローチのほとんどは、短期モデルによる迅速な再計画に頼りながら長期予測を行う。
これは、そのようなモデルが非常に正確であるだけでなく、エージェントが継続的にフィードバックを取得し、完了するまでの各ステップでアクションを取ることができるタスクに限る。
本稿では、視覚認識タスクにおける成功物語のアイデアを活用し、オブジェクト間およびオブジェクト環境間の相互作用を長距離にわたってキャプチャできるオブジェクト表現を構築することを目的とする。
この目的のために我々は,各オブジェクトの軌道を潜在領域-固有特徴空間で推論する領域提案相互作用ネットワーク(RPIN)を提案する。
単純な効果的なオブジェクト表現のおかげで、予測品質とダウンストリームタスクの計画能力の両方において、従来のメソッドをかなりマージンで上回り、新しい環境にもうまく一般化します。
コード、事前トレーニングされたモデル、およびさらなる視覚化結果はhttps://haozhi.io/RPIN.orgで公開されている。
関連論文リスト
- Object-centric Video Representation for Long-term Action Anticipation [33.115854386196126]
主な動機は、オブジェクトが人間とオブジェクトの相互作用を認識し予測するための重要な手がかりを提供することである。
我々は、視覚言語事前学習モデルを利用して、オブジェクト中心のビデオ表現を構築することを提案する。
人間と物体の相互作用を認識し予測するために、Transformerベースのニューラルアーキテクチャを用いる。
論文 参考訳(メタデータ) (2023-10-31T22:54:31Z) - A Threefold Review on Deep Semantic Segmentation: Efficiency-oriented,
Temporal and Depth-aware design [77.34726150561087]
我々は、自動運転車のビジョンの文脈において、Deep Semanticの最も関連性があり最近の進歩について調査を行う。
私たちの主な目的は、それぞれの視点で直面している主要な方法、利点、制限、結果、課題に関する包括的な議論を提供することです。
論文 参考訳(メタデータ) (2023-03-08T01:29:55Z) - Goal-driven Self-Attentive Recurrent Networks for Trajectory Prediction [31.02081143697431]
人間の軌道予測は、自動運転車、社会認識ロボット、およびビデオ監視アプリケーションの主要な構成要素である。
本稿では,過去の観測位置のみに作用する軽量な注意型リカレントバックボーンを提案する。
我々はU-Netアーキテクチャに基づく共通のゴールモジュールを使用し、シーン準拠の目的地を予測するために意味情報を抽出する。
論文 参考訳(メタデータ) (2022-04-25T11:12:37Z) - Learning Dual Dynamic Representations on Time-Sliced User-Item
Interaction Graphs for Sequential Recommendation [62.30552176649873]
シーケンシャルレコメンデーションのための動的表現学習モデル(DRL-SRe)を考案する。
両面から動的に特徴付けるためのユーザ・イテム相互作用をモデル化するため,提案モデルでは,時間スライス毎にグローバルなユーザ・イテム相互作用グラフを構築した。
モデルが微粒な時間情報を捕捉することを可能にするため,連続時間スライス上での補助的時間予測タスクを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:44:27Z) - Model-Based Reinforcement Learning via Latent-Space Collocation [110.04005442935828]
我々は、行動だけでなく、状態の順序を計画することで、長期的タスクの解決がより容易であると主張する。
我々は、学習された潜在状態空間モデルを利用して、画像に基づく設定に最適な制御文献における長い水平タスクに対する良い結果を示すコロケーションの概念を適応させる。
論文 参考訳(メタデータ) (2021-06-24T17:59:18Z) - Variational Structured Attention Networks for Deep Visual Representation
Learning [49.80498066480928]
空間的注意マップとチャネル的注意の両方を原則的に共同学習するための統合的深層フレームワークを提案する。
具体的には,確率的表現学習フレームワークに注目度の推定と相互作用を統合する。
ニューラルネットワーク内で推論ルールを実装し,確率パラメータとcnnフロントエンドパラメータのエンドツーエンド学習を可能にする。
論文 参考訳(メタデータ) (2021-03-05T07:37:24Z) - Where2Act: From Pixels to Actions for Articulated 3D Objects [54.19638599501286]
可動部を有する関節物体の押出しや引抜き等の基本動作に関連する高度に局所化された動作可能な情報を抽出する。
シミュレーションでネットワークをトレーニングできるオンラインデータサンプリング戦略を備えた学習から対話までのフレームワークを提案します。
私たちの学習モデルは、現実世界のデータにも転送します。
論文 参考訳(メタデータ) (2021-01-07T18:56:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。