論文の概要: A Critical View of Vision-Based Long-Term Dynamics Prediction Under
Environment Misalignment
- arxiv url: http://arxiv.org/abs/2305.07648v2
- Date: Tue, 13 Jun 2023 19:36:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-17 00:46:40.954356
- Title: A Critical View of Vision-Based Long-Term Dynamics Prediction Under
Environment Misalignment
- Title(参考訳): 環境相違下における視覚に基づく長期変動予測の批判的視点
- Authors: Hanchen Xie, Jiageng Zhu, Mahyar Khayatkhoei, Jiazhi Li, Mohamed E.
Hussein, Wael AbdAlmageed
- Abstract要約: 地域提案畳み込み相互作用ネットワーク (RPCIN) は視覚モデルとして提案され, 長期予測において最先端の性能を達成した。
環境不整合の条件として,クロスドメインとクロスコンテキストの2つを検討した。
我々は,クロスドメイン問題を軽減するための有望な方向を提案し,そのような方向を支持する具体的な証拠を提供する。
- 参考スコア(独自算出の注目度): 11.098106893018302
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dynamics prediction, which is the problem of predicting future states of
scene objects based on current and prior states, is drawing increasing
attention as an instance of learning physics. To solve this problem, Region
Proposal Convolutional Interaction Network (RPCIN), a vision-based model, was
proposed and achieved state-of-the-art performance in long-term prediction.
RPCIN only takes raw images and simple object descriptions, such as the
bounding box and segmentation mask of each object, as input. However, despite
its success, the model's capability can be compromised under conditions of
environment misalignment. In this paper, we investigate two challenging
conditions for environment misalignment: Cross-Domain and Cross-Context by
proposing four datasets that are designed for these challenges: SimB-Border,
SimB-Split, BlenB-Border, and BlenB-Split. The datasets cover two domains and
two contexts. Using RPCIN as a probe, experiments conducted on the combinations
of the proposed datasets reveal potential weaknesses of the vision-based
long-term dynamics prediction model. Furthermore, we propose a promising
direction to mitigate the Cross-Domain challenge and provide concrete evidence
supporting such a direction, which provides dramatic alleviation of the
challenge on the proposed datasets.
- Abstract(参考訳): 現在およびそれ以前の状態に基づいてシーンオブジェクトの将来の状態を予測する問題であるダイナミクス予測は、物理学習の例として注目されている。
この問題を解決するために,視覚モデルである地域提案畳み込みインタラクションネットワーク(rpcin)を提案し,長期予測において最先端の性能を達成した。
RPCINは、各オブジェクトのバウンディングボックスやセグメンテーションマスクなど、生の画像と単純なオブジェクト記述のみを入力として取ります。
しかし、その成功にもかかわらず、モデルの性能は環境不整合の条件下で損なわれる可能性がある。
本稿では,これらの課題に対して,SimB-Border,SimB-Split,BlenB-Border,BlenB-Splitの4つのデータセットを提案することで,環境不整合に関する2つの課題について検討する。
データセットは2つのドメインと2つのコンテキストをカバーする。
RPCINをプローブとして、提案したデータセットの組み合わせによる実験により、視覚に基づく長期力学予測モデルの潜在的な弱点が明らかになった。
さらに,提案するデータに対する課題を劇的な緩和として,クロスドメインの課題を軽減し,その方向性を裏付ける具体的な証拠を提供する有望な方向性を提案する。
関連論文リスト
- An Investigation on The Position Encoding in Vision-Based Dynamics Prediction [19.700374722227107]
RGB画像と単純なオブジェクト記述を利用してオブジェクト状態を予測するビジョンベースの動的予測モデルは、環境のミスアライメントによって挑戦された。
本稿では,出力特徴を抽象化するオブジェクトとしてバウンディングボックスを用いて位置情報を符号化するプロセスと必要な条件について検討する。
論文 参考訳(メタデータ) (2024-08-27T17:02:03Z) - Revisiting Generative Adversarial Networks for Binary Semantic
Segmentation on Imbalanced Datasets [20.538287907723713]
異常き裂領域検出は典型的なバイナリセマンティックセグメンテーションタスクであり、アルゴリズムによって舗装面画像上のひび割れを表す画素を自動的に検出することを目的としている。
既存のディープラーニングベースの手法は、特定の公共舗装のデータセットで優れた結果を得たが、不均衡なデータセットでは性能が劇的に低下する。
画素レベルの異常き裂領域検出タスクに対して,条件付き生成逆ネットワーク(cGAN)に基づくディープラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-03T19:24:40Z) - Pixel State Value Network for Combined Prediction and Planning in
Interactive Environments [9.117828575880303]
本研究は,予測と計画を組み合わせた深層学習手法を提案する。
U-Netアーキテクチャを持つ条件付きGANは、2つの高解像度画像シーケンスを予測するために訓練される。
結果は、対立する目的の中で車線の変化のような複雑な状況において直感的な行動を示す。
論文 参考訳(メタデータ) (2023-10-11T17:57:13Z) - Motion-Scenario Decoupling for Rat-Aware Video Position Prediction:
Strategy and Benchmark [49.58762201363483]
本研究では,個人や環境の影響要因を考慮し,生物ロボットの動き予測データセットであるRatPoseを紹介する。
本稿では,シナリオ指向とモーション指向を効果的に分離するDual-stream Motion-Scenario Decouplingフレームワークを提案する。
難易度が異なるタスクに対して,提案したtextitDMSD フレームワークの大幅な性能向上を示す。
論文 参考訳(メタデータ) (2023-05-17T14:14:31Z) - Predicting Future Occupancy Grids in Dynamic Environment with
Spatio-Temporal Learning [63.25627328308978]
本稿では,将来の占有予測を生成するための時間的予測ネットワークパイプラインを提案する。
現在のSOTAと比較して、我々の手法は3秒の長い水平線での占有を予測している。
我々は、さらなる研究を支援するために、nulisに基づくグリッド占有データセットを公開します。
論文 参考訳(メタデータ) (2022-05-06T13:45:32Z) - Joint Forecasting of Panoptic Segmentations with Difference Attention [72.03470153917189]
シーン内の全てのオブジェクトを共同で予測する新しいパノプティックセグメンテーション予測モデルについて検討する。
提案したモデルをCityscapesとAIODriveデータセット上で評価する。
論文 参考訳(メタデータ) (2022-04-14T17:59:32Z) - Handling Distribution Shifts on Graphs: An Invariance Perspective [78.31180235269035]
我々は、グラフ上のOOD問題を定式化し、新しい不変学習手法である探索・拡張リスク最小化(EERM)を開発する。
EERMは、複数の仮想環境からのリスクの分散を最大化するために、敵対的に訓練された複数のコンテキストエクスプローラーを利用する。
理論的に有効なOOD解の保証を示すことによって,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2022-02-05T02:31:01Z) - MUSE-VAE: Multi-Scale VAE for Environment-Aware Long Term Trajectory
Prediction [28.438787700968703]
条件付きMUSEは、現在の最先端技術と比較して、多様かつ同時に正確な予測を提供する。
我々は、新しい合成データセットであるPFSDと同様に、nuScenesとSDDベンチマークに関する包括的な実験を通してこれらのアサーションを実証する。
論文 参考訳(メタデータ) (2022-01-18T18:40:03Z) - Wide and Narrow: Video Prediction from Context and Motion [54.21624227408727]
本稿では,これらの相補的属性を統合し,深層ネットワークを通した複雑なピクセルのダイナミックスを予測するフレームワークを提案する。
本研究では,非局所的な近隣表現を集約し,過去のフレーム上の文脈情報を保存するグローバルなコンテキスト伝搬ネットワークを提案する。
また,移動オブジェクトの動作をメモリに格納することで,適応的なフィルタカーネルを生成するローカルフィルタメモリネットワークを考案した。
論文 参考訳(メタデータ) (2021-10-22T04:35:58Z) - PC-RGNN: Point Cloud Completion and Graph Neural Network for 3D Object
Detection [57.49788100647103]
LiDARベースの3Dオブジェクト検出は、自動運転にとって重要なタスクです。
現在のアプローチでは、遠方および閉ざされた物体の偏りと部分的な点雲に苦しむ。
本稿では,この課題を2つの解決法で解決する新しい二段階アプローチ,pc-rgnnを提案する。
論文 参考訳(メタデータ) (2020-12-18T18:06:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。