論文の概要: MoST: Multi-modality Scene Tokenization for Motion Prediction
- arxiv url: http://arxiv.org/abs/2404.19531v1
- Date: Tue, 30 Apr 2024 13:09:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-01 14:15:27.613525
- Title: MoST: Multi-modality Scene Tokenization for Motion Prediction
- Title(参考訳): MoST:モーション予測のためのマルチモーダルシーントークン化
- Authors: Norman Mu, Jingwei Ji, Zhenpei Yang, Nate Harada, Haotian Tang, Kan Chen, Charles R. Qi, Runzhou Ge, Kratarth Goel, Zoey Yang, Scott Ettinger, Rami Al-Rfou, Dragomir Anguelov, Yin Zhou,
- Abstract要約: 本稿では,視覚世界をシーン要素のコンパクトな集合にトークン化することを提案する。
次に、トレーニング済みの画像基盤モデルとLiDARニューラルネットワークを利用して、すべてのシーン要素をオープン語彙的にエンコードする。
提案した表現は,数百のトークンで多フレーム多モード観測を効率的に符号化することができる。
- 参考スコア(独自算出の注目度): 39.97334929667033
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many existing motion prediction approaches rely on symbolic perception outputs to generate agent trajectories, such as bounding boxes, road graph information and traffic lights. This symbolic representation is a high-level abstraction of the real world, which may render the motion prediction model vulnerable to perception errors (e.g., failures in detecting open-vocabulary obstacles) while missing salient information from the scene context (e.g., poor road conditions). An alternative paradigm is end-to-end learning from raw sensors. However, this approach suffers from the lack of interpretability and requires significantly more training resources. In this work, we propose tokenizing the visual world into a compact set of scene elements and then leveraging pre-trained image foundation models and LiDAR neural networks to encode all the scene elements in an open-vocabulary manner. The image foundation model enables our scene tokens to encode the general knowledge of the open world while the LiDAR neural network encodes geometry information. Our proposed representation can efficiently encode the multi-frame multi-modality observations with a few hundred tokens and is compatible with most transformer-based architectures. To evaluate our method, we have augmented Waymo Open Motion Dataset with camera embeddings. Experiments over Waymo Open Motion Dataset show that our approach leads to significant performance improvements over the state-of-the-art.
- Abstract(参考訳): 多くの既存の動き予測手法は、境界ボックス、道路グラフ情報、信号灯などのエージェントトラジェクトリを生成するために、象徴的な知覚出力に依存している。
このシンボル表現は現実世界の高レベルな抽象化であり、シーンコンテキスト(例えば道路条件の悪い場合)からの健全な情報を欠きながら、知覚誤差(例えば、開語彙障害の検出の失敗)に弱い動作予測モデルを描画することができる。
別のパラダイムは、生のセンサーからエンドツーエンドの学習である。
しかし、このアプローチは解釈可能性の欠如に悩まされ、さらに多くのトレーニングリソースを必要とします。
本研究では,視覚世界をコンパクトなシーン要素集合にトークン化し,事前学習された画像基盤モデルとLiDARニューラルネットワークを利用して,すべてのシーン要素をオープンな語彙でエンコードする手法を提案する。
画像基盤モデルにより、LiDARニューラルネットワークが幾何学情報を符号化している間に、シーントークンがオープン世界の一般的な知識を符号化することができる。
提案した表現は,数百個のトークンで多フレーム多モード観測を効率的に符号化することができ,ほとんどのトランスフォーマーアーキテクチャと互換性がある。
提案手法を評価するため,カメラを組み込んだWaymo Open Motion Datasetを構築した。
Waymo Open Motion Datasetに対する実験は、我々のアプローチが最先端技術よりも大幅なパフォーマンス改善をもたらすことを示している。
関連論文リスト
- VideoLLM-MoD: Efficient Video-Language Streaming with Mixture-of-Depths Vision Computation [66.00245701441547]
我々は、視覚トークンの数を減らさずに、冗長な視覚トークンを「スキップ層」として活用することで、視覚計算を減らし、新しいアプローチを導入する。
提案手法であるVideoLLM-MoDは深度混合LLMにインスパイアされ,長期・ストリーミングビデオにおける多数の視覚トークンの課題に対処する。
論文 参考訳(メタデータ) (2024-08-29T17:21:58Z) - uTRAND: Unsupervised Anomaly Detection in Traffic Trajectories [5.6328191854587395]
画素空間から意味トポロジ的領域へ異常軌道予測の問題をシフトさせる uTRAND というフレームワークを提案する。
実世界で収集された異常軌跡のデータセットにおいて,uTRANDが他の最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-19T08:46:33Z) - Any-point Trajectory Modeling for Policy Learning [64.23861308947852]
我々は、ビデオフレーム内の任意の点の将来の軌跡を予測するために、ATM(Any-point Trajectory Modeling)を導入する。
ATMは、強力なビデオ事前トレーニングベースラインを平均80%上回っている。
本研究では,人間の動画やビデオからの操作スキルを,異なるロボット形態から効果的に伝達する学習方法を示す。
論文 参考訳(メタデータ) (2023-12-28T23:34:43Z) - Factored Neural Representation for Scene Understanding [39.66967677639173]
本稿では,モノクラーRGB-Dビデオから直接学習して,オブジェクトレベルのニューラルプレゼンテーションを生成する,ファクタリングされたニューラルシーン表現を提案する。
我々は、合成データと実データの両方に対する一連のニューラルアプローチに対して、表現が効率的で、解釈可能で、編集可能であることを示す。
論文 参考訳(メタデータ) (2023-04-21T13:40:30Z) - Dynamic Spatial Sparsification for Efficient Vision Transformers and
Convolutional Neural Networks [88.77951448313486]
視覚データにおける空間空間空間性を利用したモデルアクセラレーションのための新しい手法を提案する。
本稿では,冗長トークンを具現化する動的トークンスペーシフィケーションフレームワークを提案する。
提案手法は,CNNや階層型視覚変換器などの階層モデルに拡張する。
論文 参考訳(メタデータ) (2022-07-04T17:00:51Z) - Wide and Narrow: Video Prediction from Context and Motion [54.21624227408727]
本稿では,これらの相補的属性を統合し,深層ネットワークを通した複雑なピクセルのダイナミックスを予測するフレームワークを提案する。
本研究では,非局所的な近隣表現を集約し,過去のフレーム上の文脈情報を保存するグローバルなコンテキスト伝搬ネットワークを提案する。
また,移動オブジェクトの動作をメモリに格納することで,適応的なフィルタカーネルを生成するローカルフィルタメモリネットワークを考案した。
論文 参考訳(メタデータ) (2021-10-22T04:35:58Z) - Leveraging Semantic Scene Characteristics and Multi-Stream Convolutional
Architectures in a Contextual Approach for Video-Based Visual Emotion
Recognition in the Wild [31.40575057347465]
私たちは、野生のビデオベースの視覚感情認識のタスクに取り組みます。
身体および顔の特徴の抽出のみに依存する標準的な方法論は、しばしば正確な感情予測に欠ける。
我々は、シーンの特徴や属性の形で視覚的コンテキストを活用することで、この問題を軽減することを目指している。
論文 参考訳(メタデータ) (2021-05-16T17:31:59Z) - Optical Flow Estimation from a Single Motion-blurred Image [66.2061278123057]
画像内の動きのぼかしは、基本的なコンピュータビジョンの問題に実用的な関心を持つ可能性があります。
本研究では,単一動画像からの光流れをエンドツーエンドで推定する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2021-03-04T12:45:18Z) - Contextual Encoder-Decoder Network for Visual Saliency Prediction [42.047816176307066]
本稿では,大規模な画像分類タスクに基づいて事前学習した畳み込みニューラルネットワークに基づくアプローチを提案する。
得られた表現をグローバルなシーン情報と組み合わせて視覚的サリエンシを正確に予測する。
最先端技術と比較して、このネットワークは軽量な画像分類バックボーンに基づいている。
論文 参考訳(メタデータ) (2019-02-18T16:15:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。