論文の概要: VisionTrap: Vision-Augmented Trajectory Prediction Guided by Textual Descriptions
- arxiv url: http://arxiv.org/abs/2407.12345v1
- Date: Wed, 17 Jul 2024 06:39:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-18 18:17:30.639069
- Title: VisionTrap: Vision-Augmented Trajectory Prediction Guided by Textual Descriptions
- Title(参考訳): VisionTrap: テキスト記述でガイドされた視覚拡張軌道予測
- Authors: Seokha Moon, Hyun Woo, Hongbeen Park, Haeji Jung, Reza Mahjourian, Hyung-gun Chi, Hyerin Lim, Sangpil Kim, Jinkyu Kim,
- Abstract要約: 本研究では,サラウンドビューカメラからの視覚入力を取り入れた新しい手法を提案する。
提案手法は,53msのレイテンシを実現し,リアルタイム処理を実現する。
実験の結果,視覚入力とテキスト記述の両方が軌跡予測性能の向上に寄与していることがわかった。
- 参考スコア(独自算出の注目度): 10.748597086208145
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Predicting future trajectories for other road agents is an essential task for autonomous vehicles. Established trajectory prediction methods primarily use agent tracks generated by a detection and tracking system and HD map as inputs. In this work, we propose a novel method that also incorporates visual input from surround-view cameras, allowing the model to utilize visual cues such as human gazes and gestures, road conditions, vehicle turn signals, etc, which are typically hidden from the model in prior methods. Furthermore, we use textual descriptions generated by a Vision-Language Model (VLM) and refined by a Large Language Model (LLM) as supervision during training to guide the model on what to learn from the input data. Despite using these extra inputs, our method achieves a latency of 53 ms, making it feasible for real-time processing, which is significantly faster than that of previous single-agent prediction methods with similar performance. Our experiments show that both the visual inputs and the textual descriptions contribute to improvements in trajectory prediction performance, and our qualitative analysis highlights how the model is able to exploit these additional inputs. Lastly, in this work we create and release the nuScenes-Text dataset, which augments the established nuScenes dataset with rich textual annotations for every scene, demonstrating the positive impact of utilizing VLM on trajectory prediction. Our project page is at https://moonseokha.github.io/VisionTrap/
- Abstract(参考訳): 他の道路エージェントの将来の軌道予測は、自動運転車にとって重要な課題である。
確立された軌道予測法は、主に検出・追跡システムによって生成されたエージェントトラックとHDマップを入力として使用する。
そこで本研究では,人間の視線やジェスチャー,道路条件,車両の旋回信号などの視覚的手がかりを,従来手法ではモデルから隠蔽されるように,周辺視界カメラからの視覚的入力を取り入れた新しい手法を提案する。
さらに,VLM(Vision-Language Model)によって生成され,LLM(Large Language Model)によって改良されたテキスト記述を用いて,モデルが入力データから何を学習すべきかを指導する。
これらの余分な入力を用いても、53msのレイテンシを実現し、従来の単一エージェント予測手法よりも大幅に高速なリアルタイム処理を実現する。
実験により,視覚入力とテキスト記述の両方が軌跡予測性能の向上に寄与し,定性的解析により,モデルがこれらの追加入力をどのように活用できるかが明らかになった。
最後に、私たちはnuScenes-Textデータセットを作成し、リリースします。これは、確立したnuScenesデータセットを、すべてのシーンにリッチなテキストアノテーションで拡張します。
私たちのプロジェクトページはhttps://moonseokha.github.io/VisionTrap/です。
関連論文リスト
- Predicting Long-horizon Futures by Conditioning on Geometry and Time [49.86180975196375]
我々は,過去を前提とした将来のセンサ観測の課題を探求する。
マルチモーダリティを扱える画像拡散モデルの大規模事前学習を活用する。
我々は、屋内と屋外のシーンにまたがる多様なビデオのセットについて、ビデオ予測のためのベンチマークを作成する。
論文 参考訳(メタデータ) (2024-04-17T16:56:31Z) - Humanoid Locomotion as Next Token Prediction [84.21335675130021]
我々のモデルは感覚運動軌道の自己回帰予測によって訓練された因果変換器である。
われわれのモデルでは、フルサイズのヒューマノイドがサンフランシスコでゼロショットで歩けることが示されている。
われわれのモデルは、わずか27時間の歩行データで訓練された場合でも現実世界に移行でき、後方歩行のような訓練中に見えないコマンドを一般化することができる。
論文 参考訳(メタデータ) (2024-02-29T18:57:37Z) - What Makes Pre-Trained Visual Representations Successful for Robust
Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。
創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文 参考訳(メタデータ) (2023-11-03T18:09:08Z) - A Novel Deep Neural Network for Trajectory Prediction in Automated
Vehicles Using Velocity Vector Field [12.067838086415833]
本稿では,データ駆動学習に基づく手法と,自然に着想を得た概念から生成された速度ベクトル場(VVF)を組み合わせた軌道予測手法を提案する。
精度は、正確な軌道予測のための過去の観測の長い歴史の要求を緩和する観測窓の減少と一致している。
論文 参考訳(メタデータ) (2023-09-19T22:14:52Z) - Comparison of Pedestrian Prediction Models from Trajectory and
Appearance Data for Autonomous Driving [13.126949982768505]
歩行者の動きを予測できる能力は、自動運転車にとって重要な能力である。
都市環境では、歩行者は道路エリアに入り、運転のリスクが高い。
本研究は,歩行者予測のための軌跡のみと外観に基づく手法の比較評価を行う。
論文 参考訳(メタデータ) (2023-05-25T11:24:38Z) - Vehicle Trajectory Prediction on Highways Using Bird Eye View
Representations and Deep Learning [0.5420492913071214]
本研究では,効率的な鳥の視線表示と畳み込みニューラルネットワークを用いた高速道路シナリオにおける車両軌跡の予測手法を提案する。
U-netモデルは予測カーネルとして選択され、画像から画像への回帰アプローチを用いてシーンの将来の視覚表現を生成する。
生成したグラフィカル表現から車の位置を抽出してサブピクセル解像度を実現する手法が実装されている。
論文 参考訳(メタデータ) (2022-07-04T13:39:46Z) - PreViTS: Contrastive Pretraining with Video Tracking Supervision [53.73237606312024]
PreViTSは、同じオブジェクトを含むクリップを選択するための教師なしSSLフレームワークである。
PreViTSはフレーム領域を空間的に制約し、モデルから学習し、意味のあるオブジェクトを見つけるように訓練する。
モーメントコントラスト(MoCo)エンコーダを,PreViTSを用いてVGG-SoundとKinetics-400データセットでトレーニングする。
論文 参考訳(メタデータ) (2021-12-01T19:49:57Z) - Injecting Knowledge in Data-driven Vehicle Trajectory Predictors [82.91398970736391]
車両軌道予測タスクは、一般的に知識駆動とデータ駆動の2つの視点から取り組まれている。
本稿では,これら2つの視点を効果的に結合する「現実的残留ブロック」 (RRB) の学習を提案する。
提案手法は,残留範囲を限定し,その不確実性を考慮した現実的な予測を行う。
論文 参考訳(メタデータ) (2021-03-08T16:03:09Z) - The Importance of Balanced Data Sets: Analyzing a Vehicle Trajectory
Prediction Model based on Neural Networks and Distributed Representations [0.0]
車両軌道予測におけるトレーニングデータの構成について検討する。
本研究では, 意味ベクトル表現を用いたモデルが, 適切なデータセットで訓練した場合に, 数値モデルより優れていることを示す。
論文 参考訳(メタデータ) (2020-09-30T20:00:11Z) - AutoTrajectory: Label-free Trajectory Extraction and Prediction from
Videos using Dynamic Points [92.91569287889203]
軌道抽出と予測のための新しいラベルなしアルゴリズムAutoTrajectoryを提案する。
動画中の移動物体をよりよく捉えるために,ダイナミックポイントを導入する。
ビデオ内の歩行者などの移動物体を表すインスタンスポイントに動的ポイントを集約する。
論文 参考訳(メタデータ) (2020-07-11T08:43:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。