論文の概要: DeTra: A Unified Model for Object Detection and Trajectory Forecasting
- arxiv url: http://arxiv.org/abs/2406.04426v1
- Date: Thu, 6 Jun 2024 18:12:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-10 18:17:07.983766
- Title: DeTra: A Unified Model for Object Detection and Trajectory Forecasting
- Title(参考訳): DeTra: オブジェクト検出と軌道予測のための統一モデル
- Authors: Sergio Casas, Ben Agro, Jiageng Mao, Thomas Gilles, Alexander Cui, Thomas Li, Raquel Urtasun,
- Abstract要約: 提案手法は,2つのタスクの結合を軌道修正問題として定式化する。
この統合タスクに対処するために、オブジェクトの存在, ポーズ, マルチモーダルな将来の振る舞いを推測する精細化変換器を設計する。
実験では、我々のモデルはArgoverse 2 Sensor and Openデータセットの最先端性よりも優れています。
- 参考スコア(独自算出の注目度): 68.85128937305697
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The tasks of object detection and trajectory forecasting play a crucial role in understanding the scene for autonomous driving. These tasks are typically executed in a cascading manner, making them prone to compounding errors. Furthermore, there is usually a very thin interface between the two tasks, creating a lossy information bottleneck. To address these challenges, our approach formulates the union of the two tasks as a trajectory refinement problem, where the first pose is the detection (current time), and the subsequent poses are the waypoints of the multiple forecasts (future time). To tackle this unified task, we design a refinement transformer that infers the presence, pose, and multi-modal future behaviors of objects directly from LiDAR point clouds and high-definition maps. We call this model DeTra, short for object Detection and Trajectory forecasting. In our experiments, we observe that \ourmodel{} outperforms the state-of-the-art on Argoverse 2 Sensor and Waymo Open Dataset by a large margin, across a broad range of metrics. Last but not least, we perform extensive ablation studies that show the value of refinement for this task, that every proposed component contributes positively to its performance, and that key design choices were made.
- Abstract(参考訳): 物体検出と軌道予測のタスクは、自律運転のシーンを理解する上で重要な役割を果たす。
これらのタスクは典型的にはカスケード方式で実行され、エラーを複雑にする傾向がある。
さらに、通常は2つのタスクの間に非常に薄いインターフェースがあり、情報のボトルネックが失われます。
これらの課題に対処するため,本手法では,2つのタスクの結合を軌道修正問題として定式化し,第1のポーズが検出(現在時間)、続いて第2のポーズが複数の予測(未来時間)の経路ポイントとなる。
この統合タスクに対処するため、我々は、LiDAR点雲と高精細マップから直接オブジェクトの存在、ポーズ、マルチモーダルな将来の振る舞いを推測する精細化トランスフォーマーを設計する。
我々はこのモデルをデトラと呼び、オブジェクト検出と軌道予測を省略する。
実験では,Argoverse 2 Sensor と Waymo Open Dataset の最先端性能を,幅広い指標で比較した。
最後に、我々は、このタスクの洗練の価値、提案された全てのコンポーネントがそのパフォーマンスに肯定的な貢献をすることを示す広範囲なアブレーション研究を行い、重要な設計選択がなされた。
関連論文リスト
- Deciphering Movement: Unified Trajectory Generation Model for Multi-Agent [53.637837706712794]
任意の軌道をマスク入力として処理する統一軌道生成モデルUniTrajを提案する。
具体的には,空間特徴抽出のためのトランスフォーマーエンコーダ内に埋め込まれたゴースト空間マスキング(GSM)モジュールを導入する。
バスケットボール-U,サッカー-U,サッカー-Uの3つの実用的なスポーツゲームデータセットをベンチマークして評価を行った。
論文 参考訳(メタデータ) (2024-05-27T22:15:23Z) - Few-shot Oriented Object Detection with Memorable Contrastive Learning in Remote Sensing Images [11.217630579076237]
リモートセンシングの分野では、FSOD(Few-shot Object Detection)が注目されている。
本稿では,Few-shot Oriented Object Detection with Memorable Contrastive Learning (FOMC) という,リモートセンシングのための新しいFSOD法を提案する。
具体的には、従来の水平有界ボックスの代わりに指向的有界ボックスを用いて、任意指向の空中オブジェクトのより優れた特徴表現を学習する。
論文 参考訳(メタデータ) (2024-03-20T08:15:18Z) - TaskCLIP: Extend Large Vision-Language Model for Task Oriented Object
Detection [21.11998015053674]
タスク指向オブジェクト検出は、特定のタスクを達成するのに適したオブジェクトを見つけることを目的としている。
最近のソリューションは主にオールインワンモデルです。
汎用オブジェクト検出とタスク誘導オブジェクト選択からなるより自然な2段階設計であるTaskCLIPを提案する。
論文 参考訳(メタデータ) (2024-03-12T22:33:02Z) - Simultaneous Clutter Detection and Semantic Segmentation of Moving
Objects for Automotive Radar Data [12.96486891333286]
レーダセンサは、自動運転車の環境認識システムにおいて重要な部分である。
レーダーポイント雲の処理における最初のステップの1つは、しばしば乱れの検出である。
もう一つの一般的な目的は、移動道路利用者のセマンティックセグメンテーションである。
我々は,RadarScenesデータセットのセマンティックセマンティックセグメンテーションにおいて,我々の設定が極めて効果的であることを示し,既存のネットワークよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-11-13T11:29:38Z) - Tracking through Containers and Occluders in the Wild [32.86030395660071]
重い閉塞と封じ込めによる視覚追跡のための新しいベンチマークとモデルである$textbfTCOW$を紹介した。
我々は、教師付き学習とモデル性能の構造化評価の両方をサポートするために、合成データセットと注釈付き実データセットの混合を作成する。
最近の2つのトランスフォーマーベースビデオモデルを評価し,タスク変動の特定の設定下でターゲットを驚くほど追跡できるが,トラッキングモデルが真のオブジェクト永続性(permanence)の概念を獲得したと主張するまでには,かなりの性能差が残っていることを発見した。
論文 参考訳(メタデータ) (2023-05-04T17:59:58Z) - End-to-end Tracking with a Multi-query Transformer [96.13468602635082]
マルチオブジェクトトラッキング(MOT)は、時間とともにシーン内のオブジェクトの位置、外観、アイデンティティを同時に推論する必要がある課題である。
本研究の目的は、トラッキング・バイ・ディテクト・アプローチを超えて、未知のオブジェクト・クラスに対してもよく機能するクラスに依存しないトラッキングへと移行することである。
論文 参考訳(メタデータ) (2022-10-26T10:19:37Z) - Suspected Object Matters: Rethinking Model's Prediction for One-stage
Visual Grounding [93.82542533426766]
疑似オブジェクト間の対象オブジェクト選択を促進するため,疑似オブジェクト変換機構(SOT)を提案する。
SOTは既存のCNNとTransformerベースのワンステージ視覚グラウンドにシームレスに統合できる。
実験の結果,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-03-10T06:41:07Z) - SegTAD: Precise Temporal Action Detection via Semantic Segmentation [65.01826091117746]
意味的セグメンテーションの新しい視点で時間的行動検出のタスクを定式化する。
TADの1次元特性により、粗粒度検出アノテーションを細粒度セマンティックセマンティックアノテーションに無償で変換できる。
1Dセマンティックセグメンテーションネットワーク(1D-SSN)と提案検出ネットワーク(PDN)からなるエンドツーエンドフレームワークSegTADを提案する。
論文 参考訳(メタデータ) (2022-03-03T06:52:13Z) - FairMOT: On the Fairness of Detection and Re-Identification in Multiple
Object Tracking [92.48078680697311]
マルチオブジェクトトラッキング(MOT)はコンピュータビジョンにおいて重要な問題である。
本稿では,FairMOTと呼ばれる,アンカーフリーなオブジェクト検出アーキテクチャCenterNetをベースとした,シンプルかつ効果的なアプローチを提案する。
このアプローチは、検出と追跡の両方において高い精度を達成する。
論文 参考訳(メタデータ) (2020-04-04T08:18:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。