論文の概要: PolarMOT: How Far Can Geometric Relations Take Us in 3D Multi-Object
Tracking?
- arxiv url: http://arxiv.org/abs/2208.01957v1
- Date: Wed, 3 Aug 2022 10:06:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-04 13:16:34.304910
- Title: PolarMOT: How Far Can Geometric Relations Take Us in 3D Multi-Object
Tracking?
- Title(参考訳): polarmot: 幾何学的関係が3dマルチオブジェクト追跡にどの程度役立つか?
- Authors: Aleksandr Kim (1), Guillem Bras\'o (1), Aljo\v{s}a O\v{s}ep (1), Laura
Leal-Taix\'e (1) ((1) Technical University of Munich)
- Abstract要約: グラフのノードとして3D検出を符号化し、グラフエッジ上の局所極座標を用いてオブジェクト間の空間的および時間的対関係を符号化する。
これにより、グラフニューラルネットワークは、時間的および空間的相互作用を効果的に符号化することができる。
我々はnuScenesデータセット上に新しい最先端のデータセットを構築し、さらに重要なことに、私たちの手法であるPolarMOTが、異なる場所にわたって驚くほどよく一般化されていることを示す。
- 参考スコア(独自算出の注目度): 62.997667081978825
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most (3D) multi-object tracking methods rely on appearance-based cues for
data association. By contrast, we investigate how far we can get by only
encoding geometric relationships between objects in 3D space as cues for
data-driven data association. We encode 3D detections as nodes in a graph,
where spatial and temporal pairwise relations among objects are encoded via
localized polar coordinates on graph edges. This representation makes our
geometric relations invariant to global transformations and smooth trajectory
changes, especially under non-holonomic motion. This allows our graph neural
network to learn to effectively encode temporal and spatial interactions and
fully leverage contextual and motion cues to obtain final scene interpretation
by posing data association as edge classification. We establish a new
state-of-the-art on nuScenes dataset and, more importantly, show that our
method, PolarMOT, generalizes remarkably well across different locations
(Boston, Singapore, Karlsruhe) and datasets (nuScenes and KITTI).
- Abstract(参考訳): ほとんどの(3d)マルチオブジェクト追跡手法は、データアソシエーションのための外観に基づくヒントに依存している。
対照的に, 3次元空間内の物体間の幾何学的関係をデータ駆動型データアソシエーションの手がかりとしてエンコードすることで, どこまで到達できるかを検討する。
グラフのノードとして3D検出を符号化し、グラフエッジ上の局所極座標を用いてオブジェクト間の空間的および時間的対関係を符号化する。
この表現は、我々の幾何学的関係を大域的な変換や滑らかな軌道変化、特に非ホロノミック運動に不変にする。
これにより、グラフニューラルネットワークは、時間的および空間的相互作用を効果的にエンコードし、文脈的および動き的手がかりを十分に活用し、エッジ分類としてデータアソシエーションをポーズすることで最終的なシーン解釈を得ることができる。
我々はnuScenesデータセット上に新たな最先端のデータセットを構築し、さらに重要なことは、私たちの手法であるPolarMOTが、Boston、シンガポール、カールスルーエ)とデータセット(nuScenes、KITTI)の異なる場所にわたって驚くほどよく一般化されていることを示している。
関連論文リスト
- Open-Vocabulary Octree-Graph for 3D Scene Understanding [54.11828083068082]
Octree-Graphはオープンな3Dシーン理解のための新しいシーン表現である。
セマンティクスを記憶し、その形状に応じてオブジェクトの占有度を調節するアダプティブ・オクツリー構造を開発する。
論文 参考訳(メタデータ) (2024-11-25T10:14:10Z) - Oriented-grid Encoder for 3D Implicit Representations [10.02138130221506]
本論文は,3次元幾何エンコーダの3次元特性を明示的に利用した最初のものである。
提案手法は,従来の手法と比較して最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-02-09T19:28:13Z) - STUPD: A Synthetic Dataset for Spatial and Temporal Relation Reasoning [4.676784872259775]
本稿では,英語の前置詞から得られる空間的関係を理解するための大規模ビデオデータセットを提案する。
データセットには150Kの視覚的描写(ビデオと画像)が含まれており、30の異なる空間的前置詞感覚で構成されている。
また,空間的関係に加えて,事象・時間的相互作用を描写したビデオからなる10の時間的関係にまたがる50Kの視覚的描写も提案する。
論文 参考訳(メタデータ) (2023-09-13T02:35:59Z) - 3DRP-Net: 3D Relative Position-aware Network for 3D Visual Grounding [58.924180772480504]
3Dビジュアルグラウンドは、自由形式の言語記述によって、ターゲットオブジェクトを3Dポイントクラウドにローカライズすることを目的としている。
3次元相対位置認識ネットワーク(3-Net)という,関係性を考慮した一段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-25T09:33:25Z) - SGAligner : 3D Scene Alignment with Scene Graphs [84.01002998166145]
3Dシーングラフの構築は、いくつかの具体的AIアプリケーションのためのシーン表現のトピックとして登場した。
オーバーラップ可能な3次元シーングラフのペアをゼロから部分的に整列させるという基本的な問題に着目する。
そこで我々はSGAlignerを提案する。SGAlignerは3次元シーングラフのペアを組合わせるための最初の方法であり、その組込みシナリオに対して堅牢である。
論文 参考訳(メタデータ) (2023-04-28T14:39:22Z) - Zero-shot point cloud segmentation by transferring geometric primitives [68.18710039217336]
ゼロショットポイントクラウドセマンティックセマンティックセマンティックセマンティクスについて検討し、そこではネットワークが見えないオブジェクトに対してトレーニングされ、見えないオブジェクトをセマンティクスできる。
本研究では,視覚的および視覚的カテゴリーのオブジェクトで共有される幾何学的プリミティブを学習し,言語と学習された幾何学的プリミティブとの微粒なアライメントを利用する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-18T15:06:54Z) - Rel3D: A Minimally Contrastive Benchmark for Grounding Spatial Relations
in 3D [71.11034329713058]
既存のデータセットには、大規模で高品質な3D地上真実情報がない。
Rel3Dは、空間関係を3Dでグラウンド化するための、最初の大規模で人間による注釈付きデータセットである。
我々は、データセットバイアスを減らすための新しいクラウドソーシング手法である、最小限のコントラストデータ収集を提案する。
論文 参考訳(メタデータ) (2020-12-03T01:51:56Z) - Joint Spatial-Temporal Optimization for Stereo 3D Object Tracking [34.40019455462043]
本研究では,空間時間最適化に基づくステレオ3次元物体追跡手法を提案する。
ネットワークから隣接画像上の対応する2Dバウンディングボックスを検出し,初期3Dバウンディングボックスを回帰する。
オブジェクトセントロイドに関連づけられた複雑なオブジェクトキューは、リージョンベースのネットワークを使用して予測される。
論文 参考訳(メタデータ) (2020-04-20T13:59:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。