論文の概要: How to track your dragon: A Multi-Attentional Framework for real-time
RGB-D 6-DOF Object Pose Tracking
- arxiv url: http://arxiv.org/abs/2004.10335v3
- Date: Tue, 15 Sep 2020 11:33:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-11 07:14:02.276526
- Title: How to track your dragon: A Multi-Attentional Framework for real-time
RGB-D 6-DOF Object Pose Tracking
- Title(参考訳): ドラゴンの追跡方法:リアルタイムRGB-D 6-DOFオブジェクト追跡のためのマルチアテンショナルフレームワーク
- Authors: Isidoros Marougkas, Petros Koutras, Nikos Kardaris, Georgios Retsinas,
Georgia Chalvatzaki, and Petros Maragos
- Abstract要約: 本稿では,リアルタイムRGB-D 6Dオブジェクトのポーズトラッキング問題に対処するために,新しい多目的畳み込みアーキテクチャを提案する。
物体の3次元モデルとポーズ空間の両方の特別な幾何学的性質を考察し、トレーニング中のデータ拡張により洗練されたアプローチを用いる。
- 参考スコア(独自算出の注目度): 35.21561169636035
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a novel multi-attentional convolutional architecture to tackle the
problem of real-time RGB-D 6D object pose tracking of single, known objects.
Such a problem poses multiple challenges originating both from the objects'
nature and their interaction with their environment, which previous approaches
have failed to fully address. The proposed framework encapsulates methods for
background clutter and occlusion handling by integrating multiple parallel soft
spatial attention modules into a multitask Convolutional Neural Network (CNN)
architecture. Moreover, we consider the special geometrical properties of both
the object's 3D model and the pose space, and we use a more sophisticated
approach for data augmentation during training. The provided experimental
results confirm the effectiveness of the proposed multi-attentional
architecture, as it improves the State-of-the-Art (SoA) tracking performance by
an average score of 34.03% for translation and 40.01% for rotation, when tested
on the most complete dataset designed, up to date,for the problem of RGB-D
object tracking.
- Abstract(参考訳): 本稿では,実時間rgb-d 6dオブジェクトポーズ追跡問題に取り組むための,新しいマルチタッチ畳み込みアーキテクチャを提案する。
このような問題は、オブジェクトの性質と、それ以前のアプローチが完全に対処できなかった環境との相互作用の両方から生じる複数の課題を引き起こす。
提案フレームワークは,マルチタスク畳み込みニューラルネットワーク(CNN)アーキテクチャに複数のソフト空間アテンションモジュールを統合することで,背景クラッタとオクルージョン処理の手法をカプセル化する。
さらに、物体の3次元モデルとポーズ空間の両方の特殊幾何学的性質を考察し、トレーニング中にデータ拡張のためにより洗練されたアプローチを用いる。
提案したマルチアテンショナルアーキテクチャの有効性は,RGB-Dオブジェクトトラッキングの問題に対して,これまで設計された最も完全なデータセット上でテストされた場合,平均34.03%,回転40.01%のスコアで,SoA(State-of-the-Art)トラッキング性能を向上させることによって確認された。
関連論文リスト
- SEMPose: A Single End-to-end Network for Multi-object Pose Estimation [13.131534219937533]
SEMPoseは、エンドツーエンドの多目的ポーズ推定ネットワークである。
RGB画像以外の入力を必要とせずに32FPSで推論を行うことができる。
複数のオブジェクトのポーズをリアルタイムで正確に推定でき、対象オブジェクトの数の影響を受けない推論時間に影響を及ぼす。
論文 参考訳(メタデータ) (2024-11-21T10:37:54Z) - Gr-IoU: Ground-Intersection over Union for Robust Multi-Object Tracking with 3D Geometric Constraints [3.2855317710497625]
Gr-IoUは、従来の境界ボックスを画像空間から、消滅点幾何学を用いて地上面に変換する。
これらの変換されたバウンディングボックスで計算されたIoUは、オブジェクトの前後の関係により敏感である。
各種追跡シナリオを含むMOT17およびMOT20データセットを用いてGr-IoU法の評価を行った。
論文 参考訳(メタデータ) (2024-09-05T05:09:03Z) - PoIFusion: Multi-Modal 3D Object Detection via Fusion at Points of Interest [65.48057241587398]
PoIFusionは、関心点(PoIs)におけるRGBイメージとLiDARポイントクラウドに関する情報を融合するフレームワークである。
提案手法は,各モダリティの視点を維持し,計算にやさしいプロジェクションと計算によってマルチモーダル特徴を得る。
我々はnuScenesとArgoverse2データセットについて広範囲に実験を行い、我々のアプローチを評価した。
論文 参考訳(メタデータ) (2024-03-14T09:28:12Z) - BundleSDF: Neural 6-DoF Tracking and 3D Reconstruction of Unknown
Objects [89.2314092102403]
モノクロRGBDビデオシーケンスから未知物体の6-DoF追跡をリアルタイムに行う手法を提案する。
視覚的テクスチャがほとんど欠如している場合でも,任意の剛体オブジェクトに対して有効である。
論文 参考訳(メタデータ) (2023-03-24T17:13:49Z) - DETR4D: Direct Multi-View 3D Object Detection with Sparse Attention [50.11672196146829]
サラウンドビュー画像を用いた3次元物体検出は、自動運転にとって必須の課題である。
マルチビュー画像における3次元オブジェクト検出のためのスパースアテンションと直接特徴クエリを探索するトランスフォーマーベースのフレームワークであるDETR4Dを提案する。
論文 参考訳(メタデータ) (2022-12-15T14:18:47Z) - 3D Multi-Object Tracking with Differentiable Pose Estimation [0.0]
室内環境におけるRGB-Dシーケンスからの3次元多対象追跡と再構成のための新しい手法を提案する。
我々は、これらの対応を利用してグラフニューラルネットワークに通知し、すべてのオブジェクトの最適かつ時間的に一貫性のある7-DoFポーズトラジェクトリを解決する。
本手法は,既存の最先端手法に比べて,すべてのテストシーケンスに対して蓄積したMOTAスコアを24.8%向上させる。
論文 参考訳(メタデータ) (2022-06-28T06:46:32Z) - Learnable Online Graph Representations for 3D Multi-Object Tracking [156.58876381318402]
3D MOT問題に対する統一型学習型アプローチを提案します。
我々は、完全にトレーニング可能なデータアソシエーションにNeural Message Passing Networkを使用します。
AMOTAの65.6%の最先端性能と58%のIDスウィッチを達成して、公開可能なnuScenesデータセットに対する提案手法のメリットを示す。
論文 参考訳(メタデータ) (2021-04-23T17:59:28Z) - Monocular Quasi-Dense 3D Object Tracking [99.51683944057191]
周囲の物体の将来の位置を予測し、自律運転などの多くのアプリケーションで観測者の行動を計画するためには、信頼性と正確な3D追跡フレームワークが不可欠である。
移動プラットフォーム上で撮影された2次元画像のシーケンスから,移動物体を時間とともに効果的に関連付け,その全3次元バウンディングボックス情報を推定するフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-12T15:30:02Z) - Seeing Behind Objects for 3D Multi-Object Tracking in RGB-D Sequences [46.65702220573459]
物体の完全な幾何学と追跡を推測し、時間とともに厳格に動く物体を追尾する。
RGB-Dフレームのシーケンスから、各フレーム内のオブジェクトを検出し、その完全なオブジェクト形状を予測することを学ぶ。
合成データと実世界のrgb-dデータの両方における実験により,動的物体追跡における最先端の性能が得られた。
論文 参考訳(メタデータ) (2020-12-15T10:33:21Z) - Relation3DMOT: Exploiting Deep Affinity for 3D Multi-Object Tracking
from View Aggregation [8.854112907350624]
3Dマルチオブジェクトトラッキングは、自律ナビゲーションにおいて重要な役割を果たす。
多くのアプローチでは、トラッキングのための2次元RGBシーケンス内のオブジェクトを検出するが、これは3次元空間内のオブジェクトをローカライズする際の信頼性の欠如である。
本稿では,隣接フレーム内の各オブジェクト間の相関をよりよく活用するために,RelationConvという新しい畳み込み演算を提案する。
論文 参考訳(メタデータ) (2020-11-25T16:14:40Z) - Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。
従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。
我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。
これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文 参考訳(メタデータ) (2020-08-31T17:10:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。