論文の概要: LocATe: End-to-end Localization of Actions in 3D with Transformers
- arxiv url: http://arxiv.org/abs/2203.10719v1
- Date: Mon, 21 Mar 2022 03:35:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-22 14:27:39.149608
- Title: LocATe: End-to-end Localization of Actions in 3D with Transformers
- Title(参考訳): LocATe: トランスフォーマーを用いた3Dにおけるアクションのエンドツーエンドのローカライズ
- Authors: Jiankai Sun, Bolei Zhou, Michael J. Black, Arjun Chandrasekaran
- Abstract要約: LocATeは、3Dシーケンスでアクションを共同でローカライズし認識するエンドツーエンドのアプローチである。
画像やパッチの特徴を入力として考えるトランスフォーマーベースのオブジェクト検出や分類モデルとは異なり、LocATeのトランスフォーマーモデルはシーケンス内のアクション間の長期的な相関をキャプチャすることができる。
BABEL-TAL-20 (BT20) という新しい,挑戦的で,より現実的なベンチマークデータセットを導入する。
- 参考スコア(独自算出の注目度): 91.28982770522329
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding a person's behavior from their 3D motion is a fundamental
problem in computer vision with many applications. An important component of
this problem is 3D Temporal Action Localization (3D-TAL), which involves
recognizing what actions a person is performing, and when. State-of-the-art
3D-TAL methods employ a two-stage approach in which the action span detection
task and the action recognition task are implemented as a cascade. This
approach, however, limits the possibility of error-correction. In contrast, we
propose LocATe, an end-to-end approach that jointly localizes and recognizes
actions in a 3D sequence. Further, unlike existing autoregressive models that
focus on modeling the local context in a sequence, LocATe's transformer model
is capable of capturing long-term correlations between actions in a sequence.
Unlike transformer-based object-detection and classification models which
consider image or patch features as input, the input in 3D-TAL is a long
sequence of highly correlated frames. To handle the high-dimensional input, we
implement an effective input representation, and overcome the diffuse attention
across long time horizons by introducing sparse attention in the model. LocATe
outperforms previous approaches on the existing PKU-MMD 3D-TAL benchmark
(mAP=93.2%). Finally, we argue that benchmark datasets are most useful where
there is clear room for performance improvement. To that end, we introduce a
new, challenging, and more realistic benchmark dataset, BABEL-TAL-20 (BT20),
where the performance of state-of-the-art methods is significantly worse. The
dataset and code for the method will be available for research purposes.
- Abstract(参考訳): 人の動作を3Dモーションから理解することは、多くのアプリケーションでコンピュータビジョンの基本的な問題である。
この問題の重要な要素は、3次元の時間的行動の局所化(3d-tal)である。
最先端の3d-tal法は、動作スパン検出タスクと動作認識タスクをカスケードとして実装する2段階アプローチを採用している。
しかし、このアプローチはエラー訂正の可能性を制限する。
対照的にLocATeは3Dシーケンスのアクションを共同でローカライズし認識するエンドツーエンドアプローチである。
さらに、シーケンス内のローカルコンテキストのモデリングに重点を置く既存の自己回帰モデルとは異なり、LocATeのトランスフォーマーモデルはシーケンス内のアクション間の長期的な相関をキャプチャすることができる。
画像やパッチの特徴を入力として考えるトランスフォーマーベースのオブジェクト検出や分類モデルとは異なり、3D-TALの入力は高相関フレームの長いシーケンスである。
高次元入力を処理するために, 効果的な入力表現を実装し, モデルにばらばらな注意を導入することにより, 長時間の地平線を越えた拡散注意を克服する。
LocATeは、既存のPKU-MMD 3D-TALベンチマーク(mAP=93.2%)において、以前のアプローチよりも優れている。
最後に、ベンチマークデータセットは、パフォーマンス改善の余地が明確である場合に最も有用であると主張する。
そこで我々は,最先端手法の性能が著しく悪化するBABEL-TAL-20(BT20)という,新しい,挑戦的でより現実的なベンチマークデータセットを導入する。
このメソッドのデータセットとコードは、研究目的で利用できる。
関連論文リスト
- UPose3D: Uncertainty-Aware 3D Human Pose Estimation with Cross-View and Temporal Cues [55.69339788566899]
UPose3Dは多視点人間のポーズ推定のための新しいアプローチである。
直接的な3Dアノテーションを必要とせずに、堅牢性と柔軟性を向上させる。
論文 参考訳(メタデータ) (2024-04-23T00:18:00Z) - Modeling Continuous Motion for 3D Point Cloud Object Tracking [54.48716096286417]
本稿では,各トラックレットを連続ストリームとみなす新しいアプローチを提案する。
各タイムスタンプでは、現在のフレームだけがネットワークに送られ、メモリバンクに格納された複数フレームの履歴機能と相互作用する。
頑健な追跡のためのマルチフレーム機能の利用性を高めるために,コントラッシブシーケンス強化戦略を提案する。
論文 参考訳(メタデータ) (2023-03-14T02:58:27Z) - Exploring Optical-Flow-Guided Motion and Detection-Based Appearance for
Temporal Sentence Grounding [61.57847727651068]
テンポラルな文グラウンドディングは、与えられた文クエリに従って、意図しないビデオのターゲットセグメントをセマンティックにローカライズすることを目的としている。
これまでのほとんどの研究は、ビデオ全体のフレーム全体のフレームレベルの特徴を学習することに集中しており、それらをテキスト情報と直接一致させる。
我々は,光フロー誘導型モーションアウェア,検出ベース外観アウェア,3D認識オブジェクトレベル機能を備えた,動き誘導型3Dセマンティック推論ネットワーク(MA3SRN)を提案する。
論文 参考訳(メタデータ) (2022-03-06T13:57:09Z) - SRT3D: A Sparse Region-Based 3D Object Tracking Approach for the Real
World [10.029003607782878]
領域ベースの手法は、散らばったシーンにおけるテクスチャのない物体のモデルベースで単色な3D追跡において、ますます人気が高まっている。
しかし、ほとんどの手法は計算コストが高く、リアルタイムにかなりのリソースを必要とする。
SRT3Dは、この効率のギャップを埋める3Dオブジェクト追跡のためのスパース領域ベースのアプローチである。
論文 参考訳(メタデータ) (2021-10-25T07:58:18Z) - Improving 3D Object Detection with Channel-wise Transformer [58.668922561622466]
我々は手作りの最小限の設計で2段階の3Dオブジェクト検出フレームワーク(CT3D)を提案する。
CT3Dは、提案対応の埋め込みとチャンネルワイドコンテキストアグリゲーションを同時に行う。
これはKITTIテスト3D検出ベンチマークで中等車カテゴリーで81.77%のAPを達成した。
論文 参考訳(メタデータ) (2021-08-23T02:03:40Z) - Real-time Human Action Recognition Using Locally Aggregated
Kinematic-Guided Skeletonlet and Supervised Hashing-by-Analysis Model [30.435850177921086]
3次元動作認識には, 非常に複雑な調音, 大量のノイズ, 実装効率の低下という3つの問題がある。
本研究では,局所的に集約されたキネマティック誘導骨格 (LAKS) と教師付きハッシュ・バイ・アナリシス (SHA) モデルを組み合わせたリアルタイム3次元動作認識フレームワークを提案する。
MSRAction3D, UTKinectAction3DおよびFlorence3DActionデータセットの実験結果から, 提案手法は認識精度と実装効率の両方において最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2021-05-24T14:46:40Z) - Learnable Online Graph Representations for 3D Multi-Object Tracking [156.58876381318402]
3D MOT問題に対する統一型学習型アプローチを提案します。
我々は、完全にトレーニング可能なデータアソシエーションにNeural Message Passing Networkを使用します。
AMOTAの65.6%の最先端性能と58%のIDスウィッチを達成して、公開可能なnuScenesデータセットに対する提案手法のメリットを示す。
論文 参考訳(メタデータ) (2021-04-23T17:59:28Z) - Efficient Spatialtemporal Context Modeling for Action Recognition [42.30158166919919]
本稿では,アクション認識のための高密度長範囲コンテキスト情報映像をモデル化するためのRCCA-3Dモジュールを提案する。
我々は, 水平方向, 垂直方向, 深さの各時間における同一線上の点間の関係をモデル化し, 3次元クリスクロス構造を形成する。
非局所的な手法と比較して、RCCA-3DモジュールはビデオコンテキストモデリングにおいてパラメータとFLOPの数を25%と11%削減する。
論文 参考訳(メタデータ) (2021-03-20T14:48:12Z) - A two-stage data association approach for 3D Multi-object Tracking [0.0]
画像に基づくトラッキングを3D環境に適応させる2段階データアソシエーション手法を開発した。
提案手法は,NuScenes 検証セットにおいて0.587 AMOTA を達成し,データアソシエーションのための一段二部マッチングを用いてベースラインより優れる。
論文 参考訳(メタデータ) (2021-01-21T15:50:17Z) - Relation3DMOT: Exploiting Deep Affinity for 3D Multi-Object Tracking
from View Aggregation [8.854112907350624]
3Dマルチオブジェクトトラッキングは、自律ナビゲーションにおいて重要な役割を果たす。
多くのアプローチでは、トラッキングのための2次元RGBシーケンス内のオブジェクトを検出するが、これは3次元空間内のオブジェクトをローカライズする際の信頼性の欠如である。
本稿では,隣接フレーム内の各オブジェクト間の相関をよりよく活用するために,RelationConvという新しい畳み込み演算を提案する。
論文 参考訳(メタデータ) (2020-11-25T16:14:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。