論文の概要: Cross-Modal Learning with 3D Deformable Attention for Action Recognition
- arxiv url: http://arxiv.org/abs/2212.05638v3
- Date: Thu, 17 Aug 2023 07:23:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 00:57:10.064264
- Title: Cross-Modal Learning with 3D Deformable Attention for Action Recognition
- Title(参考訳): 動作認識のための3次元変形注意を用いたクロスモーダル学習
- Authors: Sangwon Kim and Dasom Ahn and Byoung Chul Ko
- Abstract要約: 本稿では,適応的な注意場を持つ行動認識のための新しい3次元変形可能な変換器と時間的学習方式を提案する。
提案した3次元変形可能な変圧器が試験された。
60,.120 FineGYM と PennActionAction のデータセットは、事前訓練された最先端手法よりも良い結果を示した。
- 参考スコア(独自算出の注目度): 4.128256616073278
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: An important challenge in vision-based action recognition is the embedding of
spatiotemporal features with two or more heterogeneous modalities into a single
feature. In this study, we propose a new 3D deformable transformer for action
recognition with adaptive spatiotemporal receptive fields and a cross-modal
learning scheme. The 3D deformable transformer consists of three attention
modules: 3D deformability, local joint stride, and temporal stride attention.
The two cross-modal tokens are input into the 3D deformable attention module to
create a cross-attention token with a reflected spatiotemporal correlation.
Local joint stride attention is applied to spatially combine attention and pose
tokens. Temporal stride attention temporally reduces the number of input tokens
in the attention module and supports temporal expression learning without the
simultaneous use of all tokens. The deformable transformer iterates L-times and
combines the last cross-modal token for classification. The proposed 3D
deformable transformer was tested on the NTU60, NTU120, FineGYM, and PennAction
datasets, and showed results better than or similar to pre-trained
state-of-the-art methods even without a pre-training process. In addition, by
visualizing important joints and correlations during action recognition through
spatial joint and temporal stride attention, the possibility of achieving an
explainable potential for action recognition is presented.
- Abstract(参考訳): 視覚に基づく行動認識における重要な課題は、時空間的特徴を2つ以上の不均一なモダリティを1つの特徴に埋め込むことである。
本研究では,適応時空間受容場とクロスモーダル学習方式を用いた行動認識のための新しい3次元変形型トランスを提案する。
3次元変形可能な変圧器は、3次元変形性、局所的な関節ストライド、時間的ストライドアテンションの3つのアテンションモジュールから構成される。
2つのクロスモーダルトークンは、3D変形可能なアテンションモジュールに入力され、反射時空間相関を持つクロスアテンショントークンを生成する。
局所的なストライドアテンションは、注意を空間的に組み合わせ、トークンをポーズさせる。
時間的ストライドアテンションは、アテンションモジュール内の入力トークン数を時間的に減少させ、すべてのトークンを同時に使用せずに時間的表現学習をサポートする。
変形可能な変換器はL時間を繰り返し、分類のための最後のクロスモーダルトークンを組み合わせる。
提案した3DデフォルマブルトランスはNTU60, NTU120, FineGYM, PennActionのデータセットでテストされ, 事前学習プロセスなしでも, 先行訓練された最先端手法よりも優れた結果が得られた。
また、空間的関節および時間的ストライド注意による行動認識における重要な関節と相関を可視化することにより、行動認識のための説明可能なポテンシャルを達成する可能性を示す。
関連論文リスト
- Multi-view Action Recognition via Directed Gromov-Wasserstein Discrepancy [12.257725479880458]
行動認識はコンピュータビジョンにおける人気のある研究トピックの1つとなっている。
本稿では,アクションビデオの2つの異なる視点から2つの注意の類似性を計算する多視点アテンション整合性手法を提案する。
我々のアプローチでは、単一ビューデータセットのトレーニングにおいて、新しいビューからの機能を暗黙的にレンダリングするために、Neural Radiance Fieldというアイデアを適用しています。
論文 参考訳(メタデータ) (2024-05-02T14:43:21Z) - Cohere3D: Exploiting Temporal Coherence for Unsupervised Representation
Learning of Vision-based Autonomous Driving [73.3702076688159]
本稿では,コヒーレントなインスタンス表現を長期入力シーケンスで学習するための,新しいコントラスト学習アルゴリズムであるCohere3Dを提案する。
我々は,様々な下流認識,予測,計画タスクにおいて,事前学習したモデルを微調整することにより,アルゴリズムを評価する。
論文 参考訳(メタデータ) (2024-02-23T19:43:01Z) - EmMixformer: Mix transformer for eye movement recognition [43.75206776070943]
本研究では,眼球運動認識のための時間領域情報と周波数領域情報を抽出するEmMixformerという混合変換器を提案する。
我々は,眼球運動の長期的依存を学習するためにトランスフォーマーを活用する試みを初めて行った。
3つのモジュールは局所的およびグローバルな依存関係の観点から補完的な特徴表現を提供するため、提案したEmMixformerは認識精度を向上させることができる。
論文 参考訳(メタデータ) (2024-01-10T06:45:37Z) - Cross-BERT for Point Cloud Pretraining [61.762046503448936]
我々はクロスモーダルなBERTスタイルの自己教師型学習パラダイムであるCross-BERTを提案する。
不規則な点雲とスパースな点雲の事前訓練を容易にするために,2つの自己教師型タスクを設計し,相互モーダル相互作用を促進させる。
本研究は,3Dポイントクラウド表現の強化とBERTのモダリティ間の伝達能力を高めるために,クロスモーダルな2D知識を活用することの有効性を強調した。
論文 参考訳(メタデータ) (2023-12-08T08:18:12Z) - Modeling Continuous Motion for 3D Point Cloud Object Tracking [54.48716096286417]
本稿では,各トラックレットを連続ストリームとみなす新しいアプローチを提案する。
各タイムスタンプでは、現在のフレームだけがネットワークに送られ、メモリバンクに格納された複数フレームの履歴機能と相互作用する。
頑健な追跡のためのマルチフレーム機能の利用性を高めるために,コントラッシブシーケンス強化戦略を提案する。
論文 参考訳(メタデータ) (2023-03-14T02:58:27Z) - Ret3D: Rethinking Object Relations for Efficient 3D Object Detection in
Driving Scenes [82.4186966781934]
Ret3Dと呼ばれるシンプルで効率的で効果的な2段階検出器を導入する。
Ret3Dの中核は、新しいフレーム内およびフレーム間関係モジュールの利用である。
無視できる余分なオーバーヘッドにより、Ret3Dは最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-08-18T03:48:58Z) - Points to Patches: Enabling the Use of Self-Attention for 3D Shape
Recognition [19.89482062012177]
本稿では,局所的およびグローバルな注意機構を組み合わせた2段階のPoint Transformer-in-Transformer(Point-TnT)アプローチを提案する。
形状分類の実験では、このようなアプローチは、ベースライントランスフォーマーよりも下流タスクに有用な機能を提供している。
また,シーン再構築のための特徴マッチングに拡張し,既存のシーン再構築パイプラインと組み合わせて使用できることを示す。
論文 参考訳(メタデータ) (2022-04-08T09:31:24Z) - LocATe: End-to-end Localization of Actions in 3D with Transformers [91.28982770522329]
LocATeは、3Dシーケンスでアクションを共同でローカライズし認識するエンドツーエンドのアプローチである。
画像やパッチの特徴を入力として考えるトランスフォーマーベースのオブジェクト検出や分類モデルとは異なり、LocATeのトランスフォーマーモデルはシーケンス内のアクション間の長期的な相関をキャプチャすることができる。
BABEL-TAL-20 (BT20) という新しい,挑戦的で,より現実的なベンチマークデータセットを導入する。
論文 参考訳(メタデータ) (2022-03-21T03:35:32Z) - Ripple Attention for Visual Perception with Sub-quadratic Complexity [7.425337104538644]
トランスフォーマーアーキテクチャは現在、自然言語処理タスクのモデリングの中心となっている。
視覚知覚のためのサブクワッドアテンション機構であるリップルアテンションを提案する。
ripple attentionでは、クエリに対する異なるトークンのコントリビューションは、2次元空間における相対空間距離に対して重み付けされる。
論文 参考訳(メタデータ) (2021-10-06T02:00:38Z) - Multi-Temporal Convolutions for Human Action Recognition in Videos [83.43682368129072]
複数の解像度で抽出できる新しい時間・時間的畳み込みブロックを提案する。
提案するブロックは軽量で,任意の3D-CNNアーキテクチャに統合可能である。
論文 参考訳(メタデータ) (2020-11-08T10:40:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。