論文の概要: GeoDeformer: Geometric Deformable Transformer for Action Recognition
- arxiv url: http://arxiv.org/abs/2311.17975v1
- Date: Wed, 29 Nov 2023 16:55:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 19:11:55.355045
- Title: GeoDeformer: Geometric Deformable Transformer for Action Recognition
- Title(参考訳): GeoDeformer: アクション認識のための幾何学的変形可能な変換器
- Authors: Jinhui Ye, Jiaming Zhou, Hui Xiong, Junwei Liang
- Abstract要約: 視覚トランスフォーマーは、近年、行動認識のための畳み込みネットワークの効果的な代替品として登場した。
本稿では,幾何学的理解を直接ViTアーキテクチャに組み込むことで,アクションビデオに固有の変動を捉えるための新しいアプローチであるGeoDeformerを提案する。
- 参考スコア(独自算出の注目度): 22.536307401874105
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision transformers have recently emerged as an effective alternative to
convolutional networks for action recognition. However, vision transformers
still struggle with geometric variations prevalent in video data. This paper
proposes a novel approach, GeoDeformer, designed to capture the variations
inherent in action video by integrating geometric comprehension directly into
the ViT architecture. Specifically, at the core of GeoDeformer is the Geometric
Deformation Predictor, a module designed to identify and quantify potential
spatial and temporal geometric deformations within the given video. Spatial
deformations adjust the geometry within individual frames, while temporal
deformations capture the cross-frame geometric dynamics, reflecting motion and
temporal progression. To demonstrate the effectiveness of our approach, we
incorporate it into the established MViTv2 framework, replacing the standard
self-attention blocks with GeoDeformer blocks. Our experiments at UCF101,
HMDB51, and Mini-K200 achieve significant increases in both Top-1 and Top-5
accuracy, establishing new state-of-the-art results with only a marginal
increase in computational cost. Additionally, visualizations affirm that
GeoDeformer effectively manifests explicit geometric deformations and minimizes
geometric variations. Codes and checkpoints will be released.
- Abstract(参考訳): 視覚トランスフォーマーは、行動認識のための畳み込みネットワークの効果的な代替として最近登場した。
しかし、視覚トランスフォーマーは未だにビデオデータに共通する幾何学的変化に苦しむ。
本稿では,幾何学的理解を直接ViTアーキテクチャに組み込むことで,アクションビデオに固有の変動を捉えるための新しいアプローチであるGeoDeformerを提案する。
特に、geodeformerの中核は、与えられたビデオ内の潜在的な空間的および時間的幾何学的変形を識別および定量化するために設計された幾何変形予測モジュールである。
空間的変形は個々のフレーム内の幾何学を調整し、時間的変形はフレーム間の幾何学的ダイナミクスを捉え、動きと時間的進行を反映する。
提案手法の有効性を示すため,既存のMViTv2フレームワークに組み込んで,標準の自己注意ブロックをGeoDeformerブロックに置き換えた。
UCF101, HMDB51, Mini-K200 における実験により,Top-1 と Top-5 の精度が大幅に向上し,計算コストが極端に増大した新しい最先端結果が得られた。
さらに、可視化はジオデフォーマーが明示的な幾何学的変形を効果的に示し、幾何学的変化を最小化することを示す。
コードとチェックポイントがリリースされます。
関連論文リスト
- Curve Your Attention: Mixed-Curvature Transformers for Graph
Representation Learning [77.1421343649344]
本稿では,一定曲率空間の積を完全に操作するトランスフォーマーの一般化を提案する。
また、非ユークリッド注意に対するカーネル化されたアプローチを提供し、ノード数とエッジ数に線形に時間とメモリコストでモデルを実行できるようにします。
論文 参考訳(メタデータ) (2023-09-08T02:44:37Z) - Learning Modulated Transformation in GANs [69.95217723100413]
生成逆数ネットワーク(GAN)のジェネレータに、変調変換モジュール(Modulated transformation module, MTM)と呼ばれるプラグアンドプレイモジュールを装備する。
MTMは、可変位置で畳み込み操作を適用可能な潜在符号の制御下で空間オフセットを予測する。
挑戦的なTaiChiデータセット上での人為的な生成に向けて、StyleGAN3のFIDを21.36から13.60に改善し、変調幾何変換の学習の有効性を実証した。
論文 参考訳(メタデータ) (2023-08-29T17:51:22Z) - Learning Transformations To Reduce the Geometric Shift in Object
Detection [60.20931827772482]
画像キャプチャプロセスの変動から生じる幾何シフトに対処する。
我々は、これらのシフトを最小限に抑えるために幾何変換の集合を学習する自己学習アプローチを導入する。
我々は,カメラの視野変化(FoV)と視点変化(視点変化)の2つの異なるシフトについて,本手法の評価を行った。
論文 参考訳(メタデータ) (2023-01-13T11:55:30Z) - Geo-SIC: Learning Deformable Geometric Shapes in Deep Image Classifiers [8.781861951759948]
本稿では,画像分類の性能向上のために,変形空間における変形可能な形状を学習する最初のディープラーニングモデルGeo-SICを提案する。
画像空間と潜時形状空間の両方から特徴を同時に導出する,クラス内変動の大きい新設計のフレームワークを提案する。
幾何学的形状表現の教師なし学習を取り入れた強化型分類網を開発した。
論文 参考訳(メタデータ) (2022-10-25T01:55:17Z) - Surface Vision Transformers: Attention-Based Modelling applied to
Cortical Analysis [8.20832544370228]
球面多様体上に投影された任意の曲面データを研究するために、ドメインに依存しないアーキテクチャを導入する。
ビジョントランスモデルは、連続したマルチヘッド自己アテンション層を介してパッチのシーケンスを符号化する。
実験の結果、SiTは一般的に表面CNNよりも優れており、登録データと未登録データで比較可能であることがわかった。
論文 参考訳(メタデータ) (2022-03-30T15:56:11Z) - 3D Unsupervised Region-Aware Registration Transformer [13.137287695912633]
ディープニューラルネットワークによるロバストポイントクラウド登録モデルを学習することが、強力なパラダイムとして浮上した。
自己教師型3次元形状再構成損失を伴って入力形状を異なる領域に分割できる3次元領域分割モジュールの設計を提案する。
実験により,我々の3D-URRTは,様々なベンチマークデータセットよりも優れた登録性能が得られることが示された。
論文 参考訳(メタデータ) (2021-10-07T15:06:52Z) - Self-supervised Geometric Perception [96.89966337518854]
自己教師付き幾何知覚(self-supervised geometric perception)は、基底幾何モデルラベルなしで対応マッチングのための特徴記述子を学ぶためのフレームワークである。
また,SGPは,地上トラスラベルを用いて訓練した教師付きオークルよりも同等か優れる最先端性能を達成できることを示す。
論文 参考訳(メタデータ) (2021-03-04T15:34:43Z) - ResNet-LDDMM: Advancing the LDDMM Framework Using Deep Residual Networks [86.37110868126548]
本研究では,eulerの離散化スキームに基づく非定常ode(フロー方程式)の解法として,深層残留ニューラルネットワークを用いた。
複雑なトポロジー保存変換の下での3次元形状の多種多様な登録問題について述べる。
論文 参考訳(メタデータ) (2021-02-16T04:07:13Z) - DSG-Net: Learning Disentangled Structure and Geometry for 3D Shape
Generation [98.96086261213578]
DSG-Netは3次元形状の非交叉構造と幾何学的メッシュ表現を学習するディープニューラルネットワークである。
これは、幾何(構造)を不変に保ちながら構造(幾何学)のような不整合制御を持つ新しい形状生成アプリケーションの範囲をサポートする。
本手法は,制御可能な生成アプリケーションだけでなく,高品質な合成形状を生成できる。
論文 参考訳(メタデータ) (2020-08-12T17:06:51Z) - Topology-Change-Aware Volumetric Fusion for Dynamic Scene Reconstruction [17.25683962105958]
トポロジー変化は動的シーンの4次元再構成において難しい問題である。
本稿では、トポロジ変化下での動的シーンの4次元再構成を可能にするために、古典的なフレームワークを再設計する。
論文 参考訳(メタデータ) (2020-07-14T07:04:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。