論文の概要: GeoDeformer: Geometric Deformable Transformer for Action Recognition
- arxiv url: http://arxiv.org/abs/2311.17975v1
- Date: Wed, 29 Nov 2023 16:55:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 19:11:55.355045
- Title: GeoDeformer: Geometric Deformable Transformer for Action Recognition
- Title(参考訳): GeoDeformer: アクション認識のための幾何学的変形可能な変換器
- Authors: Jinhui Ye, Jiaming Zhou, Hui Xiong, Junwei Liang
- Abstract要約: 視覚トランスフォーマーは、近年、行動認識のための畳み込みネットワークの効果的な代替品として登場した。
本稿では,幾何学的理解を直接ViTアーキテクチャに組み込むことで,アクションビデオに固有の変動を捉えるための新しいアプローチであるGeoDeformerを提案する。
- 参考スコア(独自算出の注目度): 22.536307401874105
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision transformers have recently emerged as an effective alternative to
convolutional networks for action recognition. However, vision transformers
still struggle with geometric variations prevalent in video data. This paper
proposes a novel approach, GeoDeformer, designed to capture the variations
inherent in action video by integrating geometric comprehension directly into
the ViT architecture. Specifically, at the core of GeoDeformer is the Geometric
Deformation Predictor, a module designed to identify and quantify potential
spatial and temporal geometric deformations within the given video. Spatial
deformations adjust the geometry within individual frames, while temporal
deformations capture the cross-frame geometric dynamics, reflecting motion and
temporal progression. To demonstrate the effectiveness of our approach, we
incorporate it into the established MViTv2 framework, replacing the standard
self-attention blocks with GeoDeformer blocks. Our experiments at UCF101,
HMDB51, and Mini-K200 achieve significant increases in both Top-1 and Top-5
accuracy, establishing new state-of-the-art results with only a marginal
increase in computational cost. Additionally, visualizations affirm that
GeoDeformer effectively manifests explicit geometric deformations and minimizes
geometric variations. Codes and checkpoints will be released.
- Abstract(参考訳): 視覚トランスフォーマーは、行動認識のための畳み込みネットワークの効果的な代替として最近登場した。
しかし、視覚トランスフォーマーは未だにビデオデータに共通する幾何学的変化に苦しむ。
本稿では,幾何学的理解を直接ViTアーキテクチャに組み込むことで,アクションビデオに固有の変動を捉えるための新しいアプローチであるGeoDeformerを提案する。
特に、geodeformerの中核は、与えられたビデオ内の潜在的な空間的および時間的幾何学的変形を識別および定量化するために設計された幾何変形予測モジュールである。
空間的変形は個々のフレーム内の幾何学を調整し、時間的変形はフレーム間の幾何学的ダイナミクスを捉え、動きと時間的進行を反映する。
提案手法の有効性を示すため,既存のMViTv2フレームワークに組み込んで,標準の自己注意ブロックをGeoDeformerブロックに置き換えた。
UCF101, HMDB51, Mini-K200 における実験により,Top-1 と Top-5 の精度が大幅に向上し,計算コストが極端に増大した新しい最先端結果が得られた。
さらに、可視化はジオデフォーマーが明示的な幾何学的変形を効果的に示し、幾何学的変化を最小化することを示す。
コードとチェックポイントがリリースされます。
関連論文リスト
- Bridging Geometric States via Geometric Diffusion Bridge [79.60212414973002]
本稿では,初期および対象の幾何状態を正確にブリッジする新しい生成モデリングフレームワークであるGeometric Diffusion Bridge (GDB)を紹介する。
GDBは、幾何学的状態の接続のためにDoobの$h$-transformの修正版から派生した同変拡散ブリッジを使用している。
我々はGDBが既存の最先端のアプローチを超越し、幾何学的状態を正確にブリッジするための新しい経路を開くことを示す。
論文 参考訳(メタデータ) (2024-10-31T17:59:53Z) - Boosting Cross-Domain Point Classification via Distilling Relational Priors from 2D Transformers [59.0181939916084]
従来の3Dネットワークは主に局所幾何学的詳細に焦点を当て、局所幾何学間の位相構造を無視する。
そこで本稿では,大規模画像上においてよく訓練されたトランスフォーマーから前駆体を抽出する,新しい先駆体蒸留法を提案する。
PointDA-10とSim-to-Realデータセットの実験は、提案手法が点クラウド分類におけるUDAの最先端性能を一貫して達成していることを検証する。
論文 参考訳(メタデータ) (2024-07-26T06:29:09Z) - GGAvatar: Geometric Adjustment of Gaussian Head Avatar [6.58321368492053]
GGAvatarは、複雑なアイデンティティを持つ動的ヘッドアバターを堅牢にモデル化するために設計された、新しい3Dアバター表現である。
GGAvatarは高忠実なレンダリングを生成でき、視覚的品質と定量的メトリクスにおいて最先端の手法より優れている。
論文 参考訳(メタデータ) (2024-05-20T12:54:57Z) - SGFormer: Spherical Geometry Transformer for 360 Depth Estimation [54.13459226728249]
パノラマ歪みは360度深度推定において大きな課題となる。
本稿では,SGFormer という球面形状変換器を提案し,上記の問題に対処する。
また、様々な解像度で空間構造を補うために、クエリベースの大域的条件位置埋め込みを提案する。
論文 参考訳(メタデータ) (2024-04-23T12:36:24Z) - DragD3D: Realistic Mesh Editing with Rigidity Control Driven by 2D Diffusion Priors [10.355568895429588]
ダイレクトメッシュの編集と変形は、幾何学的モデリングとアニメーションパイプラインの重要なコンポーネントである。
正規化器は、オブジェクトのグローバルなコンテキストとセマンティクスを意識していない。
我々の変形を制御して,グローバルな文脈を意識した現実的な形状の変形を生成できることが示される。
論文 参考訳(メタデータ) (2023-10-06T19:55:40Z) - Learning Modulated Transformation in GANs [69.95217723100413]
生成逆数ネットワーク(GAN)のジェネレータに、変調変換モジュール(Modulated transformation module, MTM)と呼ばれるプラグアンドプレイモジュールを装備する。
MTMは、可変位置で畳み込み操作を適用可能な潜在符号の制御下で空間オフセットを予測する。
挑戦的なTaiChiデータセット上での人為的な生成に向けて、StyleGAN3のFIDを21.36から13.60に改善し、変調幾何変換の学習の有効性を実証した。
論文 参考訳(メタデータ) (2023-08-29T17:51:22Z) - Learning Transformations To Reduce the Geometric Shift in Object
Detection [60.20931827772482]
画像キャプチャプロセスの変動から生じる幾何シフトに対処する。
我々は、これらのシフトを最小限に抑えるために幾何変換の集合を学習する自己学習アプローチを導入する。
我々は,カメラの視野変化(FoV)と視点変化(視点変化)の2つの異なるシフトについて,本手法の評価を行った。
論文 参考訳(メタデータ) (2023-01-13T11:55:30Z) - Surface Vision Transformers: Attention-Based Modelling applied to
Cortical Analysis [8.20832544370228]
球面多様体上に投影された任意の曲面データを研究するために、ドメインに依存しないアーキテクチャを導入する。
ビジョントランスモデルは、連続したマルチヘッド自己アテンション層を介してパッチのシーケンスを符号化する。
実験の結果、SiTは一般的に表面CNNよりも優れており、登録データと未登録データで比較可能であることがわかった。
論文 参考訳(メタデータ) (2022-03-30T15:56:11Z) - 3D Unsupervised Region-Aware Registration Transformer [13.137287695912633]
ディープニューラルネットワークによるロバストポイントクラウド登録モデルを学習することが、強力なパラダイムとして浮上した。
自己教師型3次元形状再構成損失を伴って入力形状を異なる領域に分割できる3次元領域分割モジュールの設計を提案する。
実験により,我々の3D-URRTは,様々なベンチマークデータセットよりも優れた登録性能が得られることが示された。
論文 参考訳(メタデータ) (2021-10-07T15:06:52Z) - DSG-Net: Learning Disentangled Structure and Geometry for 3D Shape
Generation [98.96086261213578]
DSG-Netは3次元形状の非交叉構造と幾何学的メッシュ表現を学習するディープニューラルネットワークである。
これは、幾何(構造)を不変に保ちながら構造(幾何学)のような不整合制御を持つ新しい形状生成アプリケーションの範囲をサポートする。
本手法は,制御可能な生成アプリケーションだけでなく,高品質な合成形状を生成できる。
論文 参考訳(メタデータ) (2020-08-12T17:06:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。