Fugu-MT 論文翻訳(概要): GeoDeformer: Geometric Deformable Transformer for Action Recognition

論文の概要: GeoDeformer: Geometric Deformable Transformer for Action Recognition

arxiv url: http://arxiv.org/abs/2311.17975v1
Date: Wed, 29 Nov 2023 16:55:55 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-01 19:11:55.355045
Title: GeoDeformer: Geometric Deformable Transformer for Action Recognition
Title（参考訳）: GeoDeformer: アクション認識のための幾何学的変形可能な変換器
Authors: Jinhui Ye, Jiaming Zhou, Hui Xiong, Junwei Liang
Abstract要約: 視覚トランスフォーマーは、近年、行動認識のための畳み込みネットワークの効果的な代替品として登場した。本稿では,幾何学的理解を直接ViTアーキテクチャに組み込むことで,アクションビデオに固有の変動を捉えるための新しいアプローチであるGeoDeformerを提案する。
参考スコア（独自算出の注目度）: 22.536307401874105
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vision transformers have recently emerged as an effective alternative to convolutional networks for action recognition. However, vision transformers still struggle with geometric variations prevalent in video data. This paper proposes a novel approach, GeoDeformer, designed to capture the variations inherent in action video by integrating geometric comprehension directly into the ViT architecture. Specifically, at the core of GeoDeformer is the Geometric Deformation Predictor, a module designed to identify and quantify potential spatial and temporal geometric deformations within the given video. Spatial deformations adjust the geometry within individual frames, while temporal deformations capture the cross-frame geometric dynamics, reflecting motion and temporal progression. To demonstrate the effectiveness of our approach, we incorporate it into the established MViTv2 framework, replacing the standard self-attention blocks with GeoDeformer blocks. Our experiments at UCF101, HMDB51, and Mini-K200 achieve significant increases in both Top-1 and Top-5 accuracy, establishing new state-of-the-art results with only a marginal increase in computational cost. Additionally, visualizations affirm that GeoDeformer effectively manifests explicit geometric deformations and minimizes geometric variations. Codes and checkpoints will be released.
Abstract（参考訳）: 視覚トランスフォーマーは、行動認識のための畳み込みネットワークの効果的な代替として最近登場した。しかし、視覚トランスフォーマーは未だにビデオデータに共通する幾何学的変化に苦しむ。本稿では,幾何学的理解を直接ViTアーキテクチャに組み込むことで,アクションビデオに固有の変動を捉えるための新しいアプローチであるGeoDeformerを提案する。特に、geodeformerの中核は、与えられたビデオ内の潜在的な空間的および時間的幾何学的変形を識別および定量化するために設計された幾何変形予測モジュールである。空間的変形は個々のフレーム内の幾何学を調整し、時間的変形はフレーム間の幾何学的ダイナミクスを捉え、動きと時間的進行を反映する。提案手法の有効性を示すため,既存のMViTv2フレームワークに組み込んで,標準の自己注意ブロックをGeoDeformerブロックに置き換えた。 UCF101, HMDB51, Mini-K200 における実験により,Top-1 と Top-5 の精度が大幅に向上し,計算コストが極端に増大した新しい最先端結果が得られた。さらに、可視化はジオデフォーマーが明示的な幾何学的変形を効果的に示し、幾何学的変化を最小化することを示す。コードとチェックポイントがリリースされます。

関連論文リスト

GeoAda: Efficiently Finetune Geometric Diffusion Models with Equivariant Adapters [61.51810815162003]
制御された生成タスクに対してフレキシブルかつパラメータ効率の良い微調整を可能にするSE(3)-equivariant Adapter framework(GeoAda)を提案する。 GeoAdaは、過剰適合と破滅的な忘れを緩和しながら、モデルの幾何的一貫性を保っている。我々は、フレーム制御、グローバル制御、サブグラフ制御、広範囲のアプリケーションドメインを含む多様な幾何学的制御タイプにまたがるGeoAdaの適用性を実証する。
論文参考訳（メタデータ） (2025-07-02T18:44:03Z)
UniGeo: Taming Video Diffusion for Unified Consistent Geometry Estimation [63.90470530428842]
本研究では、適切な設計と微調整により、ビデオ生成モデルの本質的な一貫性を一貫した幾何推定に有効に活用できることを実証する。その結果,ビデオのグローバルな幾何学的属性の予測性能が向上し,再構成作業に直接適用できることがわかった。
論文参考訳（メタデータ） (2025-05-30T12:31:59Z)
Geometry-Editable and Appearance-Preserving Object Compositon [67.98806888489385]
汎用オブジェクト合成(GOC)は、対象オブジェクトを望まれる幾何学的性質を持つ背景シーンにシームレスに統合することを目的としている。近年のアプローチは意味的埋め込みを導出し、それらを高度な拡散モデルに統合し、幾何学的に編集可能な生成を可能にする。本稿では,まずセマンティックな埋め込みを活用して,所望の幾何学的変換を暗黙的にキャプチャするDistangled Geometry-editable and Outearance-Preserving Diffusionモデルを提案する。
論文参考訳（メタデータ） (2025-05-27T09:05:28Z)
AdS-GNN -- a Conformally Equivariant Graph Neural Network [9.96018310438305]
一般の共形変換の下で同変のニューラルネットワークを構築する。コンピュータビジョンと統計物理学のタスクのモデルを検証する。
論文参考訳（メタデータ） (2025-05-19T09:08:52Z)
Geometry-Informed Neural Operator Transformer [0.8906214436849201]
この研究はGeometry-Informed Neural Operator Transformer (GINOT)を導入し、任意のジオメトリの前方予測を可能にするために、トランスフォーマーアーキテクチャとニューラルオペレータフレームワークを統合する。 GINOTの性能は複数の挑戦的なデータセットで検証され、複雑で任意の2Dおよび3Dジオメトリに対して高い精度と強力な一般化能力を示す。
論文参考訳（メタデータ） (2025-04-28T03:39:27Z)
GERD: Geometric event response data generation [1.5269221584932013]
イベントベースの視覚センサーは、その時間分解能、より高いダイナミックレンジ、低消費電力のために魅力的である。また、従来のフレームベースのカメラと根本的に異なるデータも提供します。制御された変換の下でイベントベースのデータを生成する方法を提案する。
論文参考訳（メタデータ） (2024-12-04T11:59:36Z)
Bridging Geometric States via Geometric Diffusion Bridge [79.60212414973002]
本稿では,初期および対象の幾何状態を正確にブリッジする新しい生成モデリングフレームワークであるGeometric Diffusion Bridge (GDB)を紹介する。 GDBは、幾何学的状態の接続のためにDoobの$h$-transformの修正版から派生した同変拡散ブリッジを使用している。我々はGDBが既存の最先端のアプローチを超越し、幾何学的状態を正確にブリッジするための新しい経路を開くことを示す。
論文参考訳（メタデータ） (2024-10-31T17:59:53Z)
Boosting Cross-Domain Point Classification via Distilling Relational Priors from 2D Transformers [59.0181939916084]
従来の3Dネットワークは主に局所幾何学的詳細に焦点を当て、局所幾何学間の位相構造を無視する。そこで本稿では,大規模画像上においてよく訓練されたトランスフォーマーから前駆体を抽出する,新しい先駆体蒸留法を提案する。 PointDA-10とSim-to-Realデータセットの実験は、提案手法が点クラウド分類におけるUDAの最先端性能を一貫して達成していることを検証する。
論文参考訳（メタデータ） (2024-07-26T06:29:09Z)
GGAvatar: Geometric Adjustment of Gaussian Head Avatar [6.58321368492053]
GGAvatarは、複雑なアイデンティティを持つ動的ヘッドアバターを堅牢にモデル化するために設計された、新しい3Dアバター表現である。 GGAvatarは高忠実なレンダリングを生成でき、視覚的品質と定量的メトリクスにおいて最先端の手法より優れている。
論文参考訳（メタデータ） (2024-05-20T12:54:57Z)
SGFormer: Spherical Geometry Transformer for 360 Depth Estimation [54.13459226728249]
パノラマ歪みは360度深度推定において大きな課題となる。本稿では,SGFormer という球面形状変換器を提案し,上記の問題に対処する。また、様々な解像度で空間構造を補うために、クエリベースの大域的条件位置埋め込みを提案する。
論文参考訳（メタデータ） (2024-04-23T12:36:24Z)
DragD3D: Realistic Mesh Editing with Rigidity Control Driven by 2D Diffusion Priors [10.355568895429588]
ダイレクトメッシュの編集と変形は、幾何学的モデリングとアニメーションパイプラインの重要なコンポーネントである。正規化器は、オブジェクトのグローバルなコンテキストとセマンティクスを意識していない。我々の変形を制御して,グローバルな文脈を意識した現実的な形状の変形を生成できることが示される。
論文参考訳（メタデータ） (2023-10-06T19:55:40Z)
Learning Modulated Transformation in GANs [69.95217723100413]
生成逆数ネットワーク(GAN)のジェネレータに、変調変換モジュール(Modulated transformation module, MTM)と呼ばれるプラグアンドプレイモジュールを装備する。 MTMは、可変位置で畳み込み操作を適用可能な潜在符号の制御下で空間オフセットを予測する。挑戦的なTaiChiデータセット上での人為的な生成に向けて、StyleGAN3のFIDを21.36から13.60に改善し、変調幾何変換の学習の有効性を実証した。
論文参考訳（メタデータ） (2023-08-29T17:51:22Z)
Learning Transformations To Reduce the Geometric Shift in Object Detection [60.20931827772482]
画像キャプチャプロセスの変動から生じる幾何シフトに対処する。我々は、これらのシフトを最小限に抑えるために幾何変換の集合を学習する自己学習アプローチを導入する。我々は,カメラの視野変化(FoV)と視点変化(視点変化)の2つの異なるシフトについて,本手法の評価を行った。
論文参考訳（メタデータ） (2023-01-13T11:55:30Z)
Surface Vision Transformers: Attention-Based Modelling applied to Cortical Analysis [8.20832544370228]
球面多様体上に投影された任意の曲面データを研究するために、ドメインに依存しないアーキテクチャを導入する。ビジョントランスモデルは、連続したマルチヘッド自己アテンション層を介してパッチのシーケンスを符号化する。実験の結果、SiTは一般的に表面CNNよりも優れており、登録データと未登録データで比較可能であることがわかった。
論文参考訳（メタデータ） (2022-03-30T15:56:11Z)
3D Unsupervised Region-Aware Registration Transformer [13.137287695912633]
ディープニューラルネットワークによるロバストポイントクラウド登録モデルを学習することが、強力なパラダイムとして浮上した。自己教師型3次元形状再構成損失を伴って入力形状を異なる領域に分割できる3次元領域分割モジュールの設計を提案する。実験により,我々の3D-URRTは,様々なベンチマークデータセットよりも優れた登録性能が得られることが示された。
論文参考訳（メタデータ） (2021-10-07T15:06:52Z)
DSG-Net: Learning Disentangled Structure and Geometry for 3D Shape Generation [98.96086261213578]
DSG-Netは3次元形状の非交叉構造と幾何学的メッシュ表現を学習するディープニューラルネットワークである。これは、幾何(構造)を不変に保ちながら構造(幾何学)のような不整合制御を持つ新しい形状生成アプリケーションの範囲をサポートする。本手法は,制御可能な生成アプリケーションだけでなく,高品質な合成形状を生成できる。
論文参考訳（メタデータ） (2020-08-12T17:06:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。