Fugu-MT 論文翻訳(概要): When Spatial meets Temporal in Action Recognition

論文の概要: When Spatial meets Temporal in Action Recognition

arxiv url: http://arxiv.org/abs/2411.15284v1
Date: Fri, 22 Nov 2024 16:39:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:50.34706
Title: When Spatial meets Temporal in Action Recognition
Title（参考訳）: 行動認識における時間的対面時空間
Authors: Huilin Chen, Lei Wang, Yifan Chen, Tom Gedeon, Piotr Koniusz,
Abstract要約: 本稿では、時間情報を組み込んだ新しい前処理技術であるTIME(Temporal Integration and Motion Enhancement)について紹介する。 TIME層は、元のシーケンスを再構成し、時間順を保ちながら、時間的に進化するフレームを1つの空間グリッドに埋め込むことにより、新しいビデオフレームを生成する。実験の結果,TIME層は認識精度を高め,映像処理タスクに有用な洞察を提供することがわかった。
参考スコア（独自算出の注目度）: 34.53091498930863
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Video action recognition has made significant strides, but challenges remain in effectively using both spatial and temporal information. While existing methods often focus on either spatial features (e.g., object appearance) or temporal dynamics (e.g., motion), they rarely address the need for a comprehensive integration of both. Capturing the rich temporal evolution of video frames, while preserving their spatial details, is crucial for improving accuracy. In this paper, we introduce the Temporal Integration and Motion Enhancement (TIME) layer, a novel preprocessing technique designed to incorporate temporal information. The TIME layer generates new video frames by rearranging the original sequence, preserving temporal order while embedding $N^2$ temporally evolving frames into a single spatial grid of size $N \times N$. This transformation creates new frames that balance both spatial and temporal information, making them compatible with existing video models. When $N=1$, the layer captures rich spatial details, similar to existing methods. As $N$ increases ($N\geq2$), temporal information becomes more prominent, while the spatial information decreases to ensure compatibility with model inputs. We demonstrate the effectiveness of the TIME layer by integrating it into popular action recognition models, such as ResNet-50, Vision Transformer, and Video Masked Autoencoders, for both RGB and depth video data. Our experiments show that the TIME layer enhances recognition accuracy, offering valuable insights for video processing tasks.
Abstract（参考訳）: ビデオ行動認識は大きな進歩を遂げてきたが、空間的情報と時間的情報の両方を効果的に活用する上での課題は依然として残っている。既存の手法は、しばしば空間的特徴(例えば、オブジェクトの外観)や時間的ダイナミクス(例えば、動き)に焦点を当てるが、それらが両方を包括的に統合する必要性に対処することは滅多にない。ビデオフレームの時間的進化を豊かに捉えることは、その空間的詳細を保存しながら、精度を向上させるために不可欠である。本稿では、時間情報を組み込んだ新しい前処理技術であるTIME(Temporal Integration and Motion Enhancement)について紹介する。 TIME層は、元のシーケンスを再構成し、時間順を保ちながら、時間順を保ちながら、時間的に進化するフレームを、サイズ$N \times N$の単一の空間グリッドに埋め込むことにより、新しいビデオフレームを生成する。この変換は、空間情報と時間情報のバランスをとる新しいフレームを生成し、既存のビデオモデルと互換性を持たせる。 N=1$のとき、レイヤは既存のメソッドと同様に、豊富な空間の詳細をキャプチャする。 N$が増加する(N\geq2$)と、時間情報はより顕著になり、空間情報はモデル入力との互換性を確保するために減少する。本稿では、RGBおよび深度ビデオデータに対して、ResNet-50、Vision Transformer、Video Masked Autoencodersなどの一般的な行動認識モデルに統合することで、TIME層の有効性を実証する。実験の結果,TIME層は認識精度を高め,映像処理タスクに有用な洞察を提供することがわかった。

関連論文リスト

DynImg: Key Frames with Visual Prompts are Good Representation for Multi-Modal Video Understanding [19.50051728766238]
ダイナミックイメージ(DynImg)と呼ばれる革新的な映像表現手法を提案する。具体的には,非キーフレームの集合を時間的プロンプトとして導入し,高速移動物体を含む空間領域を強調する。視覚的特徴抽出の過程で、これらのプロンプトは、これらの領域に対応するきめ細かい空間的特徴にさらなる注意を払うようモデルに誘導する。
論文参考訳（メタデータ） (2025-07-21T12:50:49Z)
Identity-Preserving Text-to-Video Generation Guided by Simple yet Effective Spatial-Temporal Decoupled Representations [66.97034863216892]
アイデンティティ保存型テキスト・ツー・ビデオ(IPT2V)生成は、一貫した人間のアイデンティティを持つ高忠実度ビデオを作成することを目的としている。現在のエンドツーエンドフレームワークは、重要な空間的・時間的トレードオフを被る。本稿では,表現をレイアウトの空間的特徴と運動力学の時間的特徴に分解する,シンプルで効果的な空間時空間分離フレームワークを提案する。
論文参考訳（メタデータ） (2025-07-07T06:54:44Z)
STOP: Integrated Spatial-Temporal Dynamic Prompting for Video Understanding [48.12128042470839]
本稿では,STOP(Spatial-Temporal dynamic Prompting)モデルを提案する。 2つの相補的なモジュールで構成され、フレーム内の空間的プロンプトとフレーム間の時間的プロンプトである。 STOPは、最先端のメソッドに対して一貫して優れたパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-03-20T09:16:20Z)
Spatial-Temporal Knowledge-Embedded Transformer for Video Scene Graph Generation [64.85974098314344]
映像シーングラフ生成(VidSGG)は、映像シーン内の物体を特定し、その映像との関係を推測することを目的としている。因みに、オブジェクトペアとその関係は、各画像内の空間的共起相関と、異なる画像間の時間的一貫性/遷移相関を享受する。本稿では,従来の空間的時間的知識をマルチヘッド・クロスアテンション機構に組み込んだ時空間的知識埋め込み型トランス (STKET) を提案する。
論文参考訳（メタデータ） (2023-09-23T02:40:28Z)
Orthogonal Temporal Interpolation for Zero-Shot Video Recognition [45.53856045374685]
ゼロショットビデオ認識(ゼロショットビデオ認識、ZSVR)は、モデルトレーニングプロセス中に見たことのないビデオカテゴリの認識を目的としたタスクである。近年の視覚言語モデル (VLM) は, 大規模画像テキストペアで事前訓練されている。
論文参考訳（メタデータ） (2023-08-14T02:26:49Z)
Deeply-Coupled Convolution-Transformer with Spatial-temporal Complementary Learning for Video-based Person Re-identification [91.56939957189505]
本稿では,高性能ビデオベース Re-ID のための新しい時空間補完学習フレームワークである Deeply-Coupled Convolution-Transformer (DCCT) を提案する。私たちのフレームワークは、ほとんどの最先端のメソッドよりも優れたパフォーマンスを実現できます。
論文参考訳（メタデータ） (2023-04-27T12:16:44Z)
Spatiotemporal Inconsistency Learning for DeepFake Video Detection [51.747219106855624]
本稿では,水平方向と垂直方向の両方で隣接するフレーム間の時間差を利用して,TIMにおける新しい時間的モデリングパラダイムを提案する。 ISMは、SIMからの空間情報とTIMからの時間情報とを同時に利用し、より包括的な時空間表現を確立する。
論文参考訳（メタデータ） (2021-09-04T13:05:37Z)
StyleVideoGAN: A Temporal Generative Model using a Pretrained StyleGAN [70.31913835035206]
本稿では,映像合成問題に対する新しいアプローチを提案する。トレーニング済みのStyleGANネットワークを利用することで、トレーニング対象の外観を制御できます。我々の時間的アーキテクチャは、RGBフレームのシーケンスではなく、StyleGANの潜在符号のシーケンスに基づいて訓練される。
論文参考訳（メタデータ） (2021-07-15T09:58:15Z)
Space-time Mixing Attention for Video Transformer [55.50839896863275]
本稿では,ビデオシーケンス内のフレーム数と線形にスケールする複雑性をビデオトランスフォーマーモデルとして提案する。我々は,最も人気のあるビデオ認識データセットに対して,認識精度が非常に高いことを実証した。
論文参考訳（メタデータ） (2021-06-10T17:59:14Z)
DS-Net: Dynamic Spatiotemporal Network for Video Salient Object Detection [78.04869214450963]
時間情報と空間情報のより効果的な融合のための新しい動的時空間ネットワーク(DSNet)を提案する。提案手法は最先端アルゴリズムよりも優れた性能が得られることを示す。
論文参考訳（メタデータ） (2020-12-09T06:42:30Z)
STH: Spatio-Temporal Hybrid Convolution for Efficient Action Recognition [39.58542259261567]
本稿では,空間的・時間的映像情報を小さなパラメータで同時に符号化するS-Temporal Hybrid Network(STH)を提案する。このような設計は、効率的な時間的モデリングを可能にし、小さなモデルスケールを維持する。 STHは、3D CNNよりもパフォーマンス上の優位性を持ち、2D CNNよりもはるかに少ないパラメータコストを維持している。
論文参考訳（メタデータ） (2020-03-18T04:46:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。