Fugu-MT 論文翻訳(概要): A Framework Combining 3D CNN and Transformer for Video-Based Behavior Recognition

論文の概要: A Framework Combining 3D CNN and Transformer for Video-Based Behavior Recognition

arxiv url: http://arxiv.org/abs/2508.06528v1
Date: Sat, 02 Aug 2025 07:33:29 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-12 21:23:28.410523
Title: A Framework Combining 3D CNN and Transformer for Video-Based Behavior Recognition
Title（参考訳）: 映像に基づく行動認識のための3次元CNNと変圧器を組み合わせたフレームワーク
Authors: Xiuliang Zhang, Tadiwa Elisha Nyamasvisva, Chuntao Liu,
Abstract要約: 本稿では3D CNNとTransformerアーキテクチャを組み合わせたハイブリッドフレームワークを提案する。 3D CNNモジュールは低レベルの時間的特徴を抽出し、Transformerモジュールは長期の時間的依存関係をキャプチャする。提案モデルは従来の3D CNNやスタンドアロンのトランスフォーマーよりも優れており、高い認識精度と管理可能な複雑さを実現している。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Video-based behavior recognition is essential in fields such as public safety, intelligent surveillance, and human-computer interaction. Traditional 3D Convolutional Neural Network (3D CNN) effectively capture local spatiotemporal features but struggle with modeling long-range dependencies. Conversely, Transformers excel at learning global contextual information but face challenges with high computational costs. To address these limitations, we propose a hybrid framework combining 3D CNN and Transformer architectures. The 3D CNN module extracts low-level spatiotemporal features, while the Transformer module captures long-range temporal dependencies, with a fusion mechanism integrating both representations. Evaluated on benchmark datasets, the proposed model outperforms traditional 3D CNN and standalone Transformers, achieving higher recognition accuracy with manageable complexity. Ablation studies further validate the complementary strengths of the two modules. This hybrid framework offers an effective and scalable solution for video-based behavior recognition.
Abstract（参考訳）: ビデオに基づく行動認識は、公共の安全、インテリジェントな監視、人間とコンピュータの相互作用といった分野において不可欠である。従来の3D畳み込みニューラルネットワーク(3D CNN)は、局所的な時空間的特徴を効果的に捉えるが、長距離依存のモデリングに苦慮する。逆に、Transformerはグローバルな文脈情報を学ぶのが得意だが、計算コストの高い課題に直面している。これらの制約に対処するため、3D CNNとTransformerアーキテクチャを組み合わせたハイブリッドフレームワークを提案する。 3D CNNモジュールは低レベルの時空間的特徴を抽出し、Transformerモジュールは長期の時間的依存関係をキャプチャし、融合機構は両方の表現を統合する。ベンチマークデータセットに基づいて評価し、提案モデルは従来の3D CNNとスタンドアロントランスフォーマーより優れ、管理可能な複雑さで高い認識精度を達成する。アブレーション研究は、2つの加群の相補的な強度をさらに検証する。このハイブリッドフレームワークは、ビデオベースの行動認識に効果的でスケーラブルなソリューションを提供する。

関連論文リスト

RAVEN: Rethinking Adversarial Video Generation with Efficient Tri-plane Networks [93.18404922542702]
本稿では,長期的空間的および時間的依存関係に対処する新しいビデオ生成モデルを提案する。提案手法は,3次元認識型生成フレームワークにインスパイアされた,明示的で単純化された3次元平面のハイブリッド表現を取り入れたものである。我々のモデルは高精細度ビデオクリップを解像度256時間256$ピクセルで合成し、フレームレート30fpsで5ドル以上まで持続する。
論文参考訳（メタデータ） (2024-01-11T16:48:44Z)
Video-FocalNets: Spatio-Temporal Focal Modulation for Video Action Recognition [112.66832145320434]
Video-FocalNetは、ローカルなグローバルなコンテキストの両方をモデル化する、ビデオ認識のための効率的かつ効率的なアーキテクチャである。 Video-FocalNetは、自己注意の相互作用と集約のステップを反転させる時間的焦点変調アーキテクチャに基づいている。我々は,5つの大規模データセット上での映像認識のための最先端のトランスフォーマーモデルに対して,Video-FocalNetsが好適に動作することを示す。
論文参考訳（メタデータ） (2023-07-13T17:59:33Z)
Video Mobile-Former: Video Recognition with Efficient Global Spatial-temporal Modeling [125.95527079960725]
トランスフォーマーベースのモデルは、主要なビデオ認識ベンチマークで最高のパフォーマンスを達成した。 Video Mobile-Formerはトランスフォーマーベースの最初のビデオモデルであり、1G FLOP内で計算予算を制限している。
論文参考訳（メタデータ） (2022-08-25T17:59:00Z)
Gate-Shift-Fuse for Video Action Recognition [43.8525418821458]
Gate-Fuse (GSF) は、時間内相互作用を制御し、時間を通して特徴を適応的にルーティングし、それらをデータ依存的に組み合わせることを学ぶ、新しい時間的特徴抽出モジュールである。 GSFは既存の2D CNNに挿入して、パラメータや計算オーバーヘッドを無視して、効率的かつ高性能に変換することができる。 2つの人気のある2次元CNNファミリを用いてGSFを広範囲に解析し、5つの標準動作認識ベンチマークで最先端または競合性能を達成する。
論文参考訳（メタデータ） (2022-03-16T19:19:04Z)
Video Frame Interpolation Transformer [86.20646863821908]
本稿では,トランスフォーマーをベースとした動画フレームワークを提案し,コンテンツ認識集約の重み付けと,自己注意操作による長距離依存を考慮した。グローバルな自己注意の計算コストが高くなるのを避けるため、ビデオに局所的注意の概念を導入する。さらに,トランスフォーマーの可能性を完全に実現するためのマルチスケール・フレーム・スキームを開発した。
論文参考訳（メタデータ） (2021-11-27T05:35:10Z)
Dense Interaction Learning for Video-based Person Re-identification [75.03200492219003]
ビデオベースの人物再ID問題に取り組むために,Dense Interaction Learning (DenseIL) というハイブリッドフレームワークを提案する。 DenseILにはCNNエンコーダとDense Interaction (DI)デコーダが含まれている。当社の実験は、複数の標準ビデオベースの再IDデータセットにおけるすべての最先端の手法を一貫して大幅に上回ります。
論文参考訳（メタデータ） (2021-03-16T12:22:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。