論文の概要: V4D:4D Convolutional Neural Networks for Video-level Representation
Learning
- arxiv url: http://arxiv.org/abs/2002.07442v1
- Date: Tue, 18 Feb 2020 09:27:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-30 20:18:48.090572
- Title: V4D:4D Convolutional Neural Networks for Video-level Representation
Learning
- Title(参考訳): v4d:4d畳み込みニューラルネットワークによる映像レベルの表現学習
- Authors: Shiwen Zhang and Sheng Guo and Weilin Huang and Matthew R. Scott and
Limin Wang
- Abstract要約: 映像表現学習用3D CNNの多くはクリップベースであるため,映像時間進化は考慮していない。
4D畳み込みを伴う長距離表現をモデル化するために,ビデオレベル4Dコナールニューラルネットワーク(V4D)を提案する。
V4Dは、最近の3D CNNよりも大きなマージンで優れた結果を得る。
- 参考スコア(独自算出の注目度): 58.548331848942865
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most existing 3D CNNs for video representation learning are clip-based
methods, and thus do not consider video-level temporal evolution of
spatio-temporal features. In this paper, we propose Video-level 4D
Convolutional Neural Networks, referred as V4D, to model the evolution of
long-range spatio-temporal representation with 4D convolutions, and at the same
time, to preserve strong 3D spatio-temporal representation with residual
connections. Specifically, we design a new 4D residual block able to capture
inter-clip interactions, which could enhance the representation power of the
original clip-level 3D CNNs. The 4D residual blocks can be easily integrated
into the existing 3D CNNs to perform long-range modeling hierarchically. We
further introduce the training and inference methods for the proposed V4D.
Extensive experiments are conducted on three video recognition benchmarks,
where V4D achieves excellent results, surpassing recent 3D CNNs by a large
margin.
- Abstract(参考訳): ビデオ表現学習のための既存の3D CNNは、クリップベースの手法であり、時空間特徴の映像レベルの時間的進化を考慮しない。
本稿では,v4dと呼ばれるビデオレベルの4次元畳み込みニューラルネットワークを提案する。4次元畳み込みによる長距離時空間表現の進化をモデル化すると同時に,残留接続を持つ強固な3次元時空間表現を維持する。
具体的には、クリップ間相互作用を捕捉できる新しい4D残差ブロックを設計し、元のクリップレベル3D CNNの表現力を向上する。
4D残差ブロックは既存の3D CNNに容易に統合でき、階層的に長距離モデリングを行うことができる。
さらに,提案するV4Dのトレーニングと推論手法についても紹介する。
3つのビデオ認識ベンチマークで、V4Dは、最近の3D CNNよりも大きなマージンで、優れた結果を得る。
関連論文リスト
- Stereo4D: Learning How Things Move in 3D from Internet Stereo Videos [76.07894127235058]
本稿では,インターネットの立体視,広角ビデオから高品質な4D再構成をマイニングするシステムを提案する。
本研究では,この手法を用いて世界整合型擬似3次元点雲の形で大規模データを生成する。
DUSt3Rの変種をトレーニングし、実世界の画像対から構造と3次元運動を予測することで、このデータの有用性を実証する。
論文 参考訳(メタデータ) (2024-12-12T18:59:54Z) - Diffusion4D: Fast Spatial-temporal Consistent 4D Generation via Video Diffusion Models [116.31344506738816]
高速でスケーラブルな4Dコンテンツ生成のための新しいフレームワーク textbfDiffusion4D を提案する。
ダイナミックな3Dアセットの軌道ビューを合成できる4D対応ビデオ拡散モデルを開発した。
提案手法は, 生成効率と4次元幾何整合性の観点から, 従来の最先端技術を超えている。
論文 参考訳(メタデータ) (2024-05-26T17:47:34Z) - Efficient4D: Fast Dynamic 3D Object Generation from a Single-view Video [42.10482273572879]
本稿では,効率的な4Dオブジェクト生成フレームワークであるEfficient4Dを提案する。
異なるカメラビューの下で高品質な時空一貫性の画像を生成し、ラベル付きデータとして使用する。
合成ビデオと実ビデオの両方の実験によると、Efficient4Dのスピードは10倍に向上している。
論文 参考訳(メタデータ) (2024-01-16T18:58:36Z) - 4DGen: Grounded 4D Content Generation with Spatial-temporal Consistency [118.15258850780417]
textbf4DGenは、4Dコンテンツ作成のための新しいフレームワークである。
我々のパイプラインは、制御可能な4D生成を容易にし、ユーザがモノクロビデオで動きを指定したり、画像から映像への世代を適用できる。
既存のビデオから4Dのベースラインと比較すると,入力信号の忠実な再構成には優れた結果が得られる。
論文 参考訳(メタデータ) (2023-12-28T18:53:39Z) - F4D: Factorized 4D Convolutional Neural Network for Efficient
Video-level Representation Learning [4.123763595394021]
既存の3D畳み込みニューラルネットワーク(CNN)ベースのビデオレベルの表現学習方法は、クリップベースである。
本稿では,より効果的で細かな時間的映像表現を学習できる,注意力のある分解型4D CNNアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-11-28T19:21:57Z) - Consistent4D: Consistent 360{\deg} Dynamic Object Generation from
Monocular Video [15.621374353364468]
Consistent4Dは、モノクロビデオから4D動的オブジェクトを生成するための新しいアプローチである。
我々は、360度ダイナミックオブジェクト再構成を4次元生成問題として、退屈なマルチビューデータ収集とカメラキャリブレーションの必要性を排除した。
論文 参考訳(メタデータ) (2023-11-06T03:26:43Z) - Learning Parallel Dense Correspondence from Spatio-Temporal Descriptors
for Efficient and Robust 4D Reconstruction [43.60322886598972]
本稿では,点雲列からの4次元形状再構成の課題に焦点をあてる。
本稿では,クロスフレーム占有領域間の連続的変換関数を捉えることにより,人間の3次元形状の時間変化を学ぶための新しいパイプラインを提案する。
論文 参考訳(メタデータ) (2021-03-30T13:36:03Z) - Learning Compositional Representation for 4D Captures with Neural ODE [72.56606274691033]
本稿では, 形状, 初期状態, 動きを区別する4次元キャプチャの合成表現法を提案する。
運動をモデル化するために、学習した動作コードに基づいて条件付けられた初期状態を更新するために、神経常微分方程式(ode)を訓練する。
デコーダはシェイプコードと更新されたポーズコードを取り、スタンプごとに4Dキャプチャを再構築する。
論文 参考訳(メタデータ) (2021-03-15T10:55:55Z) - A Real-time Action Representation with Temporal Encoding and Deep
Compression [115.3739774920845]
動作表現のための時間畳み込み3Dネットワーク(T-C3D)と呼ばれる新しいリアルタイム畳み込みアーキテクチャを提案する。
T-C3Dは、高プロセス速度を得ながら、階層的な多粒度でビデオアクション表現を学習する。
提案手法は,5MB未満のストレージモデルを用いて,提案手法の精度5.4%,推論速度2倍の高速化を実現した。
論文 参考訳(メタデータ) (2020-06-17T06:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。