論文の概要: Learnable Sampling 3D Convolution for Video Enhancement and Action
Recognition
- arxiv url: http://arxiv.org/abs/2011.10974v1
- Date: Sun, 22 Nov 2020 09:20:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2022-09-22 12:11:57.435949
- Title: Learnable Sampling 3D Convolution for Video Enhancement and Action
Recognition
- Title(参考訳): 映像強調と動作認識のための学習可能なサンプリング3次元畳み込み
- Authors: Shuyang Gu, Jianmin Bao, Dong Chen
- Abstract要約: 3次元畳み込み(emphLS3D-Conv)の能力を向上させるための新しいモジュールを導入する。
学習可能な2Dオフセットを3D畳み込みに追加し、フレーム間の空間的特徴マップ上の位置をサンプリングする。
ビデオ, ビデオ超解像, ビデオデノナイズ, アクション認識実験により, 提案手法の有効性を実証した。
- 参考スコア(独自算出の注目度): 24.220358793070965
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A key challenge in video enhancement and action recognition is to fuse useful
information from neighboring frames. Recent works suggest establishing accurate
correspondences between neighboring frames before fusing temporal information.
However, the generated results heavily depend on the quality of correspondence
estimation. In this paper, we propose a more robust solution: \emph{sampling
and fusing multi-level features} across neighborhood frames to generate the
results. Based on this idea, we introduce a new module to improve the
capability of 3D convolution, namely, learnable sampling 3D convolution
(\emph{LS3D-Conv}). We add learnable 2D offsets to 3D convolution which aims to
sample locations on spatial feature maps across frames. The offsets can be
learned for specific tasks. The \emph{LS3D-Conv} can flexibly replace 3D
convolution layers in existing 3D networks and get new architectures, which
learns the sampling at multiple feature levels. The experiments on video
interpolation, video super-resolution, video denoising, and action recognition
demonstrate the effectiveness of our approach.
- Abstract(参考訳): ビデオエンハンスメントとアクション認識の重要な課題は、隣接するフレームから有用な情報を融合することだ。
最近の研究は、時間情報を融合する前に隣接するフレーム間の正確な対応を確立することを示唆している。
しかし、生成された結果は対応推定の品質に大きく依存する。
本稿では,よりロバストな解法を提案する: \emph{sampling and fusing multi-level features} 近傍のフレームをまたいで結果を生成する。
このアイデアに基づいて,3次元畳み込みの能力,すなわち学習可能な3次元畳み込み(\emph{LS3D-Conv})を改善するための新しいモジュールを導入する。
3次元畳み込みに学習可能な2次元オフセットを追加し,フレーム間の空間的特徴マップ上の位置をサンプリングする。
オフセットは特定のタスクで学習できる。
emph{LS3D-Conv}は、既存の3Dネットワークの3D畳み込みレイヤを柔軟に置き換えて、新しいアーキテクチャを入手することができる。
ビデオ補間,ビデオスーパーレゾリューション,ビデオデノイジング,アクション認識の実験により,本手法の有効性が示された。
関連論文リスト
- ULIP: Learning a Unified Representation of Language, Images, and Point
Clouds for 3D Understanding [110.07170245531464]
現在の3Dモデルは、注釈付きデータの少ないデータセットと、事前に定義されたカテゴリセットによって制限されている。
近年の進歩は、言語などの他のモダリティからの知識を活用することで、同様の問題を著しく軽減できることを示している。
画像,テキスト,3次元点雲の統一表現は,3つのモードからオブジェクト三重項を事前学習することで学習する。
論文 参考訳(メタデータ) (2022-12-10T01:34:47Z) - 3D-CSL: self-supervised 3D context similarity learning for
Near-Duplicate Video Retrieval [17.69904571043164]
NDVR(Near-Duplicate Video Retrieval)のためのコンパクトパイプラインである3D-SLを導入する。
ネットワークを最適化するための2段階の自己教師型類似性学習戦略を提案する。
本手法は,クリップレベルのNDVRにおける最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-11-10T05:51:08Z) - Focal Sparse Convolutional Networks for 3D Object Detection [121.45950754511021]
我々はスパースCNNの能力を高めるために2つの新しいモジュールを導入する。
焦点スパース・コンボリューション(Focals Conv)であり、焦点スパース・コンボリューションの多様変種である。
スパース・コンボリューションにおける空間的に学習可能な空間空間性は,高度な3次元物体検出に不可欠であることを示す。
論文 参考訳(メタデータ) (2022-04-26T17:34:10Z) - Exploring Optical-Flow-Guided Motion and Detection-Based Appearance for
Temporal Sentence Grounding [61.57847727651068]
テンポラルな文グラウンドディングは、与えられた文クエリに従って、意図しないビデオのターゲットセグメントをセマンティックにローカライズすることを目的としている。
これまでのほとんどの研究は、ビデオ全体のフレーム全体のフレームレベルの特徴を学習することに集中しており、それらをテキスト情報と直接一致させる。
我々は,光フロー誘導型モーションアウェア,検出ベース外観アウェア,3D認識オブジェクトレベル機能を備えた,動き誘導型3Dセマンティック推論ネットワーク(MA3SRN)を提案する。
論文 参考訳(メタデータ) (2022-03-06T13:57:09Z) - 2D or not 2D? Adaptive 3D Convolution Selection for Efficient Video
Recognition [84.697097472401]
Ada3Dは、インスタンス固有の3D利用ポリシーを学び、3Dネットワークで使用するフレームと畳み込み層を決定する条件付き計算フレームワークです。
本手法は,最先端の3dモデルと同様の精度を実現し,異なるデータセット間での計算量を20%-50%削減できることを実証する。
論文 参考訳(メタデータ) (2020-12-29T21:40:38Z) - Making a Case for 3D Convolutions for Object Segmentation in Videos [16.167397418720483]
本研究では,3次元畳み込みネットワークが高精細な物体分割などの高密度映像予測タスクに効果的に適用可能であることを示す。
本稿では,新しい3Dグローバル・コンボリューション・レイヤと3Dリファインメント・モジュールからなる3Dデコーダアーキテクチャを提案する。
提案手法は,DAVIS'16 Unsupervised, FBMS, ViSalベンチマークにおいて,既存の最先端技術よりもはるかに優れている。
論文 参考訳(メタデータ) (2020-08-26T12:24:23Z) - Appearance-Preserving 3D Convolution for Video-based Person
Re-identification [61.677153482995564]
本稿では,APM (Appearance-Preserving Module) と3Dコンボリューションカーネルの2つのコンポーネントからなる3Dコンボリューション(AP3D)を提案する。
元の3D畳み込みカーネルをAP3Dに置き換えることで、AP3Dと既存の3D ConvNetを組み合わせることは容易である。
論文 参考訳(メタデータ) (2020-07-16T16:21:34Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。