論文の概要: X3D: Expanding Architectures for Efficient Video Recognition
- arxiv url: http://arxiv.org/abs/2004.04730v1
- Date: Thu, 9 Apr 2020 17:59:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-15 03:13:29.098199
- Title: X3D: Expanding Architectures for Efficient Video Recognition
- Title(参考訳): x3d:効率的なビデオ認識のための拡張アーキテクチャ
- Authors: Christoph Feichtenhofer
- Abstract要約: X3Dは、小さな2D画像分類アーキテクチャを徐々に拡張する効率的なビデオネットワークのファミリーである。
機械学習における特徴選択法に触発されて、単純なステップワイズネットワーク拡張アプローチが採用されている。
我々は,ビデオ分類および検出ベンチマークにおいて,前例のない効率で競合精度を報告した。
- 参考スコア(独自算出の注目度): 21.539880641349693
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents X3D, a family of efficient video networks that
progressively expand a tiny 2D image classification architecture along multiple
network axes, in space, time, width and depth. Inspired by feature selection
methods in machine learning, a simple stepwise network expansion approach is
employed that expands a single axis in each step, such that good accuracy to
complexity trade-off is achieved. To expand X3D to a specific target
complexity, we perform progressive forward expansion followed by backward
contraction. X3D achieves state-of-the-art performance while requiring 4.8x and
5.5x fewer multiply-adds and parameters for similar accuracy as previous work.
Our most surprising finding is that networks with high spatiotemporal
resolution can perform well, while being extremely light in terms of network
width and parameters. We report competitive accuracy at unprecedented
efficiency on video classification and detection benchmarks. Code will be
available at: https://github.com/facebookresearch/SlowFast
- Abstract(参考訳): 本稿では,複数のネットワーク軸に沿って,空間,時間,幅,深さの小さな2次元画像分類アーキテクチャを段階的に拡張する,効率的なビデオネットワークのファミリであるx3dを提案する。
機械学習における特徴選択法に触発されて、簡単なステップワイズネットワーク拡張アプローチが採用され、各ステップで単一の軸を広げ、高い精度と複雑性のトレードオフを達成する。
X3D を特定の対象の複雑性に拡張するために, 進行する前方展開と後方縮小を行う。
X3Dは4.8倍と5.5倍の乗算加算とパラメータを必要としながら最先端の性能を達成する。
最も驚くべき発見は、高時空間分解能のネットワークは、ネットワーク幅とパラメータの点で極めて軽量でありながら、良好に動作可能であることです。
我々は,ビデオ分類と検出ベンチマークにおいて,前例のない効率で競合精度を示す。
コードは以下の通り。 https://github.com/facebookresearch/SlowFast
関連論文リスト
- Auto-X3D: Ultra-Efficient Video Understanding via Finer-Grained Neural
Architecture Search [73.05693037548932]
X3Dワークは、複数の軸に沿って手作りの画像アーキテクチャを拡張することで、効率的なビデオモデルの新たなファミリーを提示する。
このような大きな空間を効率的に探索するために確率論的ニューラルネットワーク探索法を採用する。
KineticsとSomething-V2ベンチマークの評価では、私たちのAutoX3DモデルはFLOPで1.3%の精度で既存のモデルより優れています。
論文 参考訳(メタデータ) (2021-12-09T05:40:33Z) - MoViNets: Mobile Video Networks for Efficient Video Recognition [52.49314494202433]
3D畳み込みニューラルネットワーク(CNN)は、ビデオ認識では正確だが、大きな計算とメモリ予算を必要とする。
本稿では,3次元CNNのピークメモリ使用量を大幅に削減しつつ,計算効率を向上させる3段階の手法を提案する。
論文 参考訳(メタデータ) (2021-03-21T23:06:38Z) - 2D or not 2D? Adaptive 3D Convolution Selection for Efficient Video
Recognition [84.697097472401]
Ada3Dは、インスタンス固有の3D利用ポリシーを学び、3Dネットワークで使用するフレームと畳み込み層を決定する条件付き計算フレームワークです。
本手法は,最先端の3dモデルと同様の精度を実現し,異なるデータセット間での計算量を20%-50%削減できることを実証する。
論文 参考訳(メタデータ) (2020-12-29T21:40:38Z) - Making a Case for 3D Convolutions for Object Segmentation in Videos [16.167397418720483]
本研究では,3次元畳み込みネットワークが高精細な物体分割などの高密度映像予測タスクに効果的に適用可能であることを示す。
本稿では,新しい3Dグローバル・コンボリューション・レイヤと3Dリファインメント・モジュールからなる3Dデコーダアーキテクチャを提案する。
提案手法は,DAVIS'16 Unsupervised, FBMS, ViSalベンチマークにおいて,既存の最先端技術よりもはるかに優れている。
論文 参考訳(メタデータ) (2020-08-26T12:24:23Z) - Searching Efficient 3D Architectures with Sparse Point-Voxel Convolution [34.713667358316286]
自動運転車は安全に運転するために、3Dシーンを効率的に正確に理解する必要がある。
既存の3次元知覚モデルは、低解像度のボキセル化とアグレッシブなダウンサンプリングのために、小さなインスタンスを十分に認識できない。
Sparse Point-Voxel Convolution (SPVConv) は,バニラ・スパース・コンボリューションを高分解能な点ベース分岐に装備する軽量な3次元モジュールである。
論文 参考訳(メタデータ) (2020-07-31T14:27:27Z) - A Real-time Action Representation with Temporal Encoding and Deep
Compression [115.3739774920845]
動作表現のための時間畳み込み3Dネットワーク(T-C3D)と呼ばれる新しいリアルタイム畳み込みアーキテクチャを提案する。
T-C3Dは、高プロセス速度を得ながら、階層的な多粒度でビデオアクション表現を学習する。
提案手法は,5MB未満のストレージモデルを用いて,提案手法の精度5.4%,推論速度2倍の高速化を実現した。
論文 参考訳(メタデータ) (2020-06-17T06:30:43Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z) - CAKES: Channel-wise Automatic KErnel Shrinking for Efficient 3D Networks [87.02416370081123]
3次元畳み込みニューラルネットワーク(CNN)は,映像解析やボリューム画像認識などの3次元シーン理解に広く応用されている。
本稿では,標準的な3Dコンボリューションを一連の経済活動に縮小させることで,効率的な3D学習を実現するために,チャネルワイドなKErnel Shrinking(CAKES)を提案する。
論文 参考訳(メタデータ) (2020-03-28T14:21:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。