論文の概要: Auto-X3D: Ultra-Efficient Video Understanding via Finer-Grained Neural
Architecture Search
- arxiv url: http://arxiv.org/abs/2112.04710v1
- Date: Thu, 9 Dec 2021 05:40:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-10 15:00:13.715953
- Title: Auto-X3D: Ultra-Efficient Video Understanding via Finer-Grained Neural
Architecture Search
- Title(参考訳): Auto-X3D:Finer-Grained Neural Architecture Searchによる超効率的なビデオ理解
- Authors: Yifan Jiang, Xinyu Gong, Junru Wu, Humphrey Shi, Zhicheng Yan,
Zhangyang Wang
- Abstract要約: X3Dワークは、複数の軸に沿って手作りの画像アーキテクチャを拡張することで、効率的なビデオモデルの新たなファミリーを提示する。
このような大きな空間を効率的に探索するために確率論的ニューラルネットワーク探索法を採用する。
KineticsとSomething-V2ベンチマークの評価では、私たちのAutoX3DモデルはFLOPで1.3%の精度で既存のモデルより優れています。
- 参考スコア(独自算出の注目度): 73.05693037548932
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Efficient video architecture is the key to deploying video recognition
systems on devices with limited computing resources. Unfortunately, existing
video architectures are often computationally intensive and not suitable for
such applications. The recent X3D work presents a new family of efficient video
models by expanding a hand-crafted image architecture along multiple axes, such
as space, time, width, and depth. Although operating in a conceptually large
space, X3D searches one axis at a time, and merely explored a small set of 30
architectures in total, which does not sufficiently explore the space. This
paper bypasses existing 2D architectures, and directly searched for 3D
architectures in a fine-grained space, where block type, filter number,
expansion ratio and attention block are jointly searched. A probabilistic
neural architecture search method is adopted to efficiently search in such a
large space. Evaluations on Kinetics and Something-Something-V2 benchmarks
confirm our AutoX3D models outperform existing ones in accuracy up to 1.3%
under similar FLOPs, and reduce the computational cost up to x1.74 when
reaching similar performance.
- Abstract(参考訳): 効率的なビデオアーキテクチャは、限られたコンピューティングリソースを持つデバイスにビデオ認識システムをデプロイする鍵となる。
残念ながら、既存のビデオアーキテクチャはしばしば計算集約的であり、そのような用途には適していない。
最近のX3D研究は、空間、時間、幅、深さなどの複数の軸に沿って手作りの画像アーキテクチャを拡張することで、効率的なビデオモデルの新たなファミリーを提示している。
概念的には大きな空間で動作するが、x3dは一度に一つの軸を探索し、空間を十分に探索しない30のアーキテクチャの小さなセットを探索するだけである。
本稿では,既存の2次元アーキテクチャをバイパスし,ブロックタイプ,フィルタ数,拡張比,アテンションブロックを共同で探索する,きめ細かい空間の3次元アーキテクチャを直接探索する。
このような大きな空間を効率的に探索するために確率論的ニューラルネットワーク探索法を採用する。
KineticsとSomething-V2ベンチマークによる評価では、AutoX3DモデルはFLOPの精度が1.3%まで向上し、同様の性能に達すると計算コストがx1.74まで削減された。
関連論文リスト
- Flexible Channel Dimensions for Differentiable Architecture Search [50.33956216274694]
本稿では,効率的な動的チャネル割当アルゴリズムを用いた新しい微分可能なニューラルアーキテクチャ探索法を提案する。
提案するフレームワークは,タスク精度と推論遅延において,従来の手法と等価なDNNアーキテクチャを見つけることができることを示す。
論文 参考訳(メタデータ) (2023-06-13T15:21:38Z) - Searching a High-Performance Feature Extractor for Text Recognition
Network [92.12492627169108]
優れた特徴抽出器を持つための原理を探求し,ドメイン固有の検索空間を設計する。
空間は巨大で複雑な構造であるため、既存のNASアルゴリズムを適用することはできない。
本研究では,空間内を効率的に探索する2段階のアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-27T03:49:04Z) - PVNAS: 3D Neural Architecture Search with Point-Voxel Convolution [26.059213743430192]
効率の観点から3次元深層学習について検討する。
ハードウェア効率の良い新しい3DプリミティブであるPoint-Voxel Convolution(PVConv)を提案する。
論文 参考訳(メタデータ) (2022-04-25T17:13:55Z) - Towards Improving the Consistency, Efficiency, and Flexibility of
Differentiable Neural Architecture Search [84.4140192638394]
最も微分可能なニューラルアーキテクチャ探索法は、探索用のスーパーネットを構築し、そのサブグラフとしてターゲットネットを導出する。
本稿では,エンジンセルとトランジットセルからなるEnTranNASを紹介する。
また,検索処理の高速化を図るため,メモリや計算コストの削減も図っている。
論文 参考訳(メタデータ) (2021-01-27T12:16:47Z) - Memory-Efficient Hierarchical Neural Architecture Search for Image
Restoration [68.6505473346005]
メモリ効率の高い階層型NAS HiNAS(HiNAS)を提案する。
単一の GTX1080Ti GPU では、BSD 500 でネットワークを消すのに約 1 時間、DIV2K で超解像構造を探すのに 3.5 時間しかかかりません。
論文 参考訳(メタデータ) (2020-12-24T12:06:17Z) - ISTA-NAS: Efficient and Consistent Neural Architecture Search by Sparse
Coding [86.40042104698792]
スパース符号問題としてニューラルアーキテクチャ探索を定式化する。
実験では、CIFAR-10の2段階法では、検索にわずか0.05GPUしか必要としない。
本手法は,CIFAR-10とImageNetの両方において,評価時間のみのコストで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-10-13T04:34:24Z) - Making a Case for 3D Convolutions for Object Segmentation in Videos [16.167397418720483]
本研究では,3次元畳み込みネットワークが高精細な物体分割などの高密度映像予測タスクに効果的に適用可能であることを示す。
本稿では,新しい3Dグローバル・コンボリューション・レイヤと3Dリファインメント・モジュールからなる3Dデコーダアーキテクチャを提案する。
提案手法は,DAVIS'16 Unsupervised, FBMS, ViSalベンチマークにおいて,既存の最先端技術よりもはるかに優れている。
論文 参考訳(メタデータ) (2020-08-26T12:24:23Z) - Searching Efficient 3D Architectures with Sparse Point-Voxel Convolution [34.713667358316286]
自動運転車は安全に運転するために、3Dシーンを効率的に正確に理解する必要がある。
既存の3次元知覚モデルは、低解像度のボキセル化とアグレッシブなダウンサンプリングのために、小さなインスタンスを十分に認識できない。
Sparse Point-Voxel Convolution (SPVConv) は,バニラ・スパース・コンボリューションを高分解能な点ベース分岐に装備する軽量な3次元モジュールである。
論文 参考訳(メタデータ) (2020-07-31T14:27:27Z) - X3D: Expanding Architectures for Efficient Video Recognition [21.539880641349693]
X3Dは、小さな2D画像分類アーキテクチャを徐々に拡張する効率的なビデオネットワークのファミリーである。
機械学習における特徴選択法に触発されて、単純なステップワイズネットワーク拡張アプローチが採用されている。
我々は,ビデオ分類および検出ベンチマークにおいて,前例のない効率で競合精度を報告した。
論文 参考訳(メタデータ) (2020-04-09T17:59:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。