論文の概要: NAS-TC: Neural Architecture Search on Temporal Convolutions for Complex
Action Recognition
- arxiv url: http://arxiv.org/abs/2104.01110v1
- Date: Wed, 17 Mar 2021 02:02:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-07 20:51:03.106775
- Title: NAS-TC: Neural Architecture Search on Temporal Convolutions for Complex
Action Recognition
- Title(参考訳): NAS-TC:複合行動認識のための時間的畳み込みのニューラルネットワーク探索
- Authors: Pengzhen Ren, Gang Xiao, Xiaojun Chang, Yun Xiao, Zhihui Li, and
Xiaojiang Chen
- Abstract要約: ニューラルアーキテクチャサーチ-時間畳み込み(NAS-TC)と呼ばれる新しい処理フレームワークを提案する。
第1段階では、古典的なCNNネットワークがバックボーンネットワークとして使われ、計算集約的な特徴抽出タスクが完了する。
第2段階では、セルへの簡単な縫合探索を用いて、比較的軽量な長時間時間依存情報抽出を完了させる。
- 参考スコア(独自算出の注目度): 45.168746142597946
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the field of complex action recognition in videos, the quality of the
designed model plays a crucial role in the final performance. However,
artificially designed network structures often rely heavily on the researchers'
knowledge and experience. Accordingly, because of the automated design of its
network structure, Neural architecture search (NAS) has achieved great success
in the image processing field and attracted substantial research attention in
recent years. Although some NAS methods have reduced the number of GPU search
days required to single digits in the image field, directly using 3D
convolution to extend NAS to the video field is still likely to produce a surge
in computing volume. To address this challenge, we propose a new processing
framework called Neural Architecture Search- Temporal Convolutional (NAS-TC).
Our proposed framework is divided into two phases. In the first phase, the
classical CNN network is used as the backbone network to complete the
computationally intensive feature extraction task. In the second stage, a
simple stitching search to the cell is used to complete the relatively
lightweight long-range temporal-dependent information extraction. This ensures
our method will have more reasonable parameter assignments and can handle
minute-level videos. Finally, we conduct sufficient experiments on multiple
benchmark datasets and obtain competitive recognition accuracy.
- Abstract(参考訳): ビデオにおける複雑なアクション認識の分野では、設計されたモデルの品質が最終的なパフォーマンスにおいて重要な役割を果たす。
しかし、人工的に設計されたネットワーク構造は、しばしば研究者の知識と経験に大きく依存する。
そのため、ネットワーク構造の自動設計により、ニューラルネットワーク検索(nas)は画像処理の分野で大きな成功を収め、近年は大きな研究の注目を集めている。
一部のNAS法では、イメージフィールド内の1桁のGPUサーチ日数を削減しているが、3D畳み込みを直接使用して、NASをビデオフィールドに拡張することは、計算量の増加をもたらす可能性がある。
この課題に対処するため,ニューラルアーキテクチャ検索・時間畳み込み(NAS-TC)と呼ばれる新しい処理フレームワークを提案する。
提案する枠組みは2つの段階に分けられる。
第1フェーズでは、古典的なcnnネットワークがバックボーンネットワークとして使われ、計算集約的な特徴抽出タスクを完了する。
第2段階では、セルへの簡単な縫合探索を用いて、比較的軽量な時間依存情報抽出を行う。
これにより、我々の手法はより合理的なパラメータの割り当てを可能とし、微小レベルのビデオを扱うことができる。
最後に,複数のベンチマークデータセットについて十分な実験を行い,競合認識精度を得る。
関連論文リスト
- Lightweight Neural Architecture Search for Temporal Convolutional
Networks at the Edge [21.72253397805102]
この研究は特に、時系列処理のための畳み込みモデルであるTCN(Temporal Convolutional Networks)に焦点を当てている。
我々は,TNの最も特異なアーキテクチャパラメータの最適化を明示的に目標とする最初のNASツールを提案する。
提案したNASは,音声および生体信号を含む4つの実世界のエッジ関連タスクでテストする。
論文 参考訳(メタデータ) (2023-01-24T19:47:40Z) - PV-NAS: Practical Neural Architecture Search for Video Recognition [83.77236063613579]
ビデオタスクのためのディープニューラルネットワークは高度にカスタマイズされており、そのようなネットワークの設計にはドメインの専門家と高価な試行錯誤テストが必要である。
ネットワークアーキテクチャ検索の最近の進歩により、画像認識性能は大幅に向上した。
本研究では,実用的ビデオニューラルアーキテクチャ探索(PV-NAS)を提案する。
論文 参考訳(メタデータ) (2020-11-02T08:50:23Z) - Hierarchical Neural Architecture Search for Deep Stereo Matching [131.94481111956853]
本稿では, ディープステレオマッチングのための最初のエンドツーエンド階層型NASフレームワークを提案する。
我々のフレームワークは、タスク固有の人間の知識をニューラルアーキテクチャ検索フレームワークに組み込んでいる。
KITTI stereo 2012、2015、Middleburyベンチマークで1位、SceneFlowデータセットで1位にランクインしている。
論文 参考訳(メタデータ) (2020-10-26T11:57:37Z) - MS-RANAS: Multi-Scale Resource-Aware Neural Architecture Search [94.80212602202518]
我々は,MS-RANAS(Multi-Scale Resource-Aware Neural Architecture Search)を提案する。
我々は,検索コストの削減を図るために,ワンショットのアーキテクチャ探索手法を採用した。
我々は精度-速度トレードオフの観点から最先端の結果を得る。
論文 参考訳(メタデータ) (2020-09-29T11:56:01Z) - FNA++: Fast Network Adaptation via Parameter Remapping and Architecture
Search [35.61441231491448]
本稿では,シードネットワークのアーキテクチャとパラメータの両方を適応できるFNA++法を提案する。
実験では、FNA++をMobileNetV2に適用し、セマンティックセグメンテーション、オブジェクト検出、人間のポーズ推定のための新しいネットワークを得る。
FNA++の総計算コストは、SOTAセグメンテーションやNASアプローチよりも大幅に少ない。
論文 参考訳(メタデータ) (2020-06-21T10:03:34Z) - NAS-Count: Counting-by-Density with Neural Architecture Search [74.92941571724525]
ニューラルアーキテクチャサーチ(NAS)を用いたカウントモデルの設計を自動化する
エンド・ツー・エンドの検索エンコーダ・デコーダアーキテクチャであるAutomatic Multi-Scale Network(AMSNet)を導入する。
論文 参考訳(メタデータ) (2020-02-29T09:18:17Z) - Fast Neural Network Adaptation via Parameter Remapping and Architecture
Search [35.61441231491448]
ディープニューラルネットワークは多くのコンピュータビジョンタスクにおいて顕著なパフォーマンスを達成する。
ほとんどの最新技術(SOTA)セマンティックセグメンテーションとオブジェクト検出アプローチは、バックボーンとしてイメージ分類用に設計されたニューラルネットワークアーキテクチャを再利用する。
しかし、大きな課題の1つは、画像Netによる検索空間表現の事前トレーニングが膨大な計算コストを発生させることである。
本稿では、シードネットワークのアーキテクチャとパラメータの両方を適応できる高速ニューラルネットワーク適応(FNA)手法を提案する。
論文 参考訳(メタデータ) (2020-01-08T13:45:15Z) - Scalable NAS with Factorizable Architectural Parameters [102.51428615447703]
Neural Architecture Search (NAS)は、機械学習とコンピュータビジョンにおける新たなトピックである。
本稿では,多数の候補演算子をより小さな部分空間に分解することで,スケーラブルなアルゴリズムを提案する。
検索コストが少なめに増加し、再トレーニングに余分なコストがかからないため、これまで調査されなかった興味深いアーキテクチャが見つかる。
論文 参考訳(メタデータ) (2019-12-31T10:26:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。