論文の概要: Efficient Visual Recognition with Deep Neural Networks: A Survey on
Recent Advances and New Directions
- arxiv url: http://arxiv.org/abs/2108.13055v1
- Date: Mon, 30 Aug 2021 08:19:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-31 14:37:01.883724
- Title: Efficient Visual Recognition with Deep Neural Networks: A Survey on
Recent Advances and New Directions
- Title(参考訳): ディープニューラルネットワークを用いた効率的な視覚認識:最近の進歩と新たな方向性
- Authors: Yang Wu, Dingheng Wang, Xiaotong Lu, Fan Yang, Guoqi Li, Weisheng
Dong, Jianbo Shi
- Abstract要約: ディープニューラルネットワーク(DNN)は、多くの具体的なタスクにおけるパフォーマンスを大幅に向上させた。
ディープニューラルネットワーク(DNN)は、多くの具体的なタスクにおけるパフォーマンスを大幅に向上させた。
本稿では,近年の進歩の展望と今後の方向性について提案する。
- 参考スコア(独自算出の注目度): 37.914102870280324
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual recognition is currently one of the most important and active research
areas in computer vision, pattern recognition, and even the general field of
artificial intelligence. It has great fundamental importance and strong
industrial needs. Deep neural networks (DNNs) have largely boosted their
performances on many concrete tasks, with the help of large amounts of training
data and new powerful computation resources. Though recognition accuracy is
usually the first concern for new progresses, efficiency is actually rather
important and sometimes critical for both academic research and industrial
applications. Moreover, insightful views on the opportunities and challenges of
efficiency are also highly required for the entire community. While general
surveys on the efficiency issue of DNNs have been done from various
perspectives, as far as we are aware, scarcely any of them focused on visual
recognition systematically, and thus it is unclear which progresses are
applicable to it and what else should be concerned. In this paper, we present
the review of the recent advances with our suggestions on the new possible
directions towards improving the efficiency of DNN-related visual recognition
approaches. We investigate not only from the model but also the data point of
view (which is not the case in existing surveys), and focus on three most
studied data types (images, videos and points). This paper attempts to provide
a systematic summary via a comprehensive survey which can serve as a valuable
reference and inspire both researchers and practitioners who work on visual
recognition problems.
- Abstract(参考訳): 視覚認識は現在、コンピュータビジョン、パターン認識、さらには人工知能の一般分野において、最も重要かつ活発な研究分野の1つである。
根本的重要性と強い産業的ニーズがある。
ディープニューラルネットワーク(DNN)は、大量のトレーニングデータと新たな強力な計算リソースの助けを借りて、多くの具体的なタスクのパフォーマンスを大幅に向上させた。
認識精度は、新しい進歩の第一の関心事であるが、効率性は実際にはかなり重要であり、学術研究と工業応用の両方において重要である。
さらに、効率性の機会や課題に対する洞察深い見解は、コミュニティ全体にとって非常に必要です。
DNNの効率性に関する一般的な調査は様々な観点から行われてきたが、我々の知る限り、視覚認識を体系的に重視しているものはほとんどなく、どの進歩がそれに当てはまるのか、その他の点については不透明である。
本稿では,DNN関連視覚認識手法の効率向上に向けた新たな方向性を提案するとともに,最近の進歩を概観する。
モデルだけでなくデータの観点からも検討を行い(既存調査ではそうではない)、最も研究されている3つのデータタイプ(画像、ビデオ、ポイント)に焦点を当てた。
本稿では,視覚認知問題に携わる研究者と実践者の両方に刺激を与える,総合的な調査を通じて,体系的な要約を提供することを試みる。
関連論文リスト
- A Critical Analysis on Machine Learning Techniques for Video-based Human Activity Recognition of Surveillance Systems: A Review [1.3693860189056777]
混雑した場所での異常な活動の増大は、インテリジェントな監視システムの必要性を喚起する。
ビデオに基づく人間の活動認識は、そのプレス問題で多くの研究者を惹きつけている。
本稿では,映像に基づくヒューマンアクティビティ認識(HAR)技術について批判的な調査を行う。
論文 参考訳(メタデータ) (2024-09-01T14:43:57Z) - RNNs, CNNs and Transformers in Human Action Recognition: A Survey and a Hybrid Model [0.0]
HAR(Human Action Recognition)は、さまざまな領域にわたる人間の活動を監視するタスクである。
過去10年間で、HARの分野は、畳み込みニューラルネットワーク(CNN)を活用することで、かなりの進歩をみせた。
近年、コンピュータビジョンの領域は、視覚変換器(ViT)が強力なソリューションとして出現するのを目撃している。
論文 参考訳(メタデータ) (2024-06-02T17:09:59Z) - Effectiveness Assessment of Recent Large Vision-Language Models [78.69439393646554]
本稿では,多言語多言語モデル(LVLM)の専門的および汎用的な課題における能力を評価する。
私たちは、自然、医療、産業という3つの異なるアプリケーションシナリオで6つの挑戦的なタスクを採用しています。
我々は,MiniGPT-v2,LLaVA-1.5,Shikraを含む最近の3つのオープンソースLVLMの視覚的認識および局所化性能について検討した。
論文 参考訳(メタデータ) (2024-03-07T08:25:27Z) - Machine Unlearning: A Survey [56.79152190680552]
プライバシ、ユーザビリティ、および/または忘れられる権利のために、特定のサンプルに関する情報をマシンアンラーニングと呼ばれるモデルから削除する必要がある特別なニーズが生まれている。
この新興技術は、その革新と実用性により、学者と産業の両方から大きな関心を集めている。
この複雑なトピックを分析したり、さまざまなシナリオで既存の未学習ソリューションの実現可能性を比較したりした研究はない。
この調査は、未学習のテクニックに関する卓越した問題と、新しい研究機会のための実現可能な方向性を強調して締めくくった。
論文 参考訳(メタデータ) (2023-06-06T10:18:36Z) - Survey: Exploiting Data Redundancy for Optimization of Deep Learning [42.1585031880029]
深部ニューラルネットワーク(DNN)の入力と中間結果におけるデータの冗長性
この記事では、このトピックに関する最近の何百もの論文を調査します。
様々なテクニックを単一の分類の枠組みに組み込む新しい分類法を導入している。
論文 参考訳(メタデータ) (2022-08-29T04:31:18Z) - Causal Reasoning Meets Visual Representation Learning: A Prospective
Study [117.08431221482638]
解釈可能性の欠如、堅牢性、分布外一般化が、既存の視覚モデルの課題となっている。
人間レベルのエージェントの強い推論能力にインスパイアされた近年では、因果推論パラダイムの開発に多大な努力が注がれている。
本稿では,この新興分野を包括的に概観し,注目し,議論を奨励し,新たな因果推論手法の開発の急激さを先導することを目的とする。
論文 参考訳(メタデータ) (2022-04-26T02:22:28Z) - Human Activity Recognition Using Tools of Convolutional Neural Networks:
A State of the Art Review, Data Sets, Challenges and Future Prospects [7.275302131211702]
このレビューでは、人間の活動認識のための畳み込みニューラルネットワーク(CNN)という、幅広いディープニューラルネットワークアーキテクチャに基づく最近の研究を要約する。
レビューされたシステムは、マルチモーダルセンシングデバイス、スマートフォン、レーダー、ビジョンデバイスなどの入力デバイスの使用によって、4つのカテゴリに分類される。
論文 参考訳(メタデータ) (2022-02-02T18:52:13Z) - Affect Analysis in-the-wild: Valence-Arousal, Expressions, Action Units
and a Unified Framework [83.21732533130846]
Aff-Wild と Aff-Wild2 の2つである。
これは、これらのデータベースで訓練された深層ニューラルネットワークの2つのクラスの設計を示す。
インパクト認識を共同で学び、効果的に一般化し、実行することができる新しいマルチタスクおよび全体主義のフレームワークが提示されます。
論文 参考訳(メタデータ) (2021-03-29T17:36:20Z) - Survey on Reliable Deep Learning-Based Person Re-Identification Models:
Are We There Yet? [19.23187114221822]
人物再識別(PReID)は、インテリジェントビデオ監視(IVS)において最も重大な問題の一つである。
ディープニューラルネットワーク(DNN)は、同様のビジョン問題とテスト時の高速実行に魅力的なパフォーマンスを与えた。
ベンチマークデータセットのセット上で、各モデルについての評価とともに、各モデルについて記述する。
論文 参考訳(メタデータ) (2020-04-30T16:09:16Z) - Deep Learning for Sensor-based Human Activity Recognition: Overview,
Challenges and Opportunities [52.59080024266596]
本稿では,センサを用いた人間の活動認識のための最先端のディープラーニング手法について調査する。
まず、官能データのマルチモーダリティを導入し、公開データセットに情報を提供する。
次に、課題によって深層メソッドを構築するための新しい分類法を提案する。
論文 参考訳(メタデータ) (2020-01-21T09:55:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。