論文の概要: Deep Learning Techniques for Visual Counting
- arxiv url: http://arxiv.org/abs/2206.03033v1
- Date: Tue, 7 Jun 2022 06:20:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-09 04:27:09.408185
- Title: Deep Learning Techniques for Visual Counting
- Title(参考訳): ビジュアルカウントのためのディープラーニング技術
- Authors: Luca Ciampi
- Abstract要約: 静止画像やビデオフレーム内のオブジェクト数を自動推定する視覚的カウントタスクについて検討し,拡張した。
私は現在のCNNベースのソリューションをトレーニングするのに必要なデータ不足に関連する問題に取り組みました。
組込み視覚システムで車両を直接カウントするソリューションを導入しました。
- 参考スコア(独自算出の注目度): 0.13537117504260618
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this thesis, I investigated and enhanced the visual counting task, which
automatically estimates the number of objects in still images or video frames.
Recently, due to the growing interest in it, several CNN-based solutions have
been suggested by the scientific community. These artificial neural networks
provide a way to automatically learn effective representations from raw visual
data and can be successfully employed to address typical challenges
characterizing this task, such as different illuminations and object scales.
But apart from these difficulties, I targeted some other crucial limitations in
the adoption of CNNs, proposing solutions that I experimentally evaluated in
the context of the counting task which turns out to be particularly affected by
these shortcomings.
In particular, I tackled the problem related to the lack of data needed for
training current CNN-based solutions. Given that the budget for labeling is
limited, data scarcity still represents an open problem, particularly evident
in tasks such as the counting one, where the objects to be labeled are
thousands per image. Specifically, I introduced synthetic datasets gathered
from virtual environments, where the training labels are automatically
collected. I proposed Domain Adaptation strategies aiming at mitigating the
domain gap existing between the training and test data distributions. I
presented a counting strategy where I took advantage of the redundant
information characterizing datasets labeled by multiple annotators. Moreover, I
tackled the engineering challenges coming out of the adoption of CNN techniques
in environments with limited power resources. I introduced solutions for
counting vehicles directly onboard embedded vision systems. Finally, I designed
an embedded modular Computer Vision-based system that can carry out several
tasks to help monitor individual and collective human safety rules.
- Abstract(参考訳): 本論文では,静止画像やビデオフレーム内のオブジェクト数を自動推定する視覚的カウントタスクについて検討し,拡張した。
近年、その関心が高まっているため、いくつかのCNNベースのソリューションが科学コミュニティによって提案されている。
これらの人工ニューラルネットワークは、生の視覚データから効果的な表現を自動的に学習する方法を提供し、異なる照度やオブジェクトスケールのようなタスクを特徴付ける典型的な課題に対処するためにうまく利用することができる。
しかし、これらの困難を別にして、cnnの採用における他の重要な制限を目標としており、このような欠点によって特に影響を受けることが判明したカウントタスクの文脈で実験的に評価したソリューションを提案しています。
特に、現在のcnnベースのソリューションのトレーニングに必要なデータ不足に関する問題に取り組みました。
ラベル付けの予算が限られていることを考えると、データ不足は依然としてオープンな問題であり、特にカウントするタスクでは、ラベル付けすべきオブジェクトがイメージ毎に数千である。
具体的には,トレーニングラベルを自動的に収集する仮想環境から収集した合成データセットを紹介した。
トレーニングとテストデータ分散の間に存在するドメイン間ギャップを緩和することを目的としたドメイン適応戦略を提案する。
マルチアノテータによってラベル付けされたデータセットを特徴付ける冗長な情報を利用したカウント戦略を提示しました。
さらに、限られた電力資源を持つ環境でのCNN技術の導入によるエンジニアリング上の課題にも取り組みました。
組込み視覚システムで車両を直接カウントするソリューションを導入しました。
最後に、私は、個人および集団の人間の安全ルールを監視するのに役立ついくつかのタスクを実行できる、組み込みのモジュラーコンピュータビジョンベースのシステムを設計しました。
関連論文リスト
- AI Flow at the Network Edge [58.31090055138711]
AI Flowは、デバイス、エッジノード、クラウドサーバ間で利用可能な異種リソースを共同で活用することで、推論プロセスを合理化するフレームワークである。
この記事では、AI Flowのモチベーション、課題、原則を特定するためのポジションペーパーとして機能する。
論文 参考訳(メタデータ) (2024-11-19T12:51:17Z) - Decentralized Learning Strategies for Estimation Error Minimization with Graph Neural Networks [94.2860766709971]
統計的に同一性を持つ無線ネットワークにおける自己回帰的マルコフ過程のサンプリングとリモート推定の課題に対処する。
我々のゴールは、分散化されたスケーラブルサンプリングおよび送信ポリシーを用いて、時間平均推定誤差と/または情報の年齢を最小化することである。
論文 参考訳(メタデータ) (2024-04-04T06:24:11Z) - Hyperspectral Image Analysis in Single-Modal and Multimodal setting
using Deep Learning Techniques [1.2328446298523066]
ハイパースペクトルイメージングは、その例外的なスペクトル分解能のため、土地利用とカバーの正確な分類を提供する。
しかし、高次元化と空間分解能の制限による課題は、その効果を妨げている。
本研究では,深層学習技術を用いて特徴を効率的に処理し,抽出し,データを統合的に分類することで,これらの課題に対処する。
論文 参考訳(メタデータ) (2024-03-03T15:47:43Z) - A Proper Orthogonal Decomposition approach for parameters reduction of
Single Shot Detector networks [0.0]
本稿では,古典的モデルオーダー削減手法であるProper Orthogonal Decompositionに基づく次元削減フレームワークを提案する。
我々は、PASCAL VOCデータセットを用いてSSD300アーキテクチャにそのようなフレームワークを適用し、ネットワーク次元の削減と、転送学習コンテキストにおけるネットワークの微調整における顕著な高速化を実証した。
論文 参考訳(メタデータ) (2022-07-27T14:43:14Z) - Federated Deep Learning Meets Autonomous Vehicle Perception: Design and
Verification [168.67190934250868]
フェデレーテッド・ラーニング・パワード・コネクテッド・オートモービル(FLCAV)が提案されている。
FLCAVは通信とアノテーションのコストを削減しながらプライバシを保存する。
マルチステージトレーニングのためのネットワークリソースと道路センサのポーズを決定することは困難である。
論文 参考訳(メタデータ) (2022-06-03T23:55:45Z) - Exploring Data Aggregation and Transformations to Generalize across
Visual Domains [0.0]
この論文は、ドメイン一般化(DG)、ドメイン適応(DA)およびそれらのバリエーションの研究に寄与する。
本稿では,機能集約戦略と視覚変換を利用するドメイン一般化とドメイン適応の新しいフレームワークを提案する。
提案手法が確立したDGおよびDAベンチマークにおいて,最先端の競争的アプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-20T14:58:14Z) - Visual Domain Adaptation for Monocular Depth Estimation on
Resource-Constrained Hardware [3.7399856406582086]
我々は、ビジュアルドメイン適応の文脈において、リソース制約のあるハードウェア上でディープニューラルネットワークをトレーニングする問題に対処する。
本稿では,限られたリソースを持つデバイス上での学習に適応した逆学習手法を提案する。
実験の結果,視覚領域適応は効率的なネットワークアーキテクチャとトレーニングセットにのみ関係していることがわかった。
論文 参考訳(メタデータ) (2021-08-05T15:10:00Z) - Learning a Domain-Agnostic Visual Representation for Autonomous Driving
via Contrastive Loss [25.798361683744684]
ドメイン認識コントラスト学習(Domain-Agnostic Contrastive Learning、DACL)は、2段階の非監視ドメイン適応フレームワークである。
提案手法は,従来の最新手法に比べ,単眼深度推定作業における性能向上を実現した。
論文 参考訳(メタデータ) (2021-03-10T07:06:03Z) - A Review of Single-Source Deep Unsupervised Visual Domain Adaptation [81.07994783143533]
大規模ラベル付きトレーニングデータセットにより、ディープニューラルネットワークは、幅広いベンチマークビジョンタスクを拡張できるようになった。
多くのアプリケーションにおいて、大量のラベル付きデータを取得するのは非常に高価で時間を要する。
限られたラベル付きトレーニングデータに対処するため、大規模ラベル付きソースドメインでトレーニングされたモデルを、疎ラベルまたは未ラベルのターゲットドメインに直接適用しようと試みている人も多い。
論文 参考訳(メタデータ) (2020-09-01T00:06:50Z) - Binary Neural Networks: A Survey [126.67799882857656]
バイナリニューラルネットワークは、リソース制限されたデバイスにディープモデルをデプロイするための有望なテクニックとして機能する。
バイナライゼーションは必然的に深刻な情報損失を引き起こし、さらに悪いことに、その不連続性はディープネットワークの最適化に困難をもたらす。
本稿では,2項化を直接実施するネイティブソリューションと,量子化誤差の最小化,ネットワーク損失関数の改善,勾配誤差の低減といった手法を用いて,これらのアルゴリズムを探索する。
論文 参考訳(メタデータ) (2020-03-31T16:47:20Z) - Unsupervised Domain Adaptation in Person re-ID via k-Reciprocal
Clustering and Large-Scale Heterogeneous Environment Synthesis [76.46004354572956]
個人再識別のための教師なし領域適応手法を提案する。
実験結果から,ktCUDA法とSHRED法は,再同定性能において,+5.7 mAPの平均的改善を実現することがわかった。
論文 参考訳(メタデータ) (2020-01-14T17:43:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。