論文の概要: From classical techniques to convolution-based models: A review of object detection algorithms
- arxiv url: http://arxiv.org/abs/2412.05252v1
- Date: Fri, 06 Dec 2024 18:32:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-09 15:57:53.067301
- Title: From classical techniques to convolution-based models: A review of object detection algorithms
- Title(参考訳): 古典的手法から畳み込みモデル:オブジェクト検出アルゴリズムのレビュー
- Authors: Fnu Neha, Deepshikha Bhati, Deepak Kumar Shukla, Md Amiruzzaman,
- Abstract要約: 物体検出はコンピュータビジョンと画像理解の基本的な課題である。
手作りの特徴と浅いモデルに頼っていた伝統的な手法は、複雑な視覚データに悩まされ、限られた性能を示した。
ディープラーニング、特に畳み込みニューラルネットワーク(CNN)は、データから直接リッチで階層的な機能を自動的に学習することで、これらの制限に対処した。
- 参考スコア(独自算出の注目度): 0.562479170374811
- License:
- Abstract: Object detection is a fundamental task in computer vision and image understanding, with the goal of identifying and localizing objects of interest within an image while assigning them corresponding class labels. Traditional methods, which relied on handcrafted features and shallow models, struggled with complex visual data and showed limited performance. These methods combined low-level features with contextual information and lacked the ability to capture high-level semantics. Deep learning, especially Convolutional Neural Networks (CNNs), addressed these limitations by automatically learning rich, hierarchical features directly from data. These features include both semantic and high-level representations essential for accurate object detection. This paper reviews object detection frameworks, starting with classical computer vision methods. We categorize object detection approaches into two groups: (1) classical computer vision techniques and (2) CNN-based detectors. We compare major CNN models, discussing their strengths and limitations. In conclusion, this review highlights the significant advancements in object detection through deep learning and identifies key areas for further research to improve performance.
- Abstract(参考訳): オブジェクト検出はコンピュータビジョンとイメージ理解の基本的なタスクであり、画像内の興味あるオブジェクトを識別し、ローカライズし、それに対応するクラスラベルを割り当てることを目的としている。
手作りの特徴と浅いモデルに頼っていた伝統的な手法は、複雑な視覚データに悩まされ、限られた性能を示した。
これらの手法は文脈情報と低レベルの特徴を組み合わせ、高レベルの意味論を捉える能力に欠けていた。
ディープラーニング、特に畳み込みニューラルネットワーク(CNN)は、データから直接リッチで階層的な機能を自動的に学習することで、これらの制限に対処した。
これらの特徴には、正確なオブジェクト検出に不可欠なセマンティック表現とハイレベル表現の両方が含まれる。
本稿では,従来のコンピュータビジョン手法から始めるオブジェクト検出フレームワークについてレビューする。
我々は,物体検出手法を,(1)古典的コンピュータビジョン技術と(2)CNNに基づく検出器の2つのグループに分類する。
主要なCNNモデルを比較し、その強みと限界について議論する。
結論として,本研究では,ディープラーニングによる物体検出の大幅な進歩と,さらなる研究と性能向上の鍵となる領域を明らかにする。
関連論文リスト
- Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - Learning-based Relational Object Matching Across Views [63.63338392484501]
本稿では,RGB画像間のオブジェクト検出をマッチングするための,局所キーポイントと新たなオブジェクトレベルの特徴を組み合わせた学習ベースアプローチを提案する。
我々は、連想グラフニューラルネットワークにおいて、オブジェクト間の外観とフレーム間およびフレーム間空間関係に基づいて、オブジェクトレベルのマッチング機能を訓練する。
論文 参考訳(メタデータ) (2023-05-03T19:36:51Z) - The Overlooked Classifier in Human-Object Interaction Recognition [82.20671129356037]
クラス間の意味的相関を分類ヘッドにエンコードし,重みをHOIの言語埋め込みで初期化する。
我々は,LSE-Sign という新しい損失を,長い尾を持つデータセット上でのマルチラベル学習を強化するために提案する。
我々は,物体検出と人間のポーズを明確なマージンで求める最先端技術よりも優れた,検出不要なHOI分類を可能にする。
論文 参考訳(メタデータ) (2022-03-10T23:35:00Z) - Hybrid Optimized Deep Convolution Neural Network based Learning Model
for Object Detection [0.0]
物体の識別はコンピュータビジョンにおける最も基本的で難しい問題の1つである。
近年,ディープラーニングに基づく物体検出技術が大衆の関心を集めている。
本研究では,自律型物体検出システムを構築するために,独自のディープラーニング分類手法を用いる。
提案するフレームワークは検出精度0.9864であり、現在の技術よりも高い。
論文 参考訳(メタデータ) (2022-03-02T04:39:37Z) - Recent Trends in 2D Object Detection and Applications in Video Event
Recognition [0.76146285961466]
物体検出における先駆的な研究について論じるとともに,近年のディープラーニングを活用したブレークスルーも取り上げている。
本稿では、画像とビデオの両方で2次元物体検出のための最近のデータセットを強調し、様々な最先端物体検出技術の比較性能の概要を示す。
論文 参考訳(メタデータ) (2022-02-07T14:15:11Z) - Contrastive Object Detection Using Knowledge Graph Embeddings [72.17159795485915]
一つのホットアプローチで学習したクラス埋め込みの誤差統計と、自然言語処理や知識グラフから意味的に構造化された埋め込みを比較した。
本稿では,キーポイントベースおよびトランスフォーマーベースオブジェクト検出アーキテクチャの知識埋め込み設計を提案する。
論文 参考訳(メタデータ) (2021-12-21T17:10:21Z) - Pix2seq: A Language Modeling Framework for Object Detection [12.788663431798588]
Pix2Seqはオブジェクト検出のためのシンプルで汎用的なフレームワークである。
我々はニューラルネットをトレーニングし、画像を認識し、所望のシーケンスを生成する。
私たちのアプローチは主に、ニューラルネットワークがオブジェクトの場所と場所を知っていれば、その読み方を教える必要がある、という直感に基づいています。
論文 参考訳(メタデータ) (2021-09-22T17:26:36Z) - Class-agnostic Object Detection [16.97782147401037]
本稿では,オブジェクトのクラスに関係なくオブジェクトを検出することに焦点を当てた新しい問題として,クラスに依存しないオブジェクト検出を提案する。
具体的には、イメージ内のすべてのオブジェクトのバウンディングボックスを予測することであり、オブジェクトクラスではない。
本稿では,この領域における今後の研究を進めるために,クラス非依存検出器のベンチマークのためのトレーニングおよび評価プロトコルを提案する。
論文 参考訳(メタデータ) (2020-11-28T19:22:38Z) - Slender Object Detection: Diagnoses and Improvements [74.40792217534]
本稿では,超高アスペクト比,すなわちtextbfslender オブジェクトの特定タイプの検出について検討する。
古典的物体検出法では、細い物体に対してのみ評価される場合、COCO上の18.9%のmAPの劇的な低下が観察される。
論文 参考訳(メタデータ) (2020-11-17T09:39:42Z) - Ventral-Dorsal Neural Networks: Object Detection via Selective Attention [51.79577908317031]
我々はVDNet(Ventral-Dorsal Networks)と呼ばれる新しいフレームワークを提案する。
人間の視覚システムの構造にインスパイアされた我々は「Ventral Network」と「Dorsal Network」の統合を提案する。
実験の結果,提案手法は最先端の物体検出手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-05-15T23:57:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。