論文の概要: Toward unsupervised, multi-object discovery in large-scale image
collections
- arxiv url: http://arxiv.org/abs/2007.02662v2
- Date: Tue, 25 Aug 2020 11:11:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-13 02:45:40.116722
- Title: Toward unsupervised, multi-object discovery in large-scale image
collections
- Title(参考訳): 大規模画像コレクションにおける教師なしマルチオブジェクト発見に向けて
- Authors: Huy V. Vo, Patrick P\'erez and Jean Ponce
- Abstract要約: 本稿では,Vo et al の最適化手法に基づく。
そこで我々は,新しいサリエンシに基づく領域提案アルゴリズムを提案する。
提案手法の階層構造を有効正則化器として活用する。
- 参考スコア(独自算出の注目度): 26.39475298878971
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper addresses the problem of discovering the objects present in a
collection of images without any supervision. We build on the optimization
approach of Vo et al. (CVPR'19) with several key novelties: (1) We propose a
novel saliency-based region proposal algorithm that achieves significantly
higher overlap with ground-truth objects than other competitive methods. This
procedure leverages off-the-shelf CNN features trained on classification tasks
without any bounding box information, but is otherwise unsupervised. (2) We
exploit the inherent hierarchical structure of proposals as an effective
regularizer for the approach to object discovery of Vo et al., boosting its
performance to significantly improve over the state of the art on several
standard benchmarks. (3) We adopt a two-stage strategy to select promising
proposals using small random sets of images before using the whole image
collection to discover the objects it depicts, allowing us to tackle, for the
first time (to the best of our knowledge), the discovery of multiple objects in
each one of the pictures making up datasets with up to 20,000 images, an over
five-fold increase compared to existing methods, and a first step toward true
large-scale unsupervised image interpretation.
- Abstract(参考訳): 本稿では,画像コレクションに存在する物体を監督せずに発見する問題に対処する。
我々は,Vo et al. (CVPR'19) の最適化手法をいくつかの重要な特徴で構築し,(1) 新たなサリエンシに基づく領域提案アルゴリズムを提案する。
この手順は、境界ボックス情報なしで分類タスクで訓練された既製のCNN機能を活用するが、それ以外は教師なしである。
2) 提案手法の階層構造を,Vo などのオブジェクト発見手法の効果的な正則化手法として活用し,その性能を向上し,いくつかの標準ベンチマークにおける技術状況を大幅に改善する。
3) 2段階の戦略を採り、画像コレクション全体を用いて表現する対象を発見する前に、小さなランダムな画像セットを用いた有望な提案を選択し、まず(我々の知る限りでは)、最大2万枚の画像でデータセットを構成する画像の1つに複数のオブジェクトを発見し、既存の方法と比較して5倍以上の増加、そして、真の大規模な教師なし画像解釈への第一歩を踏み出した。
関連論文リスト
- Generalizable Single-view Object Pose Estimation by Two-side Generating and Matching [19.730504197461144]
本稿では,RGB画像のみを用いてオブジェクトのポーズを決定するために,新しい一般化可能なオブジェクトポーズ推定手法を提案する。
本手法は,オブジェクトの参照画像1枚で操作し,3次元オブジェクトモデルやオブジェクトの複数ビューの必要性を解消する。
論文 参考訳(メタデータ) (2024-11-24T14:31:50Z) - A Simple Baseline for Multi-Camera 3D Object Detection [94.63944826540491]
周囲のカメラで3Dオブジェクトを検出することは、自動運転にとって有望な方向だ。
マルチカメラオブジェクト検出のための簡易ベースラインであるSimMODを提案する。
我々は, nuScenes の3次元オブジェクト検出ベンチマークにおいて, SimMOD の有効性を示す広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-08-22T03:38:01Z) - Bridging the Gap between Object and Image-level Representations for
Open-Vocabulary Detection [54.96069171726668]
オープンボキャブラリ検出(OVD)で使用される2種類の弱いスーパービジョンには、事前訓練されたCLIPモデルと画像レベルの監視が含まれる。
本稿では,CLIPモデルから言語埋め込みをオブジェクト中心でアライメントすることでこの問題に対処することを提案する。
上記の2つの対物配向戦略の橋渡しを,新しい重み伝達関数を用いて行う。
論文 参考訳(メタデータ) (2022-07-07T17:59:56Z) - Facing the Void: Overcoming Missing Data in Multi-View Imagery [0.783788180051711]
本稿では,この問題に頑健な多視点画像分類のための新しい手法を提案する。
提案手法は,最先端の深層学習とメートル法学習に基づいて,他のアプリケーションやドメインに容易に適応し,活用することができる。
その結果,提案アルゴリズムは,最先端手法と比較して,多視点画像分類精度の向上を図っている。
論文 参考訳(メタデータ) (2022-05-21T13:21:27Z) - Large-Scale Unsupervised Object Discovery [80.60458324771571]
教師なしオブジェクトディスカバリ(UOD)は、パフォーマンスを損なう近似なしでは、大規模なデータセットにスケールアップしない。
本稿では,固有値問題やリンク解析に利用できる分散手法の武器として,ランク付け問題としてのUODの新たな定式化を提案する。
論文 参考訳(メタデータ) (2021-06-12T00:29:49Z) - Ensembling object detectors for image and video data analysis [98.26061123111647]
本稿では,複数の物体検出器の出力をアンサンブルすることで,画像データ上の境界ボックスの検出性能と精度を向上させる手法を提案する。
本研究では,2段階追跡に基づく検出精度向上手法を提案することで,映像データに拡張する。
論文 参考訳(メタデータ) (2021-02-09T12:38:16Z) - Addressing Visual Search in Open and Closed Set Settings [8.928169373673777]
低解像度ギスト画像から画素レベルのオブジェクト性を予測する手法を提案する。
次に,高分解能で局所的にオブジェクト検出を行う領域を選択する。
第二に、未確認の可能性のある対象クラスの全てのインスタンスを探索するオープンセットビジュアルサーチの新しい手法を提案する。
論文 参考訳(メタデータ) (2020-12-11T17:21:28Z) - Tasks Integrated Networks: Joint Detection and Retrieval for Image
Search [99.49021025124405]
多くの現実世界の探索シナリオ(例えばビデオ監視)では、オブジェクトは正確に検出または注釈付けされることはめったにない。
まず、エンド・ツー・エンド統合ネット(I-Net)を紹介します。
さらに,2つの新しいコントリビューションを行うDC-I-Netという改良されたI-Netを提案する。
論文 参考訳(メタデータ) (2020-09-03T03:57:50Z) - Localizing Grouped Instances for Efficient Detection in Low-Resource
Scenarios [27.920304852537534]
可変物体の大きさや密度に適応するフレキシブルな検出手法を提案する。
我々は検出段階の連続に頼り、それぞれが個人だけでなく、対象の群を予測できる能力を持っている。
本稿では,2つの航空画像データセットの実験結果について報告し,提案手法が標準単発検出器よりも精度が高く,計算効率も高いことを示す。
論文 参考訳(メタデータ) (2020-04-27T07:56:53Z) - Object-Centric Image Generation from Layouts [93.10217725729468]
複数のオブジェクトを持つ複雑なシーンを生成するレイアウト・ツー・イメージ生成法を開発した。
本手法は,シーン内のオブジェクト間の空間的関係の表現を学習し,レイアウトの忠実度の向上につながる。
本稿では,Fr'echet Inception Distanceのオブジェクト中心適応であるSceneFIDを紹介する。
論文 参考訳(メタデータ) (2020-03-16T21:40:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。