論文の概要: Unsupervised Object Localization in the Era of Self-Supervised ViTs: A Survey
- arxiv url: http://arxiv.org/abs/2310.12904v2
- Date: Thu, 11 Jul 2024 11:46:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-12 23:47:33.456991
- Title: Unsupervised Object Localization in the Era of Self-Supervised ViTs: A Survey
- Title(参考訳): 自己監督型 ViT 時代における教師なし物体の局在:サーベイ
- Authors: Oriane Siméoni, Éloi Zablocki, Spyros Gidaris, Gilles Puy, Patrick Pérez,
- Abstract要約: 近年の研究では、自己教師付き事前訓練機能を利用することで、クラスに依存しない非教師付きオブジェクトローカライゼーションが可能であることが示されている。
本稿では、手動のアノテーションを必要とせず、画像中のオブジェクトを検出する教師なしオブジェクトローカライズ手法について調査する。
- 参考スコア(独自算出の注目度): 33.692534984177364
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent enthusiasm for open-world vision systems show the high interest of the community to perform perception tasks outside of the closed-vocabulary benchmark setups which have been so popular until now. Being able to discover objects in images/videos without knowing in advance what objects populate the dataset is an exciting prospect. But how to find objects without knowing anything about them? Recent works show that it is possible to perform class-agnostic unsupervised object localization by exploiting self-supervised pre-trained features. We propose here a survey of unsupervised object localization methods that discover objects in images without requiring any manual annotation in the era of self-supervised ViTs. We gather links of discussed methods in the repository https://github.com/valeoai/Awesome-Unsupervised-Object-Localization.
- Abstract(参考訳): オープンワールドビジョンシステムに対する最近の熱意は、これまで非常に人気があったクローズドボキャブラリベンチマークのセットアップ以外の知覚タスクを実行することに対するコミュニティの関心の高さを示している。
データセットにどのオブジェクトが浮かぶのかを事前に知ることなく、画像やビデオでオブジェクトを発見できることは、エキサイティングな期待だ。
しかし、それらについて何も知らないまま、オブジェクトを見つけるにはどうすればよいのか?
近年の研究では、自己教師付き事前訓練機能を利用することで、クラスに依存しない非教師付きオブジェクトローカライゼーションが可能であることが示されている。
本稿では,自己教師型 ViT の時代において手動のアノテーションを必要とせず,画像中のオブジェクトを検出する非教師付きオブジェクトローカライズ手法を提案する。
議論されたメソッドのリンクをリポジトリ https://github.com/valeoai/Awesome-Unsupervised-Object-Localization に集めます。
関連論文リスト
- Teaching VLMs to Localize Specific Objects from In-context Examples [56.797110842152]
VLM(Vision-Language Models)は、様々な視覚タスクにまたがる顕著な能力を示す。
現在のVLMには基本的な認知能力がなく、コンテキストを考慮し、シーン内のオブジェクトをローカライズすることを学ぶ。
この研究は、VLMのパーソナライズされた数ショットのローカライゼーションを探索し、ベンチマークした初めてのものである。
論文 参考訳(メタデータ) (2024-11-20T13:34:22Z) - VOVTrack: Exploring the Potentiality in Videos for Open-Vocabulary Object Tracking [61.56592503861093]
オープンボキャブラリオブジェクト検出(OVD)とマルチオブジェクトトラッキング(MOT)の複雑さを両立させる。
OVMOT の既存のアプローチは、OVD と MOT の方法論を別個のモジュールとして統合することが多く、主に画像中心のレンズによる問題に焦点を当てている。
VOVTrackは、MOTとビデオ中心トレーニングに関連するオブジェクト状態を統合する新しい手法であり、ビデオオブジェクト追跡の観点からこの問題に対処する。
論文 参考訳(メタデータ) (2024-10-11T05:01:49Z) - PEEKABOO: Hiding parts of an image for unsupervised object localization [7.161489957025654]
教師なしの方法でオブジェクトをローカライズすることは、重要な視覚情報がないために大きな課題となる。
教師なしオブジェクトローカライゼーションのための単段階学習フレームワークPEEKABOOを提案する。
キーとなるアイデアは、画像の一部を選択的に隠し、残りの画像情報を活用して、明示的な監督なしにオブジェクトの位置を推測することである。
論文 参考訳(メタデータ) (2024-07-24T20:35:20Z) - Unsupervised Open-Vocabulary Object Localization in Videos [118.32792460772332]
近年,映像表現学習と事前学習型視覚言語モデルの進歩により,自己教師付き映像オブジェクトのローカライゼーションが大幅に向上したことを示す。
そこで本稿では,まず,スロットアテンションを考慮したオブジェクト中心アプローチを用いてビデオ内のオブジェクトをローカライズし,得られたスロットにテキストを割り当てる手法を提案する。
論文 参考訳(メタデータ) (2023-09-18T15:20:13Z) - Object-Centric Multiple Object Tracking [124.30650395969126]
本稿では,多目的追跡パイプラインのためのビデオオブジェクト中心モデルを提案する。
オブジェクト中心のスロットを検出出力に適応するインデックスマージモジュールと、オブジェクトメモリモジュールで構成される。
オブジェクト中心学習に特化して、オブジェクトのローカライゼーションと機能バインディングのためのスパース検出ラベルしか必要としない。
論文 参考訳(メタデータ) (2023-09-01T03:34:12Z) - Unsupervised Object Localization: Observing the Background to Discover
Objects [4.870509580034194]
本研究では,異なるアプローチを採り,その代わりに背景を探すことを提案する。
このようにして、健全なオブジェクトは、オブジェクトが何であるべきかを強く仮定することなく、副産物として現れます。
自己教師型パッチベース表現から抽出した粗い背景マスクを備えた1ドルconv1times1$のシンプルなモデルであるFOUNDを提案する。
論文 参考訳(メタデータ) (2022-12-15T13:43:11Z) - Open World DETR: Transformer based Open World Object Detection [60.64535309016623]
そこで我々は,Deformable DETRに基づくオープンワールドオブジェクト検出のための2段階学習手法Open World DETRを提案する。
モデルのクラス固有のコンポーネントを多視点の自己ラベル戦略と一貫性制約で微調整する。
提案手法は、他の最先端のオープンワールドオブジェクト検出方法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2022-12-06T13:39:30Z) - Open-Set Object Detection Using Classification-free Object Proposal and
Instance-level Contrastive Learning [25.935629339091697]
オープンセットオブジェクト検出(OSOD)は、オブジェクトと背景分離、オープンセットオブジェクト分類という2つのサブタスクからなる問題を処理するための有望な方向である。
我々は,OSODの課題に対処するため,Openset RCNNを提案する。
我々のOpenset RCNNは、散らばった環境下でロボットの並べ替えタスクをサポートするオープンセットの知覚能力でロボットを支援できることを示します。
論文 参考訳(メタデータ) (2022-11-21T15:00:04Z) - Towards Open-Set Object Detection and Discovery [38.81806249664884]
我々は新しいタスク、すなわちOpen-Set Object Detection and Discovery(OSODD)を提案する。
本稿では、まずオープンセットオブジェクト検出器を用いて、未知のオブジェクトと未知のオブジェクトの両方を予測する2段階の手法を提案する。
そこで,予測対象を教師なしで表現し,未知対象の集合から新たなカテゴリを発見する。
論文 参考訳(メタデータ) (2022-04-12T08:07:01Z) - Localizing Objects with Self-Supervised Transformers and no Labels [44.364726903520086]
イメージコレクション内のオブジェクトを監督なしでローカライズすることは、高価なアノテーションキャンペーンを避けるのに役立つ。
本稿では,自己指導型視覚変換器のアクティベーション機能を活用する,この問題に対する簡単なアプローチを提案する。
PASCAL VOC 2012では、最大8のCorLocポイントで最先端のオブジェクト発見手法より優れています。
論文 参考訳(メタデータ) (2021-09-29T09:01:07Z) - Learning Open-World Object Proposals without Learning to Classify [110.30191531975804]
本研究では,各領域の位置と形状がどの接地トラストオブジェクトとどのように重なり合うかによって,各領域の目的性を純粋に推定する,分類不要なオブジェクトローカライゼーションネットワークを提案する。
この単純な戦略は一般化可能な対象性を学び、クロスカテゴリの一般化に関する既存の提案より優れている。
論文 参考訳(メタデータ) (2021-08-15T14:36:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。