論文の概要: Solving Instance Detection from an Open-World Perspective
- arxiv url: http://arxiv.org/abs/2503.00359v1
- Date: Sat, 01 Mar 2025 05:56:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:19:17.158861
- Title: Solving Instance Detection from an Open-World Perspective
- Title(参考訳): オープンワールドから見たインスタンス検出の解法
- Authors: Qianqian Shen, Yunhan Zhao, Nahyun Kwon, Jeeeun Kim, Yanan Li, Shu Kong,
- Abstract要約: インスタンス検出(InsDet)は、与えられた視覚的参照に基づいて、新しいシーンイメージ内の特定のオブジェクトインスタンスをローカライズすることを目的としている。
本稿では,オープンワールドの観点からInsDetにアプローチし,その方法を提案する。
提案手法では, 距離学習と新たなデータ拡張を併用し, トラクタを陰例とし, 新規ビューインスタンスを合成し, 視覚的参照を豊かにする。
- 参考スコア(独自算出の注目度): 14.438053802336947
- License:
- Abstract: Instance detection (InsDet) aims to localize specific object instances within a novel scene imagery based on given visual references. Technically, it requires proposal detection to identify all possible object instances, followed by instance-level matching to pinpoint the ones of interest. Its open-world nature supports its wide-ranging applications from robotics to AR/VR, but also presents significant challenges: methods must generalize to unknown testing data distributions because (1) the testing scene imagery is unseen during training, and (2) there are domain gaps between visual references and detected proposals. Existing methods attempt to tackle these challenges by synthesizing diverse training examples or utilizing off-the-shelf foundation models (FMs). However, they only partially capitalize the available open-world information. In this paper, we approach InsDet from an Open-World perspective, introducing our method IDOW. We find that, while pretrained FMs yield high recall in instance detection, they are not specifically optimized for instance-level feature matching. To address this, we adapt pretrained FMs for improved instance-level matching using open-world data. Our approach incorporates metric learning along with novel data augmentations, which sample distractors as negative examples and synthesize novel-view instances to enrich the visual references. Extensive experiments demonstrate that our method significantly outperforms prior works, achieving >10 AP over previous results on two recently released challenging benchmark datasets in both conventional and novel instance detection settings.
- Abstract(参考訳): インスタンス検出(InsDet)は、与えられた視覚的参照に基づいて、新しいシーンイメージ内の特定のオブジェクトインスタンスをローカライズすることを目的としている。
技術的には、すべての可能なオブジェクトインスタンスを識別するためにプロポーザル検出を必要とし、続いて関心のあるインスタンスをピンポイントするインスタンスレベルのマッチングを行う。
そのオープンワールドの性質は、ロボット工学からAR/VRまで幅広い応用をサポートしているが、(1)テストシーンのイメージはトレーニング中に見えず、(2)ビジュアルリファレンスと検出された提案の間にはドメインギャップがあるため、メソッドは未知のテストデータ分布に一般化する必要がある、という大きな課題も示している。
既存の方法は、多様なトレーニング例を合成したり、オフザシェルフ基礎モデル(FM)を利用したりすることで、これらの課題に対処しようとする。
しかし、利用可能なオープンワールド情報は部分的にしか利用できない。
本稿では,オープンワールドの観点からInsDetにアプローチし,その方法を提案する。
事前訓練されたFMは、インスタンス検出において高いリコールをもたらすが、インスタンスレベルの特徴マッチングには特に最適化されていない。
これを解決するために、オープンワールドデータを用いたインスタンスレベルのマッチングを改善するために、事前訓練されたFMを適用する。
提案手法では, 距離学習と新たなデータ拡張を併用し, トラクタを陰例とし, 新規ビューインスタンスを合成し, 視覚的参照を豊かにする。
拡張実験により,本手法は従来と新しいインスタンス検出設定の両方において,最近リリースされた2つの挑戦的ベンチマークデータセットに対して,従来の結果よりも10 APを達成し,先行処理を著しく上回っていることが示された。
関連論文リスト
- Open-World Object Detection with Instance Representation Learning [1.8749305679160366]
本研究では,新しい物体を検知し,オープンワールド条件下で意味的にリッチな特徴を抽出できる物体検知器の訓練手法を提案する。
提案手法は頑健で一般化可能な特徴空間を学習し,他のOWODに基づく特徴抽出法よりも優れている。
論文 参考訳(メタデータ) (2024-09-24T13:13:34Z) - GM-DF: Generalized Multi-Scenario Deepfake Detection [49.072106087564144]
既存の偽造検出は、通常、単一のドメインでのトレーニングモデルのパラダイムに従う。
本稿では,複数の顔偽造検出データセットを共同で訓練した場合のディープフェイク検出モデルの一般化能力について詳しく検討する。
論文 参考訳(メタデータ) (2024-06-28T17:42:08Z) - Weakly Supervised Open-Vocabulary Object Detection [31.605276665964787]
本稿では、従来のWSODを拡張するために、弱教師付きオープン語彙オブジェクト検出フレームワーク、すなわちWSOVODを提案する。
これを実現するために、データセットレベルの特徴適応、画像レベルの有意なオブジェクトローカライゼーション、地域レベルの視覚言語アライメントを含む3つの重要な戦略を検討する。
論文 参考訳(メタデータ) (2023-12-19T18:59:53Z) - OpenPatch: a 3D patchwork for Out-Of-Distribution detection [16.262921993755892]
そこで本研究では,実世界のクラウドサンプルに対して,参照既知のデータが合成された場合のセマンティックノベルティ検出の課題について述べる。
OpenPatchは、トレーニング済みの大きなモデルの上に構築され、その中間機能から、既知の各クラスを記述するパッチ表現のセットを単純に抽出する。
OpenPatchは、全例と数例の既知のサンプルシナリオの両方で優れていることを実証します。
論文 参考訳(メタデータ) (2023-10-05T08:49:51Z) - Modeling Entities as Semantic Points for Visual Information Extraction
in the Wild [55.91783742370978]
文書画像から鍵情報を正確かつ堅牢に抽出する手法を提案する。
我々は、エンティティを意味的ポイントとして明示的にモデル化する。つまり、エンティティの中心点は、異なるエンティティの属性と関係を記述する意味情報によって豊かになる。
提案手法は,従来の最先端モデルと比較して,エンティティラベルとリンクの性能を著しく向上させることができる。
論文 参考訳(メタデータ) (2023-03-23T08:21:16Z) - Open World DETR: Transformer based Open World Object Detection [60.64535309016623]
そこで我々は,Deformable DETRに基づくオープンワールドオブジェクト検出のための2段階学習手法Open World DETRを提案する。
モデルのクラス固有のコンポーネントを多視点の自己ラベル戦略と一貫性制約で微調整する。
提案手法は、他の最先端のオープンワールドオブジェクト検出方法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2022-12-06T13:39:30Z) - Generalization Properties of Retrieval-based Models [50.35325326050263]
検索ベースの機械学習手法は、幅広い問題で成功をおさめた。
これらのモデルの約束を示す文献が増えているにもかかわらず、そのようなモデルの理論的基盤はいまだに解明されていない。
本稿では,その一般化能力を特徴付けるために,検索ベースモデルの形式的処理を行う。
論文 参考訳(メタデータ) (2022-10-06T00:33:01Z) - Few-shot Weakly-Supervised Object Detection via Directional Statistics [55.97230224399744]
少数ショットコモンオブジェクトローカライゼーション(COL)と少数ショット弱監視オブジェクト検出(WSOD)のための確率論的多重インスタンス学習手法を提案する。
本モデルでは,新しいオブジェクトの分布を同時に学習し,期待-最大化ステップにより局所化する。
提案手法は, 単純であるにもかかわらず, 少数のCOLとWSOD, 大規模WSODタスクにおいて, 高いベースラインを達成できることを示す。
論文 参考訳(メタデータ) (2021-03-25T22:34:16Z) - UniT: Unified Knowledge Transfer for Any-shot Object Detection and
Segmentation [52.487469544343305]
オブジェクト検出とセグメンテーションの方法は、トレーニングのための大規模インスタンスレベルのアノテーションに依存します。
本稿では,直感的かつ統一的な半教師付きモデルを提案する。
論文 参考訳(メタデータ) (2020-06-12T22:45:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。