論文の概要: Zero-Shot In-Distribution Detection in Multi-Object Settings Using
Vision-Language Foundation Models
- arxiv url: http://arxiv.org/abs/2304.04521v3
- Date: Wed, 23 Aug 2023 13:11:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-24 11:30:46.669083
- Title: Zero-Shot In-Distribution Detection in Multi-Object Settings Using
Vision-Language Foundation Models
- Title(参考訳): 視覚言語基礎モデルを用いたマルチオブジェクト環境におけるゼロショット分布検出
- Authors: Atsuyuki Miyai, Qing Yu, Go Irie, Kiyoharu Aizawa
- Abstract要約: 本稿では,ゼロショット・イン・ディストリビューション(ID)検出と呼ばれる新しい問題設定を提案する。
我々は、IDオブジェクトを含むイメージを(OODオブジェクトを含む場合でも)IDイメージとして識別し、IDオブジェクトを持たないイメージをOODイメージとしてトレーニングせずに識別する。
本稿では,CLIP機能のグローバルおよびローカルな視覚テキストアライメントに基づく,シンプルで効果的な概念マッチング手法であるGlobal-Local Concept Matchingを提案する。
- 参考スコア(独自算出の注目度): 37.36999826208225
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Extracting in-distribution (ID) images from noisy images scraped from the
Internet is an important preprocessing for constructing datasets, which has
traditionally been done manually. Automating this preprocessing with deep
learning techniques presents two key challenges. First, images should be
collected using only the name of the ID class without training on the ID data.
Second, as we can see why COCO was created, it is crucial to identify images
containing not only ID objects but also both ID and out-of-distribution (OOD)
objects as ID images to create robust recognizers. In this paper, we propose a
novel problem setting called zero-shot in-distribution (ID) detection, where we
identify images containing ID objects as ID images (even if they contain OOD
objects), and images lacking ID objects as OOD images without any training. To
solve this problem, we leverage the powerful zero-shot capability of CLIP and
present a simple and effective approach, Global-Local Maximum Concept Matching
(GL-MCM), based on both global and local visual-text alignments of CLIP
features. Extensive experiments demonstrate that GL-MCM outperforms comparison
methods on both multi-object datasets and single-object ImageNet benchmarks.
The code will be available via https://github.com/AtsuMiyai/GL-MCM.
- Abstract(参考訳): インターネットから取り出されたノイズの多い画像からIDイメージを抽出することは、従来手作業で行われてきたデータセット構築のための重要な前処理である。
この前処理をディープラーニング技術で自動化することは、2つの重要な課題を提示します。
まず、IDデータをトレーニングすることなく、IDクラスの名前のみを使用してイメージを収集する。
第二に、なぜCOCOが作られたのかが分かるように、IDオブジェクトだけでなく、IDとアウト・オブ・ディストリビューション(OOD)オブジェクトの両方を含むイメージをIDイメージとして識別し、堅牢な認識器を作成することが不可欠である。
本稿では,IDオブジェクトを含むイメージを(OODオブジェクトを含む場合でも)IDイメージとして識別し,IDオブジェクトを含まないイメージをOODイメージとして識別する,ゼロショット・イン・ディストリビューション(ID)検出という新たな問題設定を提案する。
この問題を解決するために、CLIPの強力なゼロショット機能を活用し、CLIP機能のグローバルおよびローカルなビジュアルテキストアライメントに基づく、シンプルで効果的なGlobal-Local Maximum Concept Matching (GL-MCM)を提案する。
GL-MCMはマルチオブジェクトデータセットと単一オブジェクトイメージネットベンチマークの両方で比較手法より優れていることを示す。
コードはhttps://github.com/AtsuMiyai/GL-MCMで入手できる。
関連論文リスト
- AnyMaker: Zero-shot General Object Customization via Decoupled Dual-Level ID Injection [72.41427550339296]
我々は,高ID忠実度とフレキシブルテキスト編集性を備えた汎用オブジェクトを生成するフレームワークであるAnyMakerを紹介する。
AnyMakerの有効性は、新しい一般ID抽出、二重レベルID注入、およびID認識デカップリングに起因している。
我々のアプローチを検証し、汎用オブジェクトのカスタマイズの研究を促進するため、我々は最初の大規模汎用IDデータセットを作成します。
論文 参考訳(メタデータ) (2024-06-17T15:26:22Z) - A Generative Approach for Wikipedia-Scale Visual Entity Recognition [56.55633052479446]
与えられたクエリ画像をWikipediaにある600万の既存エンティティの1つにマッピングするタスクに対処する。
本稿では,対象エンティティを識別する「意味的・識別的コード」の自動復号化を学習する,新しい生成エンティティ認識フレームワークを紹介する。
論文 参考訳(メタデータ) (2024-03-04T13:47:30Z) - CtxMIM: Context-Enhanced Masked Image Modeling for Remote Sensing Image Understanding [38.53988682814626]
リモートセンシング画像理解のためのコンテキスト強化マスク画像モデリング手法(CtxMIM)を提案する。
CtxMIMは、オリジナルのイメージパッチを再構成テンプレートとして定式化し、2セットのイメージパッチを操作するために、Siameseフレームワークを使用している。
シンプルでエレガントな設計により、CtxMIMは、大規模データセットでオブジェクトレベルまたはピクセルレベルの機能を学ぶための事前トレーニングモデルを奨励する。
論文 参考訳(メタデータ) (2023-09-28T18:04:43Z) - Beyond One-to-One: Rethinking the Referring Image Segmentation [117.53010476628029]
イメージセグメンテーションの参照は、自然言語表現によって参照される対象オブジェクトをセグメンテーションすることを目的としている。
2つのデコーダ分岐を含むDMMI(Dual Multi-Modal Interaction)ネットワークを提案する。
テキスト・ツー・イメージ・デコーダでは、テキストの埋め込みを利用して視覚的特徴を検索し、対応するターゲットをローカライズする。
一方、画像からテキストへのデコーダは、視覚的特徴に条件付けられた消去されたエンティティ・フレーズを再構成するために実装される。
論文 参考訳(メタデータ) (2023-08-26T11:39:22Z) - Improving Human-Object Interaction Detection via Virtual Image Learning [68.56682347374422]
人間-物体相互作用(Human-Object Interaction、HOI)は、人間と物体の相互作用を理解することを目的としている。
本稿では,仮想画像学習(Virtual Image Leaning, VIL)による不均衡分布の影響を軽減することを提案する。
ラベルからイメージへの新たなアプローチであるMultiple Steps Image Creation (MUSIC)が提案され、実際の画像と一貫した分布を持つ高品質なデータセットを作成する。
論文 参考訳(メタデータ) (2023-08-04T10:28:48Z) - CLIP-ReID: Exploiting Vision-Language Model for Image Re-Identification
without Concrete Text Labels [28.42405456691034]
本稿では,画像再識別作業における視覚的表現の改善を目的とした2段階戦略を提案する。
鍵となるアイデアは、各IDの学習可能なテキストトークンセットを通じて、CLIPのクロスモーダル記述能力をフル活用することだ。
提案手法の有効性は、人や車両のReIDタスクのための複数のデータセット上で検証される。
論文 参考訳(メタデータ) (2022-11-25T09:41:57Z) - Tasks Integrated Networks: Joint Detection and Retrieval for Image
Search [99.49021025124405]
多くの現実世界の探索シナリオ(例えばビデオ監視)では、オブジェクトは正確に検出または注釈付けされることはめったにない。
まず、エンド・ツー・エンド統合ネット(I-Net)を紹介します。
さらに,2つの新しいコントリビューションを行うDC-I-Netという改良されたI-Netを提案する。
論文 参考訳(メタデータ) (2020-09-03T03:57:50Z) - A Fast Fully Octave Convolutional Neural Network for Document Image
Segmentation [1.8426817621478804]
ID画像中の文書のエッジやテキスト領域を検出するためのU-Netに基づく手法について検討する。
本研究では,オクタベ・コンボリューションに基づくモデル最適化手法を提案する。
その結果,提案手法はセグメンテーションタスクの文書化やポータブル化に有効であることがわかった。
論文 参考訳(メタデータ) (2020-04-03T00:57:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。