論文の概要: Zero-Shot In-Distribution Detection in Multi-Object Settings Using
Vision-Language Foundation Models
- arxiv url: http://arxiv.org/abs/2304.04521v3
- Date: Wed, 23 Aug 2023 13:11:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-24 11:30:46.669083
- Title: Zero-Shot In-Distribution Detection in Multi-Object Settings Using
Vision-Language Foundation Models
- Title(参考訳): 視覚言語基礎モデルを用いたマルチオブジェクト環境におけるゼロショット分布検出
- Authors: Atsuyuki Miyai, Qing Yu, Go Irie, Kiyoharu Aizawa
- Abstract要約: 本稿では,ゼロショット・イン・ディストリビューション(ID)検出と呼ばれる新しい問題設定を提案する。
我々は、IDオブジェクトを含むイメージを(OODオブジェクトを含む場合でも)IDイメージとして識別し、IDオブジェクトを持たないイメージをOODイメージとしてトレーニングせずに識別する。
本稿では,CLIP機能のグローバルおよびローカルな視覚テキストアライメントに基づく,シンプルで効果的な概念マッチング手法であるGlobal-Local Concept Matchingを提案する。
- 参考スコア(独自算出の注目度): 37.36999826208225
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Extracting in-distribution (ID) images from noisy images scraped from the
Internet is an important preprocessing for constructing datasets, which has
traditionally been done manually. Automating this preprocessing with deep
learning techniques presents two key challenges. First, images should be
collected using only the name of the ID class without training on the ID data.
Second, as we can see why COCO was created, it is crucial to identify images
containing not only ID objects but also both ID and out-of-distribution (OOD)
objects as ID images to create robust recognizers. In this paper, we propose a
novel problem setting called zero-shot in-distribution (ID) detection, where we
identify images containing ID objects as ID images (even if they contain OOD
objects), and images lacking ID objects as OOD images without any training. To
solve this problem, we leverage the powerful zero-shot capability of CLIP and
present a simple and effective approach, Global-Local Maximum Concept Matching
(GL-MCM), based on both global and local visual-text alignments of CLIP
features. Extensive experiments demonstrate that GL-MCM outperforms comparison
methods on both multi-object datasets and single-object ImageNet benchmarks.
The code will be available via https://github.com/AtsuMiyai/GL-MCM.
- Abstract(参考訳): インターネットから取り出されたノイズの多い画像からIDイメージを抽出することは、従来手作業で行われてきたデータセット構築のための重要な前処理である。
この前処理をディープラーニング技術で自動化することは、2つの重要な課題を提示します。
まず、IDデータをトレーニングすることなく、IDクラスの名前のみを使用してイメージを収集する。
第二に、なぜCOCOが作られたのかが分かるように、IDオブジェクトだけでなく、IDとアウト・オブ・ディストリビューション(OOD)オブジェクトの両方を含むイメージをIDイメージとして識別し、堅牢な認識器を作成することが不可欠である。
本稿では,IDオブジェクトを含むイメージを(OODオブジェクトを含む場合でも)IDイメージとして識別し,IDオブジェクトを含まないイメージをOODイメージとして識別する,ゼロショット・イン・ディストリビューション(ID)検出という新たな問題設定を提案する。
この問題を解決するために、CLIPの強力なゼロショット機能を活用し、CLIP機能のグローバルおよびローカルなビジュアルテキストアライメントに基づく、シンプルで効果的なGlobal-Local Maximum Concept Matching (GL-MCM)を提案する。
GL-MCMはマルチオブジェクトデータセットと単一オブジェクトイメージネットベンチマークの両方で比較手法より優れていることを示す。
コードはhttps://github.com/AtsuMiyai/GL-MCMで入手できる。
関連論文リスト
- MMO-IG: Multi-Class and Multi-Scale Object Image Generation for Remote Sensing [12.491684385808902]
MMO-IGは、グローバルな面とローカルな面から、教師付きオブジェクトラベルでRS画像を生成するように設計されている。
MMO間の複雑な相互依存性を考慮すると、空間的相互依存知識グラフを構築する。
MMO-IGは、高密度なMMO教師付きラベルを持つRS画像に対して優れた生成能力を示す。
論文 参考訳(メタデータ) (2024-12-18T10:19:12Z) - EasyRef: Omni-Generalized Group Image Reference for Diffusion Models via Multimodal LLM [38.8308841469793]
本稿では,複数の参照画像とテキストプロンプトに拡散モデルを条件付けできる新しいプラグイン・アンド・プレイ適応手法であるEasyRefを紹介する。
我々は,マルチモーダル大言語モデル(MLLM)のマルチモーダル理解と命令追従機能を活用し,複数の画像内の一貫した視覚的要素を利用する。
実験の結果、EasyRefはIP-Adapterのようなチューニング不要の手法とLoRAのようなチューニングベース手法の両方を超越し、様々な領域で優れた美的品質と堅牢なゼロショットの一般化を実現している。
論文 参考訳(メタデータ) (2024-12-12T18:59:48Z) - OSMLoc: Single Image-Based Visual Localization in OpenStreetMap with Geometric and Semantic Guidances [11.085165252259042]
OSMLocは、脳にインスパイアされた単一画像の視覚的位置決め手法であり、精度、堅牢性、一般化能力を改善するための意味的および幾何学的ガイダンスを備えている。
提案したOSMLOCを検証するため,世界規模のクロスエリアとクロスコンディション(CC)のベンチマークを収集し,広範な評価を行う。
論文 参考訳(メタデータ) (2024-11-13T14:59:00Z) - Large Language Models for Multimodal Deformable Image Registration [50.91473745610945]
そこで本研究では,様々な医用画像からの深い特徴の整合を図るために,新しい粗いMDIRフレームワークLLM-Morphを提案する。
具体的には、まずCNNエンコーダを用いて、クロスモーダル画像ペアから深い視覚的特徴を抽出し、次に、最初のアダプタを使ってこれらのトークンを調整する。
第3に、トークンのアライメントのために、他の4つのアダプタを使用して、LLM符号化トークンをマルチスケールの視覚特徴に変換し、マルチスケールの変形場を生成し、粗いMDIRタスクを容易にする。
論文 参考訳(メタデータ) (2024-08-20T09:58:30Z) - INF-LLaVA: Dual-perspective Perception for High-Resolution Multimodal Large Language Model [71.50973774576431]
本稿では,高解像度画像認識のための新しいMLLM INF-LLaVAを提案する。
我々はDCM(Dual-perspective Cropping Module)を導入し、各サブイメージが局所的な視点から連続的な詳細を含むことを保証する。
第2に,グローバルな特徴と局所的な特徴の相互強化を可能にするDEM(Dual-perspective Enhancement Module)を導入する。
論文 参考訳(メタデータ) (2024-07-23T06:02:30Z) - From Global to Local: Multi-scale Out-of-distribution Detection [129.37607313927458]
アウト・オブ・ディストリビューション(OOD)検出は、イン・ディストリビューション(ID)トレーニングプロセス中にラベルが見られない未知のデータを検出することを目的としている。
近年の表現学習の進歩により,距離に基づくOOD検出がもたらされる。
グローバルな視覚情報と局所的な情報の両方を活用する第1のフレームワークであるマルチスケールOOD検出(MODE)を提案する。
論文 参考訳(メタデータ) (2023-08-20T11:56:25Z) - Coarse-to-Fine: Learning Compact Discriminative Representation for
Single-Stage Image Retrieval [11.696941841000985]
検索と参照のパラダイムに従う2段階の手法は優れた性能を達成しているが、それぞれのローカルモジュールとグローバルモジュールは現実世界のアプリケーションでは非効率である。
本稿では,重要な局所記述子を注意深く選択し,大域的な表現に微粒な意味関係を注入する機構を提案する。
提案手法は,Revisited OxfordやRevisited Parisなどのベンチマークを用いて,最先端の単一ステージ画像検索性能を実現する。
論文 参考訳(メタデータ) (2023-08-08T03:06:10Z) - Adaptive Graph Convolution Module for Salient Object Detection [7.278033100480174]
本稿では,複雑なシーンを扱うための適応型グラフ畳み込みモジュール(AGCM)を提案する。
学習可能な領域生成層を用いて入力画像からプロトタイプ特徴を抽出する。
提案したAGCMは,SOD性能を定量的かつ定量的に劇的に向上させる。
論文 参考訳(メタデータ) (2023-03-17T07:07:17Z) - Multi-Content Complementation Network for Salient Object Detection in
Optical Remote Sensing Images [108.79667788962425]
光リモートセンシング画像(RSI-SOD)における有能な物体検出は、いまだに課題である。
本稿では, RSI-SOD における複数コンテンツの相補性を検討するために, MCCNet (Multi-Content Complementation Network) を提案する。
MCCMでは、前景機能、エッジ機能、背景機能、グローバル画像レベル機能など、RSI-SODにとって重要な複数の機能について検討する。
論文 参考訳(メタデータ) (2021-12-02T04:46:40Z) - Boosting Few-shot Semantic Segmentation with Transformers [81.43459055197435]
TRansformer-based Few-shot Semantic segmentation Method (TRFS)
我々のモデルは,グローバル・エンハンスメント・モジュール(GEM)とローカル・エンハンスメント・モジュール(LEM)の2つのモジュールから構成される。
論文 参考訳(メタデータ) (2021-08-04T20:09:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。