論文の概要: Delving into Out-of-Distribution Detection with Vision-Language
Representations
- arxiv url: http://arxiv.org/abs/2211.13445v1
- Date: Thu, 24 Nov 2022 07:12:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 14:32:27.320396
- Title: Delving into Out-of-Distribution Detection with Vision-Language
Representations
- Title(参考訳): 視覚言語表現を用いた分布外検出
- Authors: Yifei Ming, Ziyang Cai, Jiuxiang Gu, Yiyou Sun, Wei Li, and Yixuan Li
- Abstract要約: 最大概念マッチング(英: Maximum Concept Matching, MCM)は、視覚的特徴とテキスト的概念の整合性に基づくゼロショットOOD検出法である。
我々は、MCMの有効性を理解するために、詳細な分析と理論的洞察に貢献する。
視覚言語機能を備えたMCMは、意味的に類似したクラスを持つハードなOODタスクにおいて、純粋な視覚的特徴を持つ共通のベースラインよりも13.1%向上している。
- 参考スコア(独自算出の注目度): 27.908755548309646
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recognizing out-of-distribution (OOD) samples is critical for machine
learning systems deployed in the open world. The vast majority of OOD detection
methods are driven by a single modality (e.g., either vision or language),
leaving the rich information in multi-modal representations untapped. Inspired
by the recent success of vision-language pre-training, this paper enriches the
landscape of OOD detection from a single-modal to a multi-modal regime.
Particularly, we propose Maximum Concept Matching (MCM), a simple yet effective
zero-shot OOD detection method based on aligning visual features with textual
concepts. We contribute in-depth analysis and theoretical insights to
understand the effectiveness of MCM. Extensive experiments demonstrate that MCM
achieves superior performance on a wide variety of real-world tasks. MCM with
vision-language features outperforms a common baseline with pure visual
features on a hard OOD task with semantically similar classes by 13.1% (AUROC).
Code is available at https://github.com/deeplearning-wisc/MCM.
- Abstract(参考訳): アウト・オブ・ディストリビューション(OOD)サンプルの認識は、オープンワールドにデプロイされた機械学習システムにとって重要である。
OOD検出法の大部分は、単一のモダリティ(例えば、視覚または言語)によって駆動され、マルチモーダル表現に豊富な情報が残されている。
近年の視覚言語事前学習の成功に触発された本論文は,単一モーダルから多モーダル体制へのOOD検出の展望を強化する。
特に,視覚的特徴とテキスト的概念の整合性に基づく,シンプルで効果的なゼロショットOOD検出法である最大概念マッチング(MCM)を提案する。
我々は、MCMの有効性を理解するために、詳細な分析と理論的洞察に貢献する。
大規模な実験により、MCMは様々な現実世界のタスクにおいて優れた性能を発揮することが示された。
視覚言語機能を備えたMCMは、意味的に類似したクラスが13.1%(AUROC)のハードなOODタスクにおいて、純粋な視覚的特徴を持つ共通のベースラインよりも優れている。
コードはhttps://github.com/deeplearning-wisc/MCMで入手できる。
関連論文リスト
- TagOOD: A Novel Approach to Out-of-Distribution Detection via Vision-Language Representations and Class Center Learning [26.446233594630087]
視覚言語表現を用いたOOD検出のための新しいアプローチである textbfTagOOD を提案する。
TagOODは、抽出されたオブジェクトの特徴に基づいて軽量なネットワークをトレーニングし、代表的なクラスセンターを学習する。
これらの中心は、OOD検出における無関係な画像特徴の影響を最小限に抑え、INDオブジェクトクラスの中心的な傾向を捉えている。
論文 参考訳(メタデータ) (2024-08-28T06:37:59Z) - A Concept-Based Explainability Framework for Large Multimodal Models [52.37626977572413]
本稿では,トークン表現に適用した辞書学習に基づくアプローチを提案する。
これらの概念は、視覚とテキストの両方に意味論的に根ざしていることを示す。
抽出したマルチモーダル概念は,テストサンプルの表現の解釈に有用であることを示す。
論文 参考訳(メタデータ) (2024-06-12T10:48:53Z) - MultiOOD: Scaling Out-of-Distribution Detection for Multiple Modalities [11.884004583641325]
我々は,多種多様なデータセットサイズと様々なモダリティの組み合わせを特徴とする,第一種ベンチマークであるMultiOODを紹介する。
我々はまず,既存のOOD検出アルゴリズムをMultiOOD上で評価した。
本稿では,近隣クラスからの情報を活用することで,より広い特徴空間を探索する新しいアウトリー合成手法NP-Mixを提案する。
論文 参考訳(メタデータ) (2024-05-27T17:59:02Z) - Lumen: Unleashing Versatile Vision-Centric Capabilities of Large Multimodal Models [87.47400128150032]
本稿では,多目的視覚中心機能拡張を備えた大規模マルチモーダルモデルであるLumenという新しいLMMアーキテクチャを提案する。
ルーメンはまず、きめ細かい視覚言語の概念のアライメントを促進する。
そして、共有表現を軽量なタスクデコーダに柔軟にルーティングすることで、タスク固有のデコーダを実行する。
論文 参考訳(メタデータ) (2024-03-12T04:13:45Z) - Behind the Magic, MERLIM: Multi-modal Evaluation Benchmark for Large Image-Language Models [50.653838482083614]
本稿では,IT-LVLMの基本的なコンピュータビジョンタスクにおける能力を評価するために,スケーラブルなテストベッドを提案する。
MERLIMには300K以上の画像検索ペアが含まれており、IT-LVLMにおけるクロスモーダルな"ハロシン化"イベントの検出に重点を置いている。
論文 参考訳(メタデータ) (2023-12-03T16:39:36Z) - u-LLaVA: Unifying Multi-Modal Tasks via Large Language Model [17.3535277338312]
u-LLaVAは、MLLMの知覚能力を改善するためにピクセル、地域、グローバル機能を統合する革新的な統合マルチタスクフレームワークである。
この研究は、277Kサンプルからなるマスクベースの新しいマルチタスクデータセットに貢献し、MLLMの微粒化知覚能力に挑戦し評価する。
論文 参考訳(メタデータ) (2023-11-09T13:18:27Z) - Exploring Large Language Models for Multi-Modal Out-of-Distribution
Detection [67.68030805755679]
大きな言語モデル(LLM)は豊富な世界の知識をエンコードし、クラスごとに記述的な特徴を生成するよう促すことができる。
本稿では,LLMの選択的生成によるOOD検出性能向上のための世界知識の適用を提案する。
論文 参考訳(メタデータ) (2023-10-12T04:14:28Z) - General-Purpose Multi-Modal OOD Detection Framework [5.287829685181842]
アウト・オブ・ディストリビューション(OOD)検出は、機械学習(ML)システムの安全性と信頼性を保証するために重要なトレーニングデータとは異なるテストサンプルを特定する。
本稿では,2値分類器とコントラスト学習コンポーネントを組み合わせた,汎用的な弱教師付きOOD検出フレームワークWOODを提案する。
提案したWOODモデルを複数の実世界のデータセット上で評価し、実験結果により、WOODモデルがマルチモーダルOOD検出の最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-07-24T18:50:49Z) - OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。
OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文 参考訳(メタデータ) (2023-05-13T11:28:37Z) - Tackling Visual Control via Multi-View Exploration Maximization [64.8463574294237]
MEMは強化学習における多視点表現学習と報酬駆動探索を組み合わせた最初のアプローチである
我々は,DeepMind Control Suite と Procgen の様々なタスクにおける MEM の評価を行った。
論文 参考訳(メタデータ) (2022-11-28T11:29:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。