論文の概要: Delving into Out-of-Distribution Detection with Vision-Language
Representations
- arxiv url: http://arxiv.org/abs/2211.13445v1
- Date: Thu, 24 Nov 2022 07:12:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 14:32:27.320396
- Title: Delving into Out-of-Distribution Detection with Vision-Language
Representations
- Title(参考訳): 視覚言語表現を用いた分布外検出
- Authors: Yifei Ming, Ziyang Cai, Jiuxiang Gu, Yiyou Sun, Wei Li, and Yixuan Li
- Abstract要約: 最大概念マッチング(英: Maximum Concept Matching, MCM)は、視覚的特徴とテキスト的概念の整合性に基づくゼロショットOOD検出法である。
我々は、MCMの有効性を理解するために、詳細な分析と理論的洞察に貢献する。
視覚言語機能を備えたMCMは、意味的に類似したクラスを持つハードなOODタスクにおいて、純粋な視覚的特徴を持つ共通のベースラインよりも13.1%向上している。
- 参考スコア(独自算出の注目度): 27.908755548309646
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recognizing out-of-distribution (OOD) samples is critical for machine
learning systems deployed in the open world. The vast majority of OOD detection
methods are driven by a single modality (e.g., either vision or language),
leaving the rich information in multi-modal representations untapped. Inspired
by the recent success of vision-language pre-training, this paper enriches the
landscape of OOD detection from a single-modal to a multi-modal regime.
Particularly, we propose Maximum Concept Matching (MCM), a simple yet effective
zero-shot OOD detection method based on aligning visual features with textual
concepts. We contribute in-depth analysis and theoretical insights to
understand the effectiveness of MCM. Extensive experiments demonstrate that MCM
achieves superior performance on a wide variety of real-world tasks. MCM with
vision-language features outperforms a common baseline with pure visual
features on a hard OOD task with semantically similar classes by 13.1% (AUROC).
Code is available at https://github.com/deeplearning-wisc/MCM.
- Abstract(参考訳): アウト・オブ・ディストリビューション(OOD)サンプルの認識は、オープンワールドにデプロイされた機械学習システムにとって重要である。
OOD検出法の大部分は、単一のモダリティ(例えば、視覚または言語)によって駆動され、マルチモーダル表現に豊富な情報が残されている。
近年の視覚言語事前学習の成功に触発された本論文は,単一モーダルから多モーダル体制へのOOD検出の展望を強化する。
特に,視覚的特徴とテキスト的概念の整合性に基づく,シンプルで効果的なゼロショットOOD検出法である最大概念マッチング(MCM)を提案する。
我々は、MCMの有効性を理解するために、詳細な分析と理論的洞察に貢献する。
大規模な実験により、MCMは様々な現実世界のタスクにおいて優れた性能を発揮することが示された。
視覚言語機能を備えたMCMは、意味的に類似したクラスが13.1%(AUROC)のハードなOODタスクにおいて、純粋な視覚的特徴を持つ共通のベースラインよりも優れている。
コードはhttps://github.com/deeplearning-wisc/MCMで入手できる。
関連論文リスト
- Behind the Magic, MERLIM: Multi-modal Evaluation Benchmark for Large
Image-Language Models [55.06726432948678]
本稿では,IT-LVLMの性能をコンピュータビジョンの基本的なタスクで評価するためのスケーラブルなテストベッドを提案する。
MERLIMには279K以上の画像検索ペアが含まれており、IT-LVLMにおけるクロスモーダルな"ハロシン化"イベントの検出に重点を置いている。
この結果から,最先端のIT-LVMLは細かな視覚概念の特定に依然として限界があることが示唆された。
論文 参考訳(メタデータ) (2023-12-03T16:39:36Z) - u-LLaVA: Unifying Multi-Modal Tasks via Large Language Model [18.100947750831885]
u-LLaVAは、MLLMの知覚能力を改善するためにピクセル、地域、グローバル機能を統合する革新的な統合マルチタスクフレームワークである。
この研究は、277Kサンプルからなるマスクベースの新しいマルチタスクデータセットに貢献し、MLLMの微粒化知覚能力に挑戦し評価する。
論文 参考訳(メタデータ) (2023-11-09T13:18:27Z) - From CLIP to DINO: Visual Encoders Shout in Multi-modal Large Language
Models [36.41816380074965]
大規模言語モデル(MLLM)における視覚エンコーダの有効性について検討する。
以上の結果から,CLIPの浅層構造は,接地や領域理解といったきめ細かいタスクに特に有利であることがわかった。
我々は,CLIPとDINOをMergingと統合したシンプルな機能統合戦略であるCOMMを提案する。
論文 参考訳(メタデータ) (2023-10-13T02:41:55Z) - Exploring Large Language Models for Multi-Modal Out-of-Distribution
Detection [67.68030805755679]
大きな言語モデル(LLM)は豊富な世界の知識をエンコードし、クラスごとに記述的な特徴を生成するよう促すことができる。
本稿では,LLMの選択的生成によるOOD検出性能向上のための世界知識の適用を提案する。
論文 参考訳(メタデータ) (2023-10-12T04:14:28Z) - Exploring Multi-Modal Contextual Knowledge for Open-Vocabulary Object
Detection [72.36017150922504]
教師の融合変換器から学生検出器へ学習した文脈知識を伝達するためのマルチモーダルな文脈知識蒸留フレームワーク MMC-Det を提案する。
多様なマルチモーダルマスキング言語モデリングは、従来のマルチモーダルマスキング言語モデリング(MLM)に基づくオブジェクト分散制約により実現される。
論文 参考訳(メタデータ) (2023-08-30T08:33:13Z) - General-Purpose Multi-Modal OOD Detection Framework [5.287829685181842]
アウト・オブ・ディストリビューション(OOD)検出は、機械学習(ML)システムの安全性と信頼性を保証するために重要なトレーニングデータとは異なるテストサンプルを特定する。
本稿では,2値分類器とコントラスト学習コンポーネントを組み合わせた,汎用的な弱教師付きOOD検出フレームワークWOODを提案する。
提案したWOODモデルを複数の実世界のデータセット上で評価し、実験結果により、WOODモデルがマルチモーダルOOD検出の最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-07-24T18:50:49Z) - How Does Fine-Tuning Impact Out-of-Distribution Detection for
Vision-Language Models? [35.15232426182503]
数ショットダウンストリームタスクに対するOOD検出の微調整の影響について検討する。
以上の結果から,OODスコアの適切な選択はCLIPに基づく微調整に不可欠であることが示唆された。
また, 即時学習は, ゼロショットに比較して最先端のOOD検出性能を示すことを示す。
論文 参考訳(メタデータ) (2023-06-09T17:16:50Z) - D$^2$TV: Dual Knowledge Distillation and Target-oriented Vision Modeling
for Many-to-Many Multimodal Summarization [113.72253589338472]
many-to-many multimodal summarization (M$3$S) タスクは、どんな言語でも文書入力と対応する画像シーケンスで要約を生成することを目的としている。
本稿では,M$3$Sタスクのための二重知識蒸留と目標指向視覚モデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-22T06:47:35Z) - On the Hidden Mystery of OCR in Large Multimodal Models [133.09809647230475]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。
我々の研究は29のデータセットを含んでおり、最も包括的なOCR評価ベンチマークが利用可能になっている。
論文 参考訳(メタデータ) (2023-05-13T11:28:37Z) - Tackling Visual Control via Multi-View Exploration Maximization [64.8463574294237]
MEMは強化学習における多視点表現学習と報酬駆動探索を組み合わせた最初のアプローチである
我々は,DeepMind Control Suite と Procgen の様々なタスクにおける MEM の評価を行った。
論文 参考訳(メタデータ) (2022-11-28T11:29:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。