Fugu-MT 論文翻訳(概要): Delving into Out-of-Distribution Detection with Vision-Language Representations

論文の概要: Delving into Out-of-Distribution Detection with Vision-Language Representations

arxiv url: http://arxiv.org/abs/2211.13445v1
Date: Thu, 24 Nov 2022 07:12:51 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-28 14:32:27.320396
Title: Delving into Out-of-Distribution Detection with Vision-Language Representations
Title（参考訳）: 視覚言語表現を用いた分布外検出
Authors: Yifei Ming, Ziyang Cai, Jiuxiang Gu, Yiyou Sun, Wei Li, and Yixuan Li
Abstract要約: 最大概念マッチング(英: Maximum Concept Matching, MCM)は、視覚的特徴とテキスト的概念の整合性に基づくゼロショットOOD検出法である。我々は、MCMの有効性を理解するために、詳細な分析と理論的洞察に貢献する。視覚言語機能を備えたMCMは、意味的に類似したクラスを持つハードなOODタスクにおいて、純粋な視覚的特徴を持つ共通のベースラインよりも13.1%向上している。
参考スコア（独自算出の注目度）: 27.908755548309646
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recognizing out-of-distribution (OOD) samples is critical for machine learning systems deployed in the open world. The vast majority of OOD detection methods are driven by a single modality (e.g., either vision or language), leaving the rich information in multi-modal representations untapped. Inspired by the recent success of vision-language pre-training, this paper enriches the landscape of OOD detection from a single-modal to a multi-modal regime. Particularly, we propose Maximum Concept Matching (MCM), a simple yet effective zero-shot OOD detection method based on aligning visual features with textual concepts. We contribute in-depth analysis and theoretical insights to understand the effectiveness of MCM. Extensive experiments demonstrate that MCM achieves superior performance on a wide variety of real-world tasks. MCM with vision-language features outperforms a common baseline with pure visual features on a hard OOD task with semantically similar classes by 13.1% (AUROC). Code is available at https://github.com/deeplearning-wisc/MCM.
Abstract（参考訳）: アウト・オブ・ディストリビューション(OOD)サンプルの認識は、オープンワールドにデプロイされた機械学習システムにとって重要である。 OOD検出法の大部分は、単一のモダリティ(例えば、視覚または言語)によって駆動され、マルチモーダル表現に豊富な情報が残されている。近年の視覚言語事前学習の成功に触発された本論文は,単一モーダルから多モーダル体制へのOOD検出の展望を強化する。特に,視覚的特徴とテキスト的概念の整合性に基づく,シンプルで効果的なゼロショットOOD検出法である最大概念マッチング(MCM)を提案する。我々は、MCMの有効性を理解するために、詳細な分析と理論的洞察に貢献する。大規模な実験により、MCMは様々な現実世界のタスクにおいて優れた性能を発揮することが示された。視覚言語機能を備えたMCMは、意味的に類似したクラスが13.1%(AUROC)のハードなOODタスクにおいて、純粋な視覚的特徴を持つ共通のベースラインよりも優れている。コードはhttps://github.com/deeplearning-wisc/MCMで入手できる。

関連論文リスト

True Multimodal In-Context Learning Needs Attention to the Visual Context [69.63677595066012]
MLLM(Multimodal Large Language Models)は、新しいタスクに適応したMICL(Multimodal In-Context Learning)を実現する。現在のMLLMは、視覚的手がかりを無視し、テキストパターンを過度に無視する傾向にあり、真のマルチモーダル適応よりも単なるテキスト模倣に繋がる。視覚的コンテキストへのモデルへの参加を促す,効率的な微調整戦略であるDynamic Attention Reallocation (DARA)を紹介した。
論文参考訳（メタデータ） (2025-07-21T17:08:18Z)
Advancing Multimodal Reasoning Capabilities of Multimodal Large Language Models via Visual Perception Reward [87.06604760273372]
本稿では,MLLMに視覚内容の正確な知覚を促す新しい視覚認識報酬を導入するPerception-R1を提案する。本稿では,Perception-R1が1,442のトレーニングデータのみを用いて,ほとんどのベンチマークで最先端のパフォーマンスを実現することを示す。
論文参考訳（メタデータ） (2025-06-08T16:48:42Z)
Active-O3: Empowering Multimodal Large Language Models with Active Perception via GRPO [63.140883026848286]
アクティブビジョン(Active Vision)とは、タスク関連情報を収集するために、どこでどのように見るべきかを積極的に選択するプロセスである。近年,マルチモーダル大規模言語モデル (MLLM) をロボットシステムの中心的計画・意思決定モジュールとして採用する動きが注目されている。
論文参考訳（メタデータ） (2025-05-27T17:29:31Z)
Instruction-Guided Fusion of Multi-Layer Visual Features in Large Vision-Language Models [50.98559225639266]
6つのタスクカテゴリにまたがる18のベンチマークを用いて,異なるエンコーダ層からの視覚的特徴の寄与について検討した。この結果から,多層構造はタスク依存性の相補的な長所を提供し,均一な融合が最適以下の性能をもたらすことが明らかとなった。テキスト命令に基づいて動的に多層視覚特徴を統合する命令誘導型視覚アグリゲータを提案する。
論文参考訳（メタデータ） (2024-12-26T05:41:31Z)
TagOOD: A Novel Approach to Out-of-Distribution Detection via Vision-Language Representations and Class Center Learning [26.446233594630087]
視覚言語表現を用いたOOD検出のための新しいアプローチである textbfTagOOD を提案する。 TagOODは、抽出されたオブジェクトの特徴に基づいて軽量なネットワークをトレーニングし、代表的なクラスセンターを学習する。これらの中心は、OOD検出における無関係な画像特徴の影響を最小限に抑え、INDオブジェクトクラスの中心的な傾向を捉えている。
論文参考訳（メタデータ） (2024-08-28T06:37:59Z)
A Concept-Based Explainability Framework for Large Multimodal Models [52.37626977572413]
本稿では,トークン表現に適用した辞書学習に基づくアプローチを提案する。これらの概念は、視覚とテキストの両方に意味論的に根ざしていることを示す。抽出したマルチモーダル概念は,テストサンプルの表現の解釈に有用であることを示す。
論文参考訳（メタデータ） (2024-06-12T10:48:53Z)
MultiOOD: Scaling Out-of-Distribution Detection for Multiple Modalities [11.884004583641325]
我々は,多種多様なデータセットサイズと様々なモダリティの組み合わせを特徴とする,第一種ベンチマークであるMultiOODを紹介する。我々はまず,既存のOOD検出アルゴリズムをMultiOOD上で評価した。本稿では,近隣クラスからの情報を活用することで,より広い特徴空間を探索する新しいアウトリー合成手法NP-Mixを提案する。
論文参考訳（メタデータ） (2024-05-27T17:59:02Z)
Lumen: Unleashing Versatile Vision-Centric Capabilities of Large Multimodal Models [87.47400128150032]
本稿では,多目的視覚中心機能拡張を備えた大規模マルチモーダルモデルであるLumenという新しいLMMアーキテクチャを提案する。ルーメンはまず、きめ細かい視覚言語の概念のアライメントを促進する。そして、共有表現を軽量なタスクデコーダに柔軟にルーティングすることで、タスク固有のデコーダを実行する。
論文参考訳（メタデータ） (2024-03-12T04:13:45Z)
Behind the Magic, MERLIM: Multi-modal Evaluation Benchmark for Large Image-Language Models [50.653838482083614]
本稿では,IT-LVLMの基本的なコンピュータビジョンタスクにおける能力を評価するために,スケーラブルなテストベッドを提案する。 MERLIMには300K以上の画像検索ペアが含まれており、IT-LVLMにおけるクロスモーダルな"ハロシン化"イベントの検出に重点を置いている。
論文参考訳（メタデータ） (2023-12-03T16:39:36Z)
u-LLaVA: Unifying Multi-Modal Tasks via Large Language Model [17.3535277338312]
u-LLaVAは、MLLMの知覚能力を改善するためにピクセル、地域、グローバル機能を統合する革新的な統合マルチタスクフレームワークである。この研究は、277Kサンプルからなるマスクベースの新しいマルチタスクデータセットに貢献し、MLLMの微粒化知覚能力に挑戦し評価する。
論文参考訳（メタデータ） (2023-11-09T13:18:27Z)
Exploring Large Language Models for Multi-Modal Out-of-Distribution Detection [67.68030805755679]
大きな言語モデル(LLM)は豊富な世界の知識をエンコードし、クラスごとに記述的な特徴を生成するよう促すことができる。本稿では,LLMの選択的生成によるOOD検出性能向上のための世界知識の適用を提案する。
論文参考訳（メタデータ） (2023-10-12T04:14:28Z)
General-Purpose Multi-Modal OOD Detection Framework [5.287829685181842]
アウト・オブ・ディストリビューション(OOD)検出は、機械学習(ML)システムの安全性と信頼性を保証するために重要なトレーニングデータとは異なるテストサンプルを特定する。本稿では,2値分類器とコントラスト学習コンポーネントを組み合わせた,汎用的な弱教師付きOOD検出フレームワークWOODを提案する。提案したWOODモデルを複数の実世界のデータセット上で評価し、実験結果により、WOODモデルがマルチモーダルOOD検出の最先端手法よりも優れていることを示す。
論文参考訳（メタデータ） (2023-07-24T18:50:49Z)
OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。 OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文参考訳（メタデータ） (2023-05-13T11:28:37Z)
Tackling Visual Control via Multi-View Exploration Maximization [64.8463574294237]
MEMは強化学習における多視点表現学習と報酬駆動探索を組み合わせた最初のアプローチである我々は,DeepMind Control Suite と Procgen の様々なタスクにおける MEM の評価を行った。
論文参考訳（メタデータ） (2022-11-28T11:29:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。