論文の概要: Vision Also You Need: Navigating Out-of-Distribution Detection with Multimodal Large Language Model
- arxiv url: http://arxiv.org/abs/2601.14052v1
- Date: Tue, 20 Jan 2026 15:06:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.375534
- Title: Vision Also You Need: Navigating Out-of-Distribution Detection with Multimodal Large Language Model
- Title(参考訳): マルチモーダル大言語モデルによるアウト・オブ・ディストリビューション検出のナビゲーション
- Authors: Haoran Xu, Yanlin Liu, Zizhao Tong, Jiaze Li, Kexue Fu, Yuyang Zhang, Longxiang Gao, Shuaiguang Li, Xingyu Li, Yanran Xu, Changwei Wang,
- Abstract要約: アウト・オブ・ディストリビューション(OOD)検出は重要な課題であり、大きな注目を集めている。
本稿では,MLLMのマルチモーダル推論機能を活用した新しいパイプラインMM-OODを提案する。
提案手法は,OODタスクの近・遠の両方における性能向上を目的としている。
- 参考スコア(独自算出の注目度): 42.29540047339044
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Out-of-Distribution (OOD) detection is a critical task that has garnered significant attention. The emergence of CLIP has spurred extensive research into zero-shot OOD detection, often employing a training-free approach. Current methods leverage expert knowledge from large language models (LLMs) to identify potential outliers. However, these approaches tend to over-rely on knowledge in the text space, neglecting the inherent challenges involved in detecting out-of-distribution samples in the image space. In this paper, we propose a novel pipeline, MM-OOD, which leverages the multimodal reasoning capabilities of MLLMs and their ability to conduct multi-round conversations for enhanced outlier detection. Our method is designed to improve performance in both near OOD and far OOD tasks. Specifically, (1) for near OOD tasks, we directly feed ID images and corresponding text prompts into MLLMs to identify potential outliers; and (2) for far OOD tasks, we introduce the sketch-generate-elaborate framework: first, we sketch outlier exposure using text prompts, then generate corresponding visual OOD samples, and finally elaborate by using multimodal prompts. Experiments demonstrate that our method achieves significant improvements on widely used multimodal datasets such as Food-101, while also validating its scalability on ImageNet-1K.
- Abstract(参考訳): アウト・オブ・ディストリビューション(OOD)検出は重要な課題であり、大きな注目を集めている。
CLIPの出現は、ゼロショットのOOD検出に関する広範な研究を刺激し、多くの場合、トレーニングなしのアプローチを採用している。
現在の手法では、大きな言語モデル(LLM)から専門家の知識を活用して、潜在的な外れ値を特定する。
しかしながら、これらのアプローチはテキスト空間における知識を過度に頼りにし、画像空間における配布外サンプルの検出に関わる固有の課題を無視する傾向にある。
本稿では,MLLMのマルチモーダル推論機能を利用した新しいパイプラインMM-OODを提案する。
提案手法は,OOD に近いタスクと遠方 OOD タスクの両方のパフォーマンス向上を目的としている。
具体的には,(1) 近傍のOODタスクに対して,ID画像と対応するテキストプロンプトを直接MLLMにフィードし,(2) 広範囲のOODタスクに対して,スケッチ生成・エラボレートフレームワークを導入し,まずテキストプロンプトを用いてアウトレイラ露光をスケッチし,次に対応するビジュアルなOODサンプルを生成し,最後にマルチモーダルプロンプトを用いて精巧に処理する。
実験により、この手法は、画像Net-1K上でのスケーラビリティを検証しながら、Food-101のような広く使われているマルチモーダルデータセットにおいて、大幅な改善を実現していることが示された。
関連論文リスト
- Recent Advances in Out-of-Distribution Detection with CLIP-Like Models: A Survey [27.467732819969935]
Out-of-distriion Detection (OOD)は、テスト中のIDデータと分散的に異なるサンプルを識別するようモデルを訓練する現実世界のアプリケーションにとって重要なタスクである。
近年のAIの進歩、特にCLIPのようなビジョンランゲージモデル(VLM)は、従来の単モード画像検出器からマルチモーダル画像テキスト検出器にシフトすることで、OOD検出に革命をもたらした。
CLIPのクロスモーダルな性質に合わせて,画像とテキストの両方に根ざした新たな分類フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-05T08:22:38Z) - Envisioning Outlier Exposure by Large Language Models for Out-of-Distribution Detection [71.93411099797308]
オープンワールドシナリオに機械学習モデルをデプロイする場合、アウト・オブ・ディストリビューション(OOD)サンプルは不可欠である。
本稿では,大規模言語モデル(LLM)の専門知識と推論能力を活用して,この制約に対処することを提案する。
EOEは、遠、近、きめ細かいOOD検出など、さまざまなタスクに一般化することができる。
EOEは様々なOODタスクで最先端のパフォーマンスを実現し、ImageNet-1Kデータセットに効果的にスケールできる。
論文 参考訳(メタデータ) (2024-06-02T17:09:48Z) - MultiOOD: Scaling Out-of-Distribution Detection for Multiple Modalities [11.884004583641325]
我々は,多種多様なデータセットサイズと様々なモダリティの組み合わせを特徴とする,第一種ベンチマークであるMultiOODを紹介する。
我々はまず,既存のOOD検出アルゴリズムをMultiOOD上で評価した。
本稿では,近隣クラスからの情報を活用することで,より広い特徴空間を探索する新しいアウトリー合成手法NP-Mixを提案する。
論文 参考訳(メタデータ) (2024-05-27T17:59:02Z) - ID-like Prompt Learning for Few-Shot Out-of-Distribution Detection [47.16254775587534]
本稿では,CLIP citeDBLP:conf/icml/RadfordKHRGASAM21を用いて,IDライクな外れ値を検出する新しいOOD検出フレームワークを提案する。
強力なCLIPから恩恵を受けるため、モデルのプロンプトを学習するためには、少数のIDサンプルしか必要ありません。
本手法は,様々な実世界の画像データセットにおいて,より優れた数ショット学習性能を実現する。
論文 参考訳(メタデータ) (2023-11-26T09:06:40Z) - Exploring Large Language Models for Multi-Modal Out-of-Distribution
Detection [67.68030805755679]
大きな言語モデル(LLM)は豊富な世界の知識をエンコードし、クラスごとに記述的な特徴を生成するよう促すことができる。
本稿では,LLMの選択的生成によるOOD検出性能向上のための世界知識の適用を提案する。
論文 参考訳(メタデータ) (2023-10-12T04:14:28Z) - General-Purpose Multi-Modal OOD Detection Framework [5.287829685181842]
アウト・オブ・ディストリビューション(OOD)検出は、機械学習(ML)システムの安全性と信頼性を保証するために重要なトレーニングデータとは異なるテストサンプルを特定する。
本稿では,2値分類器とコントラスト学習コンポーネントを組み合わせた,汎用的な弱教師付きOOD検出フレームワークWOODを提案する。
提案したWOODモデルを複数の実世界のデータセット上で評価し、実験結果により、WOODモデルがマルチモーダルOOD検出の最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-07-24T18:50:49Z) - Out-of-Domain Intent Detection Considering Multi-Turn Dialogue Contexts [91.43701971416213]
我々は,OODインテント検出タスクにおけるマルチターンコンテキストをモデル化するためのコンテキスト認識型OODインテント検出(Caro)フレームワークを提案する。
CaroはF1-OODスコアを29%以上改善することで、マルチターンOOD検出タスクの最先端性能を確立している。
論文 参考訳(メタデータ) (2023-05-05T01:39:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。