Fugu-MT 論文翻訳(概要): A Benchmark and Evaluation for Real-World Out-of-Distribution Detection Using Vision-Language Models

論文の概要: A Benchmark and Evaluation for Real-World Out-of-Distribution Detection Using Vision-Language Models

arxiv url: http://arxiv.org/abs/2501.18463v1
Date: Thu, 30 Jan 2025 16:30:20 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-31 22:50:04.241739
Title: A Benchmark and Evaluation for Real-World Out-of-Distribution Detection Using Vision-Language Models
Title（参考訳）: ビジョンランゲージモデルを用いた実世界のアウト・オブ・ディストリビューション検出のベンチマークと評価
Authors: Shiho Noda, Atsuyuki Miyai, Qing Yu, Go Irie, Kiyoharu Aizawa,
Abstract要約: Out-of-Distribution(OOD)検出は、推論中にサンプルを検出して、デプロイされたモデルの安全性を保証するタスクである。我々は3つの新しいOOD検出ベンチマークを導入し,手法特性のより深い理解と実環境の反映を可能にした。実験の結果、最近のCLIPベースのOOD検出手法は、提案された3つのベンチマークで様々な程度に困難であることが判明した。
参考スコア（独自算出の注目度）: 31.885470008881267
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Out-of-distribution (OOD) detection is a task that detects OOD samples during inference to ensure the safety of deployed models. However, conventional benchmarks have reached performance saturation, making it difficult to compare recent OOD detection methods. To address this challenge, we introduce three novel OOD detection benchmarks that enable a deeper understanding of method characteristics and reflect real-world conditions. First, we present ImageNet-X, designed to evaluate performance under challenging semantic shifts. Second, we propose ImageNet-FS-X for full-spectrum OOD detection, assessing robustness to covariate shifts (feature distribution shifts). Finally, we propose Wilds-FS-X, which extends these evaluations to real-world datasets, offering a more comprehensive testbed. Our experiments reveal that recent CLIP-based OOD detection methods struggle to varying degrees across the three proposed benchmarks, and none of them consistently outperforms the others. We hope the community goes beyond specific benchmarks and includes more challenging conditions reflecting real-world scenarios. The code is https://github.com/hoshi23/OOD-X-Banchmarks.
Abstract（参考訳）: Out-of-Distribution(OOD)検出は、推論中にOODサンプルを検出して、デプロイされたモデルの安全性を保証するタスクである。しかし、従来のベンチマークは性能飽和に達しており、最近のOOD検出法を比較することは困難である。この課題に対処するために,本研究では,メソッド特性のより深い理解と実環境の反映を可能にする3つの新しいOOD検出ベンチマークを提案する。まず、課題のあるセマンティックシフト下での性能を評価するために設計されたImageNet-Xを提案する。次に,フルスペクトルOOD検出のためのImageNet-FS-Xを提案する。最後に、これらの評価を実世界のデータセットに拡張し、より包括的なテストベッドを提供するWilds-FS-Xを提案する。実験の結果,最近のCLIPをベースとしたOOD検出手法では,提案した3つのベンチマークの次数が異なることが判明した。コミュニティが特定のベンチマークを超えて、現実のシナリオを反映したより困難な条件を望んでいます。コードはhttps://github.com/hoshi23/OOD-X-Banchmarksである。

関連論文リスト

The Best of Both Worlds: On the Dilemma of Out-of-distribution Detection [75.65876949930258]
アウト・オブ・ディストリビューション(OOD)検出はモデル信頼性に不可欠である。我々は,OODの一般化能力を秘かに犠牲にすることで,最先端手法のOOD検出性能が向上することを示す。
論文参考訳（メタデータ） (2024-10-12T07:02:04Z)
Dissecting Out-of-Distribution Detection and Open-Set Recognition: A Critical Analysis of Methods and Benchmarks [17.520137576423593]
我々は,コミュニティ内の2つの大きなサブフィールドの総合的なビュー – アウト・オブ・ディストリビューション(OOD)検出とオープンセット認識(OSR) – を提供することを目指している。我々は,OOD検出における最先端手法とOSR設定との厳密な相互評価を行い,それらの手法の性能の強い相関関係を同定する。我々は,OOD検出とOSRによって取り組まれている問題を解消する,より大規模なベンチマーク設定を提案する。
論文参考訳（メタデータ） (2024-08-29T17:55:07Z)
Rethinking the Evaluation of Out-of-Distribution Detection: A Sorites Paradox [70.57120710151105]
既存のアウト・オブ・ディストリビューション(OOD)検出ベンチマークは、サンプルを新しいラベルでOODデータとして分類する。いくつかの限界OODサンプルは、実際には分布内(ID)サンプルに密接なセマンティック内容を持ち、OODサンプルをソリテスパラドックス(英語版)と判定する。この問題に対処するため,Incremental Shift OOD (IS-OOD) というベンチマークを構築した。
論文参考訳（メタデータ） (2024-06-14T09:27:56Z)
Model-free Test Time Adaptation for Out-Of-Distribution Detection [62.49795078366206]
我々はtextbfDistribution textbfDetection (abbr) のための非パラメトリックテスト時間 textbfAdaptation フレームワークを提案する。 Abbrは、オンラインテストサンプルを使用して、テスト中のモデル適応、データ分散の変更への適応性を向上させる。複数のOOD検出ベンチマークにおける包括的実験により,abrの有効性を示す。
論文参考訳（メタデータ） (2023-11-28T02:00:47Z)
Nearest Neighbor Guidance for Out-of-Distribution Detection [18.851275688720108]
そこで本研究では,最寄りのNearest Neighbor Guidance (NNGuide) を用いて,オフ・オブ・ディストリビューション(OOD) サンプルの検出を行う。 NNGuideは、分類器ベースのスコアのきめ細かい機能を維持しながら、OODサンプルの過信を低減する。この結果から,NNGuideはベース検出スコアを大幅に向上することがわかった。
論文参考訳（メタデータ） (2023-09-26T12:40:35Z)
General-Purpose Multi-Modal OOD Detection Framework [5.287829685181842]
アウト・オブ・ディストリビューション(OOD)検出は、機械学習(ML)システムの安全性と信頼性を保証するために重要なトレーニングデータとは異なるテストサンプルを特定する。本稿では,2値分類器とコントラスト学習コンポーネントを組み合わせた,汎用的な弱教師付きOOD検出フレームワークWOODを提案する。提案したWOODモデルを複数の実世界のデータセット上で評価し、実験結果により、WOODモデルがマルチモーダルOOD検出の最先端手法よりも優れていることを示す。
論文参考訳（メタデータ） (2023-07-24T18:50:49Z)
OOD-CV-v2: An extended Benchmark for Robustness to Out-of-Distribution Shifts of Individual Nuisances in Natural Images [59.51657161097337]
OOD-CV-v2は、ポーズ、形状、テクスチャ、コンテキスト、気象条件の10のオブジェクトカテゴリのアウト・オブ・ディストリビューションの例を含むベンチマークデータセットである。この新たなデータセットに加えて、一般的なベースライン手法を用いた広範な実験にも貢献する。
論文参考訳（メタデータ） (2023-04-17T20:39:25Z)
Unsupervised Evaluation of Out-of-distribution Detection: A Data-centric Perspective [55.45202687256175]
アウト・オブ・ディストリビューション(OOD)検出法は、個々のテストサンプルがイン・ディストリビューション(IND)なのかOODなのかという、試験対象の真実を持っていると仮定する。本稿では,OOD検出における教師なし評価問題を初めて紹介する。我々は,OOD検出性能の教師なし指標としてGscoreを計算する3つの方法を提案する。
論文参考訳（メタデータ） (2023-02-16T13:34:35Z)
Towards Realistic Out-of-Distribution Detection: A Novel Evaluation Framework for Improving Generalization in OOD Detection [14.541761912174799]
本稿では,OOD(Out-of-Distribution)検出のための新しい評価フレームワークを提案する。より現実的な設定で機械学習モデルのパフォーマンスを評価することを目的としている。
論文参考訳（メタデータ） (2022-11-20T07:30:15Z)
Semantically Coherent Out-of-Distribution Detection [26.224146828317277]
現在のアウト・オブ・ディストリビューション(OOD)検出ベンチマークは、ひとつのデータセットをイン・ディストリビューション(ID)として定義し、他のすべてのデータセットをOODとして定義することで、一般的に構築されている。ベンチマークを再設計し、セマンティック・コヒーレント・アウト・オブ・ディストリビューション検出(SC-OOD)を提案する。本手法は,SC-OODベンチマークにおける最先端性能を実現する。
論文参考訳（メタデータ） (2021-08-26T17:53:32Z)
Triggering Failures: Out-Of-Distribution detection by learning from local adversarial attacks in Semantic Segmentation [76.2621758731288]
セグメンテーションにおけるアウト・オブ・ディストリビューション(OOD)オブジェクトの検出に取り組む。私たちの主な貢献は、ObsNetと呼ばれる新しいOOD検出アーキテクチャであり、ローカル・アタック(LAA)に基づく専用トレーニングスキームと関連付けられています。 3つの異なるデータセットの文献の最近の10つの手法と比較して,速度と精度の両面で最高の性能が得られることを示す。
論文参考訳（メタデータ） (2021-08-03T17:09:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。