論文の概要: OODBench: Out-of-Distribution Benchmark for Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2602.18094v1
- Date: Fri, 20 Feb 2026 09:34:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-23 18:01:41.280993
- Title: OODBench: Out-of-Distribution Benchmark for Large Vision-Language Models
- Title(参考訳): OODBench: 大規模ビジョンランゲージモデルのためのアウト・オブ・ディストリビューションベンチマーク
- Authors: Ling Lin, Yang Bai, Heng Su, Congcong Zhu, Yaoxing Wang, Yang Zhou, Huazhu Fu, Jingrun Chen,
- Abstract要約: 現実のシナリオでは、AIシステムによって処理されるすべてのデータが、データが独立して同一に分散されているという仮定を満たすことを期待することは、しばしば非現実的である。
我々は,人間による検証を最小限に抑えたOODBenchを提案する。
画像カテゴリが一般的であっても,現在のVLMではOODBenchの性能劣化が顕著であることを示す。
- 参考スコア(独自算出の注目度): 48.08263342427679
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing Visual-Language Models (VLMs) have achieved significant progress by being trained on massive-scale datasets, typically under the assumption that data are independent and identically distributed (IID). However, in real-world scenarios, it is often impractical to expect that all data processed by an AI system satisfy this assumption. Furthermore, failure to appropriately handle out-of-distribution (OOD) objects may introduce safety risks in real-world applications (e.g., autonomous driving or medical assistance). Unfortunately, current research has not yet provided valid benchmarks that can comprehensively assess the performance of VLMs in response to OOD data. Therefore, we propose OODBench, a predominantly automated method with minimal human verification, for constructing new benchmarks and evaluating the ability of VLMs to process OOD data. OODBench contains 40K instance-level OOD instance-category pairs, and we show that current VLMs still exhibit notable performance degradation on OODBench, even when the underlying image categories are common. In addition, we propose a reliable automated assessment metric that employs a Basic-to-Advanced Progression of prompted questions to assess the impact of OOD data on questions of varying difficulty more fully. Lastly, we summarize substantial findings and insights to facilitate future research in the acquisition and evaluation of OOD data.
- Abstract(参考訳): 既存のVisual-Language Models (VLM) は大規模なデータセットでトレーニングすることで大きな進歩を遂げた。
しかし、現実のシナリオでは、AIシステムによって処理されるすべてのデータがこの仮定を満たすことを期待するのは現実的ではないことが多い。
さらに、オフ・オブ・ディストリビューション(OOD)オブジェクトを適切に扱えないことは、現実世界のアプリケーション(例えば、自律運転や医療支援など)の安全性のリスクをもたらす可能性がある。
残念ながら、現在の研究では、OODデータに対するVLMの性能を総合的に評価できる有効なベンチマークが提供されていない。
そこで本研究では,人間による検証が最小限に抑えられたOODBenchを提案する。
OODBenchにはインスタンスレベルのOODインスタンスカテゴリペアが40Kあり、画像カテゴリが一般的である場合でも、現在のVLMはOODBenchに顕著な性能低下を示します。
さらに,OODデータの難易度がより完全に変化する問題に対する影響を評価するため,提案した質問のベース・ツー・アドバンスト・プログレクション( Basic-to-Advanced Progression)を利用した信頼性の高い自動評価指標を提案する。
最後に,OODデータの取得と評価における今後の研究を促進するために,重要な知見と知見を要約する。
関連論文リスト
- Can Out-of-Distribution Evaluations Uncover Reliance on Shortcuts? A Case Study in Question Answering [4.123456708238846]
AIにおける最近の研究の大部分は、アウト・オブ・ディストリビューション(OOD)データセットのパフォーマンスのレンズを通じて、モデルの一般化能力を評価する。
我々はこの仮定に挑戦し、既存の質問応答モデル(QA)に記録された特定の障害モードのセットを用いてOOD評価の結果に反論する。
我々は、QAにおけるOOD評価に使用する異なるデータセットが、非常に異なる品質のショートカットに対してモデルの堅牢性を見積もっていることを発見した。
論文 参考訳(メタデータ) (2025-08-25T18:49:50Z) - Out-of-Distribution Learning with Human Feedback [26.398598663165636]
本稿では,人的フィードバックによるOOD学習のための新しい枠組みを提案する。
当社のフレームワークは、無償で利用可能な未ラベルデータに便乗しています。
人間のフィードバックを利用して、機械学習モデルの堅牢性と信頼性を高める。
論文 参考訳(メタデータ) (2024-08-14T18:49:27Z) - A Survey on Evaluation of Out-of-Distribution Generalization [41.39827887375374]
アウト・オブ・ディストリビューション(OOD)の一般化は複雑で基本的な問題である。
本報告は,OOD評価の総合的な評価を行うための最初の試みである。
我々は,OOD性能試験,OOD性能予測,OOD固有の特性評価という3つのパラダイムに分類した。
論文 参考訳(メタデータ) (2024-03-04T09:30:35Z) - Reliability in Semantic Segmentation: Can We Use Synthetic Data? [69.28268603137546]
セマンティックセグメンテーションモデルの現実的信頼性を総合的に評価するために、合成データを具体的に生成する方法を初めて示す。
この合成データは、事前訓練されたセグメンタの堅牢性を評価するために使用される。
セグメンタのキャリブレーションとOOD検出能力を向上するために,我々のアプローチをどのように活用できるかを実証する。
論文 参考訳(メタデータ) (2023-12-14T18:56:07Z) - Wild-Tab: A Benchmark For Out-Of-Distribution Generalization In Tabular
Regression [4.532517021515834]
アウト・オブ・ディストリビューション(OOD)の一般化は、ディープラーニングにおいて進行中の課題である。
表回帰タスクにおけるOOD一般化に適したベンチマークであるWild-Tabを提案する。
このベンチマークでは、天気予報や消費電力推定といった分野から得られた3つの産業データセットが組み込まれている。
これらの手法の多くは、未確認データのハイパフォーマンスレベルを維持するのに苦労することが多く、OOD性能は、分配性能と比較して顕著な低下を示している。
論文 参考訳(メタデータ) (2023-12-04T10:27:38Z) - Revisiting Out-of-distribution Robustness in NLP: Benchmark, Analysis,
and LLMs Evaluations [111.88727295707454]
本稿では,NLP分野におけるアウト・オブ・ディストリビューション(OOD)のロバスト性に関する研究を再検討する。
本稿では, 明確な分化と分散の困難さを保証するための, ベンチマーク構築プロトコルを提案する。
我々は,OODロバスト性の分析と評価のための事前学習言語モデルの実験を行った。
論文 参考訳(メタデータ) (2023-06-07T17:47:03Z) - Out-of-distribution Detection with Implicit Outlier Transformation [72.73711947366377]
外周露光(OE)は、オフ・オブ・ディストリビューション(OOD)検出において強力である。
我々は,未確認のOOD状況に対してモデルの性能を良くする,新しいOEベースのアプローチを提案する。
論文 参考訳(メタデータ) (2023-03-09T04:36:38Z) - Pseudo-OOD training for robust language models [78.15712542481859]
OOD検出は、あらゆる産業規模のアプリケーションに対する信頼性の高い機械学習モデルの鍵となるコンポーネントである。
In-distribution(IND)データを用いて擬似OODサンプルを生成するPOORE-POORE-POSthoc pseudo-Ood Regularizationを提案する。
我々は3つの現実世界の対話システムに関する枠組みを広く評価し、OOD検出における新たな最先端技術を実現した。
論文 参考訳(メタデータ) (2022-10-17T14:32:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。