論文の概要: Are vision language models robust to uncertain inputs?
- arxiv url: http://arxiv.org/abs/2505.11804v1
- Date: Sat, 17 May 2025 03:16:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.857676
- Title: Are vision language models robust to uncertain inputs?
- Title(参考訳): 視覚言語モデルは不確実な入力に対して堅牢か?
- Authors: Xi Wang, Eric Nalisnick,
- Abstract要約: より新しい視覚言語モデルでは、従来のモデルに比べて頑健性が向上したが、それでも厳密な指示に従う傾向にあることを示す。
ImageNetのような自然なイメージでは、パイプラインの変更なしにこの制限を克服することができる。
モデルの内部不確実性を明らかにするために,キャプションの多様性に基づく新しいメカニズムを提案する。
- 参考スコア(独自算出の注目度): 5.249651874118556
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robustness against uncertain and ambiguous inputs is a critical challenge for deep learning models. While recent advancements in large scale vision language models (VLMs, e.g. GPT4o) might suggest that increasing model and training dataset size would mitigate this issue, our empirical evaluation shows a more complicated picture. Testing models using two classic uncertainty quantification tasks, anomaly detection and classification under inherently ambiguous conditions, we find that newer and larger VLMs indeed exhibit improved robustness compared to earlier models, but still suffer from a tendency to strictly follow instructions, often causing them to hallucinate confident responses even when faced with unclear or anomalous inputs. Remarkably, for natural images such as ImageNet, this limitation can be overcome without pipeline modifications: simply prompting models to abstain from uncertain predictions enables significant reliability gains, achieving near-perfect robustness in several settings. However, for domain-specific tasks such as galaxy morphology classification, a lack of specialized knowledge prevents reliable uncertainty estimation. Finally, we propose a novel mechanism based on caption diversity to reveal a model's internal uncertainty, enabling practitioners to predict when models will successfully abstain without relying on labeled data.
- Abstract(参考訳): 不確実で曖昧な入力に対するロバスト性は、ディープラーニングモデルにとって重要な課題である。
大規模視覚言語モデル(VLMs, eg GPT4o)の最近の進歩は、モデルとトレーニングデータセットのサイズの増加がこの問題を軽減することを示唆しているが、我々の経験的評価はより複雑であることを示している。
2つの古典的不確実性定量化タスク(異常検出と固有不明瞭な条件下での分類)を用いたテストモデルでは、従来モデルと比較して、新しい大型のVLMはロバスト性が向上しているが、それでも厳密な指示に従う傾向にあり、不明瞭な入力や異常な入力に直面した場合でも、自信的な応答を幻覚させることがある。
注目すべきなのは、ImageNetのような自然画像の場合、この制限はパイプライン修正なしで克服できることだ。
しかし、銀河形態分類のような領域固有のタスクでは、専門知識の欠如は確実な不確実性推定を妨げている。
最後に,モデルの内部不確実性を明らかにするために,キャプションの多様性に基づく新しいメカニズムを提案する。
関連論文リスト
- LoGU: Long-form Generation with Uncertainty Expressions [49.76417603761989]
不確実性を伴う長文生成(LoGU)の課題について紹介する。
不確実性抑制と不確実性誤認の2つの主要な課題を特定します。
当社のフレームワークでは,原子的クレームに基づく不確実性を改善するため,分割・分散戦略を採用している。
提案手法が精度を向上し,幻覚を低減し,応答の包括性を維持できることを示す。
論文 参考訳(メタデータ) (2024-10-18T09:15:35Z) - Unsupervised Model Diagnosis [49.36194740479798]
本稿では,ユーザガイドを使わずに,意味論的対実的説明を生成するために,Unsupervised Model Diagnosis (UMO)を提案する。
提案手法は意味論における変化を特定し可視化し,その変化を広範囲なテキストソースの属性と照合する。
論文 参考訳(メタデータ) (2024-10-08T17:59:03Z) - An Ambiguity Measure for Recognizing the Unknowns in Deep Learning [0.0]
深層ニューラルネットワークの学習範囲から, 深部ニューラルネットワークの理解について検討する。
任意のモデルに対する入力のあいまいさを定量化する尺度を提案する。
論文 参考訳(メタデータ) (2023-12-11T02:57:12Z) - Decomposing Uncertainty for Large Language Models through Input Clarification Ensembling [69.83976050879318]
大規模言語モデル(LLM)では、不確実性の原因を特定することが、信頼性、信頼性、解釈可能性を改善するための重要なステップである。
本稿では,LLMのための不確実性分解フレームワークについて述べる。
提案手法は,入力に対する一連の明確化を生成し,それらをLLMに入力し,対応する予測をアンサンブルする。
論文 参考訳(メタデータ) (2023-11-15T05:58:35Z) - Improving the Reliability of Large Language Models by Leveraging
Uncertainty-Aware In-Context Learning [76.98542249776257]
大規模言語モデルはしばしば「ハロシン化」の課題に直面している
本研究では,不確実性に応答してモデルが出力を拡張あるいは拒否することを可能にする,不確実性を考慮したコンテキスト内学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-07T12:06:53Z) - Beyond Confidence: Reliable Models Should Also Consider Atypicality [43.012818086415514]
サンプルやクラスが非典型的であるかとモデルの予測の信頼性との関係について検討する。
非定型入力や非定型クラスの予測は、より過信であり、精度が低いことを示す。
モデルの信頼性だけでなく,不確かさの定量化や性能向上にも非定型性を用いるべきである。
論文 参考訳(メタデータ) (2023-05-29T17:37:09Z) - ALUM: Adversarial Data Uncertainty Modeling from Latent Model
Uncertainty Compensation [25.67258563807856]
本稿では,モデル不確実性とデータ不確実性を扱うALUMという新しい手法を提案する。
提案するALUMはモデルに依存しないため,オーバーヘッドの少ない既存のディープモデルに容易に実装できる。
論文 参考訳(メタデータ) (2023-03-29T17:24:12Z) - Approaching Neural Network Uncertainty Realism [53.308409014122816]
自動運転車などの安全クリティカルなシステムには、定量化または少なくとも上限の不確実性が不可欠です。
マハラノビス距離に基づく統計的テストにより、厳しい品質基準である不確実性リアリズムを評価します。
自動車分野に採用し、プレーンエンコーダデコーダモデルと比較して、不確実性リアリズムを大幅に改善することを示した。
論文 参考訳(メタデータ) (2021-01-08T11:56:12Z) - Model Uncertainty Quantification for Reliable Deep Vision Structural
Health Monitoring [2.5126058470073263]
本稿では,深部視覚構造型健康モニタリングモデルに対するベイズ推定を提案する。
不確かさはモンテカルロのドロップアウトサンプリングを用いて定量化することができる。
き裂, 局部損傷同定, 橋梁部品検出の3つの独立したケーススタディについて検討した。
論文 参考訳(メタデータ) (2020-04-10T17:54:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。