論文の概要: Benchmarking Corruption Robustness of LVLMs: A Discriminative Benchmark and Robustness Alignment Metric
- arxiv url: http://arxiv.org/abs/2511.19032v1
- Date: Mon, 24 Nov 2025 12:07:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.187492
- Title: Benchmarking Corruption Robustness of LVLMs: A Discriminative Benchmark and Robustness Alignment Metric
- Title(参考訳): LVLMのベンチマーク劣化ロバスト性:判別ベンチマークとロバスト性アライメント指標
- Authors: Xiangjie Sui, Songyang Li, Hanwei Zhu, Baoliang Chen, Yuming Fang, Xin Sun,
- Abstract要約: 汚損の堅牢性を評価するための識別サンプルを強調したベンチマークであるBench-Cを紹介する。
本稿では,ロバストネスアライメントスコア(RAS)を提案する。
- 参考スコア(独自算出の注目度): 49.393713730706445
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the remarkable reasoning abilities of large vision-language models (LVLMs), their robustness under visual corruptions remains insufficiently studied. Existing evaluation paradigms exhibit two major limitations: 1) the dominance of low-discriminative samples in current datasets masks the real robustness gap between models; and 2) conventional accuracy-based metric fail to capture the degradation of the underlying prediction structure. To bridge these gaps, we introduce Bench-C, a comprehensive benchmark emphasizing discriminative samples for assessing corruption robustness, where a selection strategy is proposed to jointly consider the prediction inconsistency under corruption and the semantic diversity. Furthermore, we propose the Robustness Alignment Score (RAS), a unified metric that measures degradation in logit-level prediction structure by considering the shifts in prediction uncertainty and calibration alignment. Comprehensive experiments and analysis reveal several interesting findings: 1) model behaviors exhibit distinguish patterns under corruptions, such as erroneous confidence and hesitation; 2) despite subtle corruption may lead to a slight accuracy gain, the overall prediction structure still degrades; 3) by decomposing corruption robustness into destructive and corrective components, the distinct failure and recovery patterns across models can be revealed.
- Abstract(参考訳): 大きな視覚言語モデル(LVLM)の顕著な推論能力にもかかわらず、視覚的腐敗下での頑健さは十分に研究されていない。
既存の評価パラダイムには2つの大きな制限がある。
1)現在のデータセットにおける低識別サンプルの優位性は、モデル間の真の堅牢性ギャップを隠蔽する。
2) 従来の精度に基づく測度は, 基礎となる予測構造の劣化を捉えるのに失敗する。
これらのギャップを埋めるために, 汚職の堅牢性を評価するための識別的サンプルを強調する総合的なベンチマークであるBench-Cを紹介し, 汚職下での予測の不整合と意味的多様性を共同で検討する選択戦略を提案する。
さらに,ロバストネスアライメントスコア(RAS)を提案し,予測の不確実性やキャリブレーションアライメントの変化を考慮し,ロバストレベルの予測構造の劣化を測定する。
総合的な実験と分析により、いくつかの興味深い発見が明らかになった。
1) モデル行動は,不正な信任やためらいなど,汚職下でのパターンを区別する。
2) 微妙な腐敗があったとしても,全体の予測構造は,わずかに精度が向上する可能性がある。
3) 破損の堅牢性を破壊的かつ是正的な構成要素に分解することにより, モデル間の障害パターンと回復パターンを明らかにすることができる。
関連論文リスト
- Benchmarking the Spatial Robustness of DNNs via Natural and Adversarial Localized Corruptions [49.546479320670464]
本稿では,セグメンテーションモデルの空間的ロバスト性を評価するための特別な指標を紹介する。
本稿では,モデルロバスト性をより深く理解する手法として,地域対応型マルチアタック・アタック・アタック・アタック・アタック・アタック・アタック・アタック・アタック・アタック・アタック・アタック・アタック・アタック分析を提案する。
その結果、モデルがこれらの2種類の脅威に異なる反応を示すことが明らかとなった。
論文 参考訳(メタデータ) (2025-04-02T11:37:39Z) - Towards Calibrated Robust Fine-Tuning of Vision-Language Models [97.19901765814431]
本研究は、視覚言語モデルにおいて、OOD精度と信頼性校正の両方を同時に改善する頑健な微調整法を提案する。
OOD分類とOOD校正誤差は2つのIDデータからなる共有上限を持つことを示す。
この知見に基づいて,最小の特異値を持つ制約付きマルチモーダルコントラスト損失を用いて微調整を行う新しいフレームワークを設計する。
論文 参考訳(メタデータ) (2023-11-03T05:41:25Z) - Uncertainty Estimation for Heatmap-based Landmark Localization [4.673063715963989]
推定誤差境界を持つ不確実性によって予測を分類するデータ駆動手法であるQuantile Binningを提案する。
この枠組みは,3つの不確実性対策を比較し,対比することによって実証する。
我々は、Quantile Binsで捕捉された大まかな誤予測をフィルタリングすることで、許容可能なエラー閾値下での予測の割合を大幅に改善する、という結論を導いた。
論文 参考訳(メタデータ) (2022-03-04T14:40:44Z) - Robustness and Accuracy Could Be Reconcilable by (Proper) Definition [109.62614226793833]
強靭性と精度のトレードオフは、敵文学において広く研究されている。
局所的不変性の帰納的バイアスを課す不適切に定義された頑健な誤差に由来する可能性がある。
定義上、SCOREは、最悪のケースの不確実性に対処しながら、堅牢性と正確性の間の和解を促進する。
論文 参考訳(メタデータ) (2022-02-21T10:36:09Z) - Trust but Verify: Assigning Prediction Credibility by Counterfactual
Constrained Learning [123.3472310767721]
予測信頼性尺度は統計学と機械学習において基本的なものである。
これらの措置は、実際に使用される多種多様なモデルを考慮に入れるべきである。
この研究で開発されたフレームワークは、リスクフィットのトレードオフとして信頼性を表現している。
論文 参考訳(メタデータ) (2020-11-24T19:52:38Z) - Sparse representation for damage identification of structural systems [11.397437423613418]
モデル更新とスパース損傷識別のための2段階感度解析に基づく新しいフレームワークを提案する。
次に、準$ell法上に構築されたスパース表現パイプラインを、損傷と局所化定量化のために提示する。
提案手法は, 構造損傷の局所化と定量化の両方を高精度に行うことができることを示す。
論文 参考訳(メタデータ) (2020-06-06T18:04:35Z) - Model Uncertainty Quantification for Reliable Deep Vision Structural
Health Monitoring [2.5126058470073263]
本稿では,深部視覚構造型健康モニタリングモデルに対するベイズ推定を提案する。
不確かさはモンテカルロのドロップアウトサンプリングを用いて定量化することができる。
き裂, 局部損傷同定, 橋梁部品検出の3つの独立したケーススタディについて検討した。
論文 参考訳(メタデータ) (2020-04-10T17:54:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。