論文の概要: VisMoDAl: Visual Analytics for Evaluating and Improving Corruption Robustness of Vision-Language Models
- arxiv url: http://arxiv.org/abs/2509.14571v1
- Date: Thu, 18 Sep 2025 03:15:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:53.041921
- Title: VisMoDAl: Visual Analytics for Evaluating and Improving Corruption Robustness of Vision-Language Models
- Title(参考訳): VisMoDAl:視覚言語モデルの破壊ロバスト性評価と改善のためのビジュアル分析
- Authors: Huanchen Wang, Wencheng Zhang, Zhiqiang Wang, Zhicong Lu, Yuxin Ma,
- Abstract要約: 視覚言語モデル(VL)を様々な汚職タイプに対して評価するための視覚分析フレームワークであるVisMoDAlを紹介する。
VisMoDAlは、特定の汚職下でのパフォーマンス検査から、タスク駆動によるモデル動作の検査まで、多レベル分析をサポートする。
- 参考スコア(独自算出の注目度): 38.03390941101576
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language (VL) models have shown transformative potential across various critical domains due to their capability to comprehend multi-modal information. However, their performance frequently degrades under distribution shifts, making it crucial to assess and improve robustness against real-world data corruption encountered in practical applications. While advancements in VL benchmark datasets and data augmentation (DA) have contributed to robustness evaluation and improvement, there remain challenges due to a lack of in-depth comprehension of model behavior as well as the need for expertise and iterative efforts to explore data patterns. Given the achievement of visualization in explaining complex models and exploring large-scale data, understanding the impact of various data corruption on VL models aligns naturally with a visual analytics approach. To address these challenges, we introduce VisMoDAl, a visual analytics framework designed to evaluate VL model robustness against various corruption types and identify underperformed samples to guide the development of effective DA strategies. Grounded in the literature review and expert discussions, VisMoDAl supports multi-level analysis, ranging from examining performance under specific corruptions to task-driven inspection of model behavior and corresponding data slice. Unlike conventional works, VisMoDAl enables users to reason about the effects of corruption on VL models, facilitating both model behavior understanding and DA strategy formulation. The utility of our system is demonstrated through case studies and quantitative evaluations focused on corruption robustness in the image captioning task.
- Abstract(参考訳): 視覚言語(VL)モデルは、多モーダル情報を理解する能力のため、様々な臨界領域にわたって変換ポテンシャルを示す。
しかし、それらの性能は分散シフトの下でしばしば劣化し、実践的なアプリケーションで遭遇した実世界のデータ破損に対する堅牢性の評価と改善が重要である。
VLベンチマークデータセットとデータ拡張(DA)の進歩は、堅牢性の評価と改善に寄与しているが、モデル動作の詳細な理解の欠如、専門知識の必要性、データパターンを探索するための反復的な取り組みなど、依然として課題が残っている。
複雑なモデルの説明と大規模データの探索における可視化の成果から、VLモデルに対するさまざまなデータ破損の影響を理解することは、視覚分析アプローチと自然に一致する。
これらの課題に対処するために,VLモデルに対する様々な汚職タイプに対するロバスト性を評価する視覚分析フレームワークVisMoDAlを紹介する。
VisMoDAlは、文献レビューと専門家の議論に基づいて、特定の汚職下でのパフォーマンスを調べることから、モデルの振る舞いとそれに対応するデータスライスをタスク駆動で検査することまで、多段階の分析をサポートする。
従来の作業とは異なり、VisMoDAlはユーザがVLモデルに対する腐敗の影響を判断し、モデル行動理解とDA戦略の定式化を容易にします。
本システムの有用性は,画像キャプションタスクにおける破損堅牢性に着目したケーススタディと定量的評価によって実証された。
関連論文リスト
- Preference Learning for AI Alignment: a Causal Perspective [55.2480439325792]
私たちはこの問題を因果パラダイムに枠組み化し、永続的な課題を特定するための因果関係の豊富なツールボックスを提供します。
因果推論の文献を継承し、信頼性の高い一般化に必要な重要な仮定を特定する。
そこで本研究では, 因果関係に基づくアプローチがモデルロバスト性をいかに改善するかを, ナイーブ報酬モデルの障害モードを例示する。
論文 参考訳(メタデータ) (2025-06-06T10:45:42Z) - Explanatory Model Monitoring to Understand the Effects of Feature Shifts on Performance [61.06245197347139]
そこで本研究では,機能シフトによるブラックボックスモデルの振る舞いを説明する新しい手法を提案する。
本稿では,最適輸送と共有値の概念を組み合わせた提案手法について,説明的性能推定として紹介する。
論文 参考訳(メタデータ) (2024-08-24T18:28:19Z) - Investigating the Role of Instruction Variety and Task Difficulty in Robotic Manipulation Tasks [50.75902473813379]
本研究は、そのようなモデルの一般化能力における命令と入力の役割を体系的に検証する包括的評価フレームワークを導入する。
提案フレームワークは,極度の命令摂動に対するマルチモーダルモデルのレジリエンスと,観測的変化に対する脆弱性を明らかにする。
論文 参考訳(メタデータ) (2024-07-04T14:36:49Z) - AttributionScanner: A Visual Analytics System for Model Validation with Metadata-Free Slice Finding [29.07617945233152]
データスライス検索は、低パフォーマンスを示すデータセット内のサブグループを特定し解析することで、機械学習(ML)モデルを検証するための新興技術である。
このアプローチは、追加メタデータに対する退屈でコストのかかる要件を含む、重大な課題に直面します。
本稿では,メタデータを含まないデータスライス検索用に設計された,革新的なビジュアルアナリティクス(VA)システムであるAttributionScannerを紹介する。
本システムでは、一般的なモデル動作を含む解釈可能なデータスライスを特定し、属性モザイク設計によりこれらのパターンを可視化する。
論文 参考訳(メタデータ) (2024-01-12T09:17:32Z) - Towards Better Modeling with Missing Data: A Contrastive Learning-based
Visual Analytics Perspective [7.577040836988683]
データ不足は機械学習(ML)モデリングの課題となる可能性がある。
現在のアプローチは、特徴計算とラベル予測に分類される。
本研究は、観測データに欠落した値でモデル化するコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-18T13:16:24Z) - Correlation Information Bottleneck: Towards Adapting Pretrained
Multimodal Models for Robust Visual Question Answering [63.87200781247364]
相関情報ボトルネック (CIB) は圧縮と表現の冗長性のトレードオフを求める。
マルチモーダル入力と表現の相互情報に対して,理論上界を厳密に導出する。
論文 参考訳(メタデータ) (2022-09-14T22:04:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。