Fugu-MT 論文翻訳(概要): Evaluating Robustness of Vision-Language Models Under Noisy Conditions

論文の概要: Evaluating Robustness of Vision-Language Models Under Noisy Conditions

arxiv url: http://arxiv.org/abs/2509.12492v1
Date: Mon, 15 Sep 2025 22:31:21 GMT
ステータス: 翻訳完了
システム内更新日: 2025-09-17 17:50:52.786779
Title: Evaluating Robustness of Vision-Language Models Under Noisy Conditions
Title（参考訳）: 雑音下における視覚言語モデルのロバスト性評価
Authors: Purushoth, Alireza,
Abstract要約: VLM(Vision-Language Models)は、画像キャプションや視覚的質問応答といったマルチモーダルタスクにおいて、例外的な成功を収めている。制御摂動下での複数の最先端VLMの性能を評価するための総合評価フレームワークを提案する。
参考スコア（独自算出の注目度）: 0.0176290054713643
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Vision-Language Models (VLMs) have attained exceptional success across multimodal tasks such as image captioning and visual question answering. However, their robustness under noisy conditions remains unfamiliar. In this study, we present a comprehensive evaluation framework to evaluate the performance of several state-of-the-art VLMs under controlled perturbations, including lighting variation, motion blur, and compression artifacts. We used both lexical-based metrics (BLEU, METEOR, ROUGE, CIDEr) and neural-based similarity measures using sentence embeddings to quantify semantic alignment. Our experiments span diverse datasets, revealing key insights: (1) descriptiveness of ground-truth captions significantly influences model performance; (2) larger models like LLaVA excel in semantic understanding but do not universally outperform smaller models; and (3) certain noise types, such as JPEG compression and motion blur, dramatically degrade performance across models. Our findings highlight the nuanced trade-offs between model size, dataset characteristics, and noise resilience, offering a standardized benchmark for future robust multimodal learning.
Abstract（参考訳）: VLM(Vision-Language Models)は、画像キャプションや視覚的質問応答といったマルチモーダルタスクにおいて、例外的な成功を収めている。しかし、騒々しい条件下での頑丈さはいまだに不慣れである。本研究では, 照明の変動, 動きのぼかし, 圧縮アーチファクトなど, 制御された摂動下での最先端VLMの性能を評価するための総合評価フレームワークを提案する。語彙に基づくメトリクス(BLEU, METEOR, ROUGE, CIDEr)と文埋め込みを用いたニューラルネットワークによる類似度測定を用いて意味的アライメントの定量化を行った。実験は多様なデータセットにまたがって,(1) 接頭辞の記述性はモデル性能に大きな影響を与え,(2) 意味理解においてLLaVAのような大型モデルは優れるが,より小さなモデルでは普遍的に優れない,(3) JPEG圧縮や動きのぼやけといった特定のノイズタイプは,モデル全体の性能を劇的に低下させる。この結果から,モデルサイズ,データセット特性,ノイズレジリエンスの微妙なトレードオフが浮き彫りになり,将来の堅牢なマルチモーダル学習のための標準ベンチマークが提供される。

関連論文リスト

Integrating Frequency-Domain Representations with Low-Rank Adaptation in Vision-Language Models [0.6715525121432597]
本研究では,特徴抽出,拡張性,効率性を向上する新しい視覚言語モデル(VLM)フレームワークを提案する。ガウス雑音のレベルが異なるベンチマークデータセットを用いて,キャプション生成モデルと視覚質問応答(VQA)タスクの評価を行った。我々のモデルは、特に無人地上車両(UGV)に搭載されたRealSenseカメラで捉えた現実世界のイメージに対して、より詳細で文脈的に関係のある応答を提供する。
論文参考訳（メタデータ） (2025-03-08T01:22:10Z)
Understanding Representation Dynamics of Diffusion Models via Low-Dimensional Modeling [25.705179111920806]
拡散モデルにおける一様表現ダイナミクスの出現について検討する。この一様性は、ノイズスケールをまたいだデノイング強度とクラス信頼の相互作用から生じる。分類タスクにおいて、一助動学の存在は、確実に一般化を示す。
論文参考訳（メタデータ） (2025-02-09T01:58:28Z)
VHELM: A Holistic Evaluation of Vision Language Models [75.88987277686914]
視覚言語モデル(VHELM)の全体的評価について述べる。 VHELMは、視覚的知覚、知識、推論、バイアス、公平性、多言語性、堅牢性、毒性、安全性の9つの側面の1つ以上をカバーするために、さまざまなデータセットを集約する。私たちのフレームワークは軽量で自動で、評価の実行が安価で高速に行えるように設計されています。
論文参考訳（メタデータ） (2024-10-09T17:46:34Z)
Img-Diff: Contrastive Data Synthesis for Multimodal Large Language Models [49.439311430360284]
コントラスト学習と画像差分キャプションにインスパイアされた新しいデータ合成手法を提案する。私たちのキーとなるアイデアは、マッチングと異なる要素の両方を識別するためにモデルに挑戦することです。我々は、この生成されたデータセットを利用して、最先端(SOTA)MLLMを微調整する。
論文参考訳（メタデータ） (2024-08-08T17:10:16Z)
Benchmark Granularity and Model Robustness for Image-Text Retrieval [44.045767657945895]
データセットの粒度とクエリの摂動が検索性能とロバスト性にどのように影響するかを示す。よりリッチなキャプションは、特にテキスト・ツー・イメージタスクにおいて、検索を継続的に強化することを示す。本研究は, モデル頑健性の変化とキャプション粒度と感度摂動のデータセット依存的関係に着目した。
論文参考訳（メタデータ） (2024-07-21T18:08:44Z)
Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文参考訳（メタデータ） (2024-04-23T11:45:32Z)
Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文参考訳（メタデータ） (2023-03-13T16:00:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。