論文の概要: On the robustness of multimodal language model towards distractions
- arxiv url: http://arxiv.org/abs/2502.09818v1
- Date: Thu, 13 Feb 2025 23:29:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-17 14:45:59.220469
- Title: On the robustness of multimodal language model towards distractions
- Title(参考訳): 多モーダル言語モデルの気晴らしに対する頑健性について
- Authors: Ming Liu, Hao Chen, Jindong Wang, Wensheng Zhang,
- Abstract要約: 本稿では,視覚言語モデル(VLM)の頑健さを,科学質問応答の文脈における視覚的・テキスト的気晴らしに対して評価することを目的とする。
以上の結果から, GPT-4を含む最先端のVLMは種々の障害に対して脆弱であり, 障害に直面すると推論能力が著しく低下することが明らかとなった。
- 参考スコア(独自算出の注目度): 16.144509808157643
- License:
- Abstract: Although vision-language models (VLMs) have achieved significant success in various applications such as visual question answering, their resilience to prompt variations remains an under-explored area. Understanding how distractions affect VLMs is crucial for improving their real-world applicability, as inputs could have noisy and irrelevant information in many practical scenarios. This paper aims to assess the robustness of VLMs against both visual and textual distractions in the context of science question answering. Built on the ScienceQA dataset, we developed a new benchmark that introduces distractions in both the visual and textual contexts to evaluate the reasoning capacity of VLMs amid these distractions. Our findings reveal that most-of-the-art VLMs, including GPT-4, are vulnerable to various types of distractions, experiencing noticeable degradation in reasoning capabilities when confronted with distractions. Notably, models such as InternVL2 demonstrate a higher degree of robustness to these distractions. We also found that models exhibit greater sensitivity to textual distractions than visual ones. Additionally, we explored various mitigation strategies, such as prompt engineering, to counteract the impact of distractions. While these strategies improved solution accuracy, our analysis shows that there remain significant opportunities for improvement.
- Abstract(参考訳): 視覚言語モデル(VLM)は、視覚的質問応答などの様々な応用において大きな成功を収めているが、それらの変化を促進させるレジリエンスは未探索領域のままである。
インプットは、多くの現実的なシナリオにおいてノイズがあり、無関係な情報を持つ可能性があるため、VLMにどう影響するかを理解することは、実際の適用性を改善するために不可欠である。
本稿では,理科質問応答の文脈における視覚的・テキスト的気晴らしに対するVLMの堅牢性を評価することを目的とする。
本研究では,ScienceQAデータセットをベースとして,視覚的・テキスト的文脈の両方に注意散らしを導入し,VLMの推論能力を評価する新しいベンチマークを開発した。
以上の結果から, GPT-4を含む最先端のVLMは種々の障害に対して脆弱であり, 障害に直面すると推論能力が著しく低下することが明らかとなった。
特に、InternVL2のようなモデルでは、これらの障害に対して高い堅牢性を示す。
また、視覚モデルよりもテキストの注意散らしに敏感なモデルがあることが判明した。
さらに,注意散らしの影響を抑えるために,迅速なエンジニアリングなどの様々な緩和策を検討した。
これらの戦略はソリューションの精度を向上するが、我々の分析は改善のための重要な機会が残っていることを示している。
関連論文リスト
- When Data Manipulation Meets Attack Goals: An In-depth Survey of Attacks for VLMs [15.74045364570382]
VLM(Vision-Language Models)に適した攻撃戦略を詳細に調査する。
我々はこれらの攻撃をその根底にある目的に基づいて分類する。
これらの脆弱性を軽減するために提案されている防衛機構について概説する。
論文 参考訳(メタデータ) (2025-02-10T12:20:08Z) - Evaluating Vision-Language Models for Emotion Recognition [1.7409710986849658]
本稿では、画像から誘発された感情を認識するために、VLM(Large Vision-Language Models)を初めて包括的に評価する。
いくつかの実験を通して、感情認識性能が依存する重要な要因を明らかにし、その過程でVLMが犯した様々な誤りを特徴付ける。
論文 参考訳(メタデータ) (2025-02-08T18:25:31Z) - Breaking Focus: Contextual Distraction Curse in Large Language Models [68.4534308805202]
大規模言語モデル(LLM)の重大な脆弱性について検討する。
この現象は、セマンティック・コヒーレントだが無関係な文脈で修正された質問に対して、モデルが一貫した性能を維持することができないときに発生する。
本稿では,CDVの例を自動生成する効率的な木探索手法を提案する。
論文 参考訳(メタデータ) (2025-02-03T18:43:36Z) - DRIVINGVQA: Analyzing Visual Chain-of-Thought Reasoning of Vision Language Models in Real-World Scenarios with Driving Theory Tests [69.00444996464662]
本稿では、複雑な実世界のシナリオにおける視覚的連鎖推論を評価するために、駆動理論テストから得られた新しいベンチマークであるDrivingVQAを提案する。
実験の結果,オープンソースおよびプロプライエタリなLVLMは,ゼロショット設定下での視覚的連鎖推論に苦慮していることがわかった。
視覚的推論を改善するために関連エンティティを活用するトレーニング戦略について検討する。
論文 参考訳(メタデータ) (2025-01-08T18:31:16Z) - Insight Over Sight? Exploring the Vision-Knowledge Conflicts in Multimodal LLMs [55.74117540987519]
本稿では,マルチモーダル大言語モデル(MLLM)におけるコモンセンスレベルの視覚知識衝突の問題について考察する。
MLLMのコンフリクトのシミュレーションと評価を目的としたベンチマークを確立するため,人間のループ品質制御を付加した自動パイプラインを導入する。
各種モデルファミリーにおける9つの代表MLLMのコンフリクト分解能を評価し,テキストクエリに顕著なオーバー信頼度を求める。
論文 参考訳(メタデータ) (2024-10-10T17:31:17Z) - MarvelOVD: Marrying Object Recognition and Vision-Language Models for Robust Open-Vocabulary Object Detection [107.15164718585666]
開語彙検出コンテキスト下でのVLMの偏り予測の根本原因について検討した。
私たちの観察は、非常に優れたトレーニングターゲットを生成する、単純で効果的なパラダイム、コード化されたMarvelOVDにつながります。
我々の手法は、他の最先端技術よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2024-07-31T09:23:57Z) - RUPBench: Benchmarking Reasoning Under Perturbations for Robustness Evaluation in Large Language Models [12.112914393948415]
RUPBenchは,多種多様な推論タスクにわたる大規模言語モデル(LLM)を評価するために設計されたベンチマークである。
我々のベンチマークには15の推論データセットが組み込まれており、コモンセンス、算術、論理、知識集約推論に分類されている。
GPT-4o, Llama3, Phi-3, Gemmaといった最先端のLCMの原文および摂動データセットの性能を調べることにより, その堅牢性およびエラーパターンを詳細に解析する。
論文 参考訳(メタデータ) (2024-06-16T17:26:44Z) - Evaluating and Improving Continual Learning in Spoken Language
Understanding [58.723320551761525]
本研究では,連続学習における安定性,可塑性,一般化性に関する統一的な評価手法を提案する。
提案手法を用いることで,SLUモデルのこれらの3つの特性の異なる側面を,様々な知識蒸留の導入によってどのように改善するかを実証する。
論文 参考訳(メタデータ) (2024-02-16T03:30:27Z) - Evaluation and Enhancement of Semantic Grounding in Large
Vision-Language Models [25.413601452403213]
LVLM(Large Vision-Language Models)は、様々な視覚言語タスクに顕著な利点をもたらす。
制約付きセマンティックグラウンド機能は、現実のシナリオにおけるアプリケーションの障害となる。
LVLMのセマンティックグラウンド機能を改善することを目的とした,データ中心の強化手法を提案する。
論文 参考訳(メタデータ) (2023-09-07T22:59:56Z) - Visual Perturbation-aware Collaborative Learning for Overcoming the
Language Prior Problem [60.0878532426877]
本稿では,視覚的摂動校正の観点から,新しい協調学習手法を提案する。
具体的には、異なる摂動範囲で2種類のキュレートされた画像を構築するための視覚コントローラを考案する。
2つの診断VQA-CPベンチマークデータセットの実験結果は、その効果を明らかに示している。
論文 参考訳(メタデータ) (2022-07-24T23:50:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。