論文の概要: Blind Spot Navigation: Evolutionary Discovery of Sensitive Semantic Concepts for LVLMs
- arxiv url: http://arxiv.org/abs/2505.15265v1
- Date: Wed, 21 May 2025 08:45:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.322392
- Title: Blind Spot Navigation: Evolutionary Discovery of Sensitive Semantic Concepts for LVLMs
- Title(参考訳): ブラインドスポットナビゲーション:LVLMのための感性意味論的概念の進化的発見
- Authors: Zihao Pan, Yu Tong, Weibin Wu, Jingyi Wang, Lifeng Chen, Zhe Zhao, Jiajia Wei, Yitong Qiao, Zibin Zheng,
- Abstract要約: 最近の研究では、モデルは視覚入力の特定の意味に特に敏感であり、エラーを起こしやすいことが示唆されている。
そこで本研究では,大規模視覚言語モデル(LVLM)の最初の探索を行った。
画像中の特定の意味概念に直面すると,LVLMは幻覚や様々な誤りの影響を受けることが判明した。
- 参考スコア(独自算出の注目度): 24.76767896607915
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adversarial attacks aim to generate malicious inputs that mislead deep models, but beyond causing model failure, they cannot provide certain interpretable information such as ``\textit{What content in inputs make models more likely to fail?}'' However, this information is crucial for researchers to specifically improve model robustness. Recent research suggests that models may be particularly sensitive to certain semantics in visual inputs (such as ``wet,'' ``foggy''), making them prone to errors. Inspired by this, in this paper we conducted the first exploration on large vision-language models (LVLMs) and found that LVLMs indeed are susceptible to hallucinations and various errors when facing specific semantic concepts in images. To efficiently search for these sensitive concepts, we integrated large language models (LLMs) and text-to-image (T2I) models to propose a novel semantic evolution framework. Randomly initialized semantic concepts undergo LLM-based crossover and mutation operations to form image descriptions, which are then converted by T2I models into visual inputs for LVLMs. The task-specific performance of LVLMs on each input is quantified as fitness scores for the involved semantics and serves as reward signals to further guide LLMs in exploring concepts that induce LVLMs. Extensive experiments on seven mainstream LVLMs and two multimodal tasks demonstrate the effectiveness of our method. Additionally, we provide interesting findings about the sensitive semantics of LVLMs, aiming to inspire further in-depth research.
- Abstract(参考訳): 敵対的攻撃は、ディープモデルを誤解させる悪意のある入力を生成することを目的としているが、モデル失敗を引き起こす以外に、 ``\textit{?
しかし、この情報は研究者にとって特にモデルロバスト性を改善することが不可欠である。
最近の研究は、モデルが視覚入力の特定の意味論(例えば ``wet,'' ``foggy'')に特に敏感である可能性を示唆している。
そこで本研究では,大規模視覚言語モデル (LVLM) を最初に検討し,LVLMが画像の特定の意味概念に直面すると,幻覚や様々な誤りに陥ることを発見した。
そこで我々は,これらの概念を効率的に探索するために,大規模言語モデル(LLM)とテキスト・トゥ・イメージ(T2I)モデルを統合し,新しい意味進化フレームワークを提案する。
ランダムに初期化されたセマンティック概念は、LLMベースのクロスオーバーと突然変異操作を行い、画像記述を形成し、その後T2IモデルによってLVLMの視覚入力に変換される。
各入力におけるLVLMのタスク固有の性能は、関連するセマンティクスの適合度スコアとして定量化され、LVLMを誘導する概念の探索においてLLMをさらに導くための報酬信号として機能する。
7つのメインストリームLVLMと2つのマルチモーダルタスクに関する大規模な実験により,本手法の有効性が示された。
さらに,LVLMのセマンティクスに関する興味深い知見を提供し,さらなる深層研究のインスピレーションを目指している。
関連論文リスト
- E2LVLM:Evidence-Enhanced Large Vision-Language Model for Multimodal Out-of-Context Misinformation Detection [7.1939657372410375]
E2LVLM(E2LVLM)は、2つのレベルにテキスト証拠を適応させることにより、新たなエビデンスを強化した大規模視覚言語モデルである。
判断と説明の両方でニュース領域データセットの不足に対処するため、我々は新しいOOCマルチモーダル命令追従データセットを生成する。
多数の実験により、E2LVLMは最先端の手法よりも優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-02-12T04:25:14Z) - When Large Vision-Language Models Meet Person Re-Identification [44.604485649167216]
本稿では,LVLMの強度を利用してReIDを促進する新しいフレームワークであるLVLM-ReIDを提案する。
我々のフレームワークは,LVLMのセマンティック理解と生成能力をエンドツーエンドのReIDトレーニングに統合する。
画像テキストアノテーションを追加せずに複数のベンチマークで競合する結果を得る。
論文 参考訳(メタデータ) (2024-11-27T07:45:25Z) - Large Vision-Language Models as Emotion Recognizers in Context Awareness [14.85890824622433]
文脈対応感情認識(CAER)は、様々な文脈から感情を知覚する必要がある複雑で重要なタスクである。
以前のアプローチは主に、イメージから感情的な手がかりを抽出する洗練されたアーキテクチャを設計することに焦点を当てていた。
本稿では,LVLM(Large Vision-Language Models)を活用したCAERタスクの実現の可能性について,体系的に検討する。
論文 参考訳(メタデータ) (2024-07-16T01:28:06Z) - From Redundancy to Relevance: Information Flow in LVLMs Across Reasoning Tasks [33.476693301050275]
我々は,視覚的質問応答と画像キャプションタスクのために,様々なLVLMの切り抜き戦略を用いて実験を行った。
視覚的表現の貢献の観点から情報の流れを探索することにより、浅い層に収束する傾向にあるが、より深い層に分散する傾向があることを観察する。
論文 参考訳(メタデータ) (2024-06-04T13:52:54Z) - Finer: Investigating and Enhancing Fine-Grained Visual Concept Recognition in Large Vision Language Models [57.95366341738857]
詳細な分析では、命令調整されたLVLMはモダリティギャップを示し、同じ概念に対応するテキスト入力と視覚入力の相違を示す。
我々は,LVLMの細粒度視覚理解能力を評価するために,複数の属性中心評価ベンチマークであるFinerを提案し,説明可能性を大幅に改善した。
論文 参考訳(メタデータ) (2024-02-26T05:43:51Z) - LION : Empowering Multimodal Large Language Model with Dual-Level Visual
Knowledge [58.82222646803248]
MLLM(Multimodal Large Language Models)は、マルチモーダル信号の知覚と理解が可能なLLMを提供する。
既存のMLLMの多くは、大まかに整列された画像テキストペアで事前訓練された視覚エンコーダを採用しており、視覚知識の抽出と推論が不十分である。
本稿では,2段階の視覚的知識を注入することによってMLLMを増強する,デュアルレベルvIsual knedgeOwl eNhanced Multimodal Large Language Model (LION)を提案する。
論文 参考訳(メタデータ) (2023-11-20T15:56:44Z) - HiLM-D: Enhancing MLLMs with Multi-Scale High-Resolution Details for Autonomous Driving [44.06475712570428]
HiLM-D は ROLISP 用の MLLM の視覚情報処理を強化するリソース効率のよいフレームワークである。
本手法は, 自律走行シナリオにおける主要な変動が運動軌跡であるという事実に動機付けられている。
実験の結果、HiLM-Dは現在のMLLMよりも大幅に改善され、BLEU-4のキャプションは3.7%、mIoUの8.7%が検出された。
論文 参考訳(メタデータ) (2023-09-11T01:24:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。