論文の概要: How Multi-Modal LLMs Reshape Visual Deep Learning Testing? A Comprehensive Study Through the Lens of Image Mutation
- arxiv url: http://arxiv.org/abs/2404.13945v3
- Date: Sat, 21 Dec 2024 15:21:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:53:53.600755
- Title: How Multi-Modal LLMs Reshape Visual Deep Learning Testing? A Comprehensive Study Through the Lens of Image Mutation
- Title(参考訳): マルチモーダルLLMがビジュアルディープラーニングテストをどのように作り直すか : 画像変異のレンズによる総合的研究
- Authors: Liwen Wang, Yuanyuan Yuan, Ao Sun, Zongjie Li, Pingchuan Ma, Daoyuan Wu, Shuai Wang,
- Abstract要約: ビジュアルディープラーニング(VDL)システムは、画像認識、オブジェクト検出、自律運転といった現実世界のアプリケーションで大きな成功を収めている。
VDLの信頼性を評価するために、主なアプローチは、画像のセマンティクスよりも多様な突然変異を必要とするソフトウェアテストである。
MLLM(Multi-modal large language model)の急速な開発により、命令駆動方式による画像突然変異の可能性も導入された。
- 参考スコア(独自算出の注目度): 23.18635769949329
- License:
- Abstract: Visual deep learning (VDL) systems have shown significant success in real-world applications like image recognition, object detection, and autonomous driving. To evaluate the reliability of VDL, a mainstream approach is software testing, which requires diverse mutations over image semantics. The rapid development of multi-modal large language models (MLLMs) has introduced revolutionary image mutation potentials through instruction-driven methods. Users can now freely describe desired mutations and let MLLMs generate the mutated images. Hence, parallel to large language models' (LLMs) recent success in traditional software fuzzing, one may also expect MLLMs to be promising for VDL testing in terms of offering unified, diverse, and complex image mutations. However, the quality and applicability of MLLM-based mutations in VDL testing remain largely unexplored. We present the first study, aiming to assess MLLMs' adequacy from 1) the semantic validity of MLLM mutated images, 2) the alignment of MLLM mutated images with their text instructions (prompts), and 3) the faithfulness of how different mutations preserve semantics that are ought to remain unchanged. With large-scale human studies and quantitative evaluations, we identify MLLM's promising potentials in expanding the covered semantics of image mutations. Notably, while SoTA MLLMs (e.g., GPT-4V) fail to support or perform worse in editing existing semantics in images (as in traditional mutations like rotation), they generate high-quality test inputs using "semantic-replacement" mutations (e.g., "dress a dog with clothes"), which bring extra semantics to images; these were infeasible for past approaches. Hence, we view MLLM-based mutations as a vital complement to traditional mutations, and advocate future VDL testing tasks to combine MLLM-based methods and traditional image mutations for comprehensive and reliable testing.
- Abstract(参考訳): ビジュアルディープラーニング(VDL)システムは、画像認識、オブジェクト検出、自律運転といった現実世界のアプリケーションで大きな成功を収めている。
VDLの信頼性を評価するために、主なアプローチは、画像のセマンティクスよりも多様な突然変異を必要とするソフトウェアテストである。
MLLM(Multi-modal large language model)の急速な開発により、命令駆動方式による画像突然変異の可能性も導入された。
ユーザーは自由に所望の突然変異を記述でき、MLLMは変異した画像を生成できる。
したがって、従来のソフトウェアファジングにおける'LLM'(Big Language Model')の最近の成功と並行して、MLLMは統一的で多種多様な複雑な画像突然変異を提供するという点でVDLテストに期待できるかもしれない。
しかしながら、VDLテストにおけるMLLMベースの突然変異の品質と適用性はほとんど未解明のままである。
本研究はMLLMの妥当性を評価するための最初の研究である。
1)MLLM変異画像の意味的妥当性
2)MLLM変更画像とテキスト指示(プロンプト)のアライメント
3)異なる突然変異がどのように意味を保っているかの忠実さは変化しないべきである。
大規模な人間の研究と定量的評価により、画像突然変異のカバードセマンティクスを拡大するMLLMの有望なポテンシャルを同定する。
特に、 SoTA MLLM (例: GPT-4V) は、画像の既存の意味論(回転のような伝統的な突然変異のように)を編集する際のサポートや実行に失敗したが、彼らは「セマンティック・リプレースメント(semantic-replacement)」の突然変異(例: "dress a dog with clothes")を使用して高品質なテストインプットを生成し、画像に余分な意味論をもたらす。
したがって、MLLMベースの突然変異は従来の突然変異を補完する重要な要因であり、MLLMベースの手法と従来の画像突然変異を組み合わせて総合的かつ信頼性の高い検査を行うための将来的なVDLテストタスクを提唱する。
関連論文リスト
- Beyond Binary: Towards Fine-Grained LLM-Generated Text Detection via Role Recognition and Involvement Measurement [51.601916604301685]
大規模言語モデル(LLM)は、オンライン談話における信頼を損なう可能性のあるコンテンツを生成する。
現在の手法はバイナリ分類に重点を置いており、人間とAIのコラボレーションのような現実のシナリオの複雑さに対処できないことが多い。
バイナリ分類を超えてこれらの課題に対処するために,LLM生成コンテンツを検出するための新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2024-10-18T08:14:10Z) - VMAD: Visual-enhanced Multimodal Large Language Model for Zero-Shot Anomaly Detection [19.79027968793026]
Zero-shot Anomaly Detection (ZSAD)は、未確認のオブジェクト内の異常を認識し、ローカライズする。
既存のZSADメソッドは、クローズドワールド設定によって制限され、事前に定義されたプロンプトで見つからない欠陥に苦労する。
我々は、視覚的IAD知識ときめ細かい知覚でMLLMを強化する新しいフレームワークVMAD(Visual-enhanced MLLM Anomaly Detection)を提案する。
論文 参考訳(メタデータ) (2024-09-30T09:51:29Z) - Negation Blindness in Large Language Models: Unveiling the NO Syndrome in Image Generation [63.064204206220936]
基礎的な大規模言語モデル(LLM)は、私たちが技術を理解する方法を変えました。
詩の執筆からコーディング、エッセイ生成、パズルの解決まで、様々な課題に長けていることが示されている。
画像生成機能の導入により、より包括的で汎用的なAIツールとなった。
現在特定されている欠陥には、幻覚、偏見、有害なコンテンツを生成するために制限されたコマンドをバイパスすることが含まれる。
論文 参考訳(メタデータ) (2024-08-27T14:40:16Z) - A Comprehensive Study of Multimodal Large Language Models for Image Quality Assessment [46.55045595936298]
MLLM(Multimodal Large Language Models)は、視覚的理解と推論において大きな進歩を経験している。
画像品質評価(IQA)のための強力でフレキシブル、解釈可能、およびテキスト駆動モデルとして機能する可能性については、まだ明らかにされていない。
論文 参考訳(メタデータ) (2024-03-16T08:30:45Z) - Feast Your Eyes: Mixture-of-Resolution Adaptation for Multimodal Large
Language Models [84.78513908768011]
MRA(Mixture-of-Resolution Adaptation)と呼ばれるMLLMの新規かつ効率的な手法を提案する。
MRAは解像度の異なる画像に対して2つの視覚経路を採用し、高解像度の視覚情報を低解像度の経路に埋め込む。
MRAを検証するために、LLaVAと呼ばれる最近のMLLMに適用し、新しいモデルLLaVA-HRと呼ぶ。
論文 参考訳(メタデータ) (2024-03-05T14:31:24Z) - Q-Bench+: A Benchmark for Multi-modal Foundation Models on Low-level Vision from Single Images to Pairs [71.07108539262721]
低レベルの視覚に関連する人間の言語応答をエミュレートするためのベンチマーク設定を設計する。
我々は,MLLMの低レベルの認識関連質問応答と記述評価を,単一画像から画像ペアへ拡張する。
複数のMLLMが単一の画像に対して十分な低レベルの視覚能力を持つことを示したが、GPT-4Vのみが人間よりも高い精度で比較できる。
論文 参考訳(メタデータ) (2024-02-11T06:44:11Z) - Mementos: A Comprehensive Benchmark for Multimodal Large Language Model
Reasoning over Image Sequences [80.54979242912944]
本稿では,MLLMの逐次画像推論能力を評価するためのベンチマークであるMementosを紹介する。
MLLMは与えられた画像列の動的情報を正確に記述するのに苦労しており、しばしば幻覚/誤表現につながる。
論文 参考訳(メタデータ) (2024-01-19T07:10:13Z) - LION : Empowering Multimodal Large Language Model with Dual-Level Visual
Knowledge [58.82222646803248]
MLLM(Multimodal Large Language Models)は、マルチモーダル信号の知覚と理解が可能なLLMを提供する。
既存のMLLMの多くは、大まかに整列された画像テキストペアで事前訓練された視覚エンコーダを採用しており、視覚知識の抽出と推論が不十分である。
本稿では,2段階の視覚的知識を注入することによってMLLMを増強する,デュアルレベルvIsual knedgeOwl eNhanced Multimodal Large Language Model (LION)を提案する。
論文 参考訳(メタデータ) (2023-11-20T15:56:44Z) - Investigating the Catastrophic Forgetting in Multimodal Large Language
Models [43.89009178021342]
MLLMにおける破滅的忘れの評価のためのMulTimodalityを評価するEMTについて紹介する。
ほぼ全ての評価されたMLLMは、標準的な画像分類タスクにおけるビジョンエンコーダと同じパフォーマンスレベルを維持することができない。
微調整が進むにつれて、MLLMは幻覚し始め、一般化可能性が著しく失われる。
論文 参考訳(メタデータ) (2023-09-19T04:51:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。