Fugu-MT 論文翻訳(概要): Benchmarking Multi-Modal LLMs for Testing Visual Deep Learning Systems Through the Lens of Image Mutation

論文の概要: Benchmarking Multi-Modal LLMs for Testing Visual Deep Learning Systems Through the Lens of Image Mutation

arxiv url: http://arxiv.org/abs/2404.13945v1
Date: Mon, 22 Apr 2024 07:41:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-23 14:55:25.826689
Title: Benchmarking Multi-Modal LLMs for Testing Visual Deep Learning Systems Through the Lens of Image Mutation
Title（参考訳）: 画像変異レンズによる視覚深層学習システムテストのためのマルチモーダルLCMのベンチマーク
Authors: Liwen Wang, Yuanyuan Yuan, Ao Sun, Zongjie Li, Pingchuan Ma, Daoyuan Wu, Shuai Wang,
Abstract要約: ビジュアルディープラーニング(VDL)システムは、画像認識、オブジェクト検出、自律運転といった現実世界のアプリケーションで大きな成功を収めている。 VDLの信頼性を評価するために、ソフトウェアテストは画像意味論よりも多様で制御可能な突然変異を必要とする。 MLLM(Multi-modal large language model)の急速な開発により、命令駆動方式による画像突然変異の可能性も導入された。
参考スコア（独自算出の注目度）: 23.18635769949329
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Visual deep learning (VDL) systems have shown significant success in real-world applications like image recognition, object detection, and autonomous driving. To evaluate the reliability of VDL, a mainstream approach is software testing, which requires diverse and controllable mutations over image semantics. The rapid development of multi-modal large language models (MLLMs) has introduced revolutionary image mutation potentials through instruction-driven methods. Users can now freely describe desired mutations and let MLLMs generate the mutated images. However, the quality of MLLM-produced test inputs in VDL testing remains largely unexplored. We present the first study, aiming to assess MLLMs' adequacy from 1) the semantic validity of MLLM mutated images, 2) the alignment of MLLM mutated images with their text instructions (prompts), 3) the faithfulness of how different mutations preserve semantics that are ought to remain unchanged, and 4) the effectiveness of detecting VDL faults. With large-scale human studies and quantitative evaluations, we identify MLLM's promising potentials in expanding the covered semantics of image mutations. Notably, while SoTA MLLMs (e.g., GPT-4V) fail to support or perform worse in editing existing semantics in images (as in traditional mutations like rotation), they generate high-quality test inputs using "semantic-additive" mutations (e.g., "dress a dog with clothes"), which bring extra semantics to images; these were infeasible for past approaches. Hence, we view MLLM-based mutations as a vital complement to traditional mutations, and advocate future VDL testing tasks to combine MLLM-based methods and traditional image mutations for comprehensive and reliable testing.
Abstract（参考訳）: ビジュアルディープラーニング(VDL)システムは、画像認識、オブジェクト検出、自律運転といった現実世界のアプリケーションで大きな成功を収めている。 VDLの信頼性を評価するために、主なアプローチはソフトウェアテストであり、画像意味論よりも多様で制御可能な突然変異を必要とする。 MLLM(Multi-modal large language model)の急速な開発により、命令駆動方式による画像突然変異の可能性も導入された。ユーザーは自由に所望の突然変異を記述でき、MLLMは変異した画像を生成できる。しかしながら、VDLテストにおけるMLLM生成テストインプットの品質はほとんど解明されていない。本研究はMLLMの妥当性を評価するための最初の研究である。 1)MLLM変異画像の意味的妥当性 2)MLLM変更画像とテキスト指示(プロンプト)のアライメント 3)異なる突然変異がどのように意味を保ち続けるべきかの忠実さ、そして 4) VDL断層の検出の有効性について検討した。大規模な人間の研究と定量的評価により、画像突然変異のカバードセマンティクスを拡大するMLLMの有望なポテンシャルを同定する。特に、 SoTA MLLM (例: GPT-4V) は、画像の既存の意味論(回転のような伝統的な突然変異のように)の編集において、サポートや実行に失敗したが、彼らは、画像に余分な意味論をもたらす「セマンティック・アダプティブ(semantic-additive)」な突然変異(例: "dress a dog with clothes")を使用して、高品質なテストインプットを生成する。したがって、MLLMベースの突然変異は従来の突然変異を補完する重要な要因であり、MLLMベースの手法と従来の画像突然変異を組み合わせて総合的かつ信頼性の高い検査を行うための将来的なVDLテストタスクを提唱する。

関連論文リスト

Unlocking the Forgery Detection Potential of Vanilla MLLMs: A Novel Training-Free Pipeline [5.740204096484276]
画像偽造解析に適した訓練不要MLLMベースのパイプラインであるForeseeを提案する。 Foreseeはタイププライア駆動の戦略を採用し、コピー-ムーブ操作を処理するためにFlexible Feature Detectorモジュールを使用している。提案手法は,より優れた局所化精度を実現し,より包括的なテキスト説明を提供する。
論文参考訳（メタデータ） (2025-11-17T14:49:57Z)
IAD-GPT: Advancing Visual Knowledge in Multimodal Large Language Model for Industrial Anomaly Detection [70.02774285130238]
本稿では,リッチテキストセマンティクスと画像レベルの情報と画素レベルの情報の組み合わせについて検討する。産業異常検出のためのMLLMに基づく新しいパラダイムであるIAD-GPTを提案する。 MVTec-ADとVisAデータセットの実験は、私たちの最先端のパフォーマンスを示しています。
論文参考訳（メタデータ） (2025-10-16T02:48:05Z)
AVAM: Universal Training-free Adaptive Visual Anchoring Embedded into Multimodal Large Language Model for Multi-image Question Answering [10.967073982905752]
本稿では,既存のMLLMにシームレスに統合可能な,単純かつ普遍的な適応型ビジュアルアンカリング戦略を提案する。グローバルな視覚入力と圧縮された視覚入力の両方から得られる結果のバランスをとるために,新しい協調的復号機構を導入する。
論文参考訳（メタデータ） (2025-08-25T10:10:46Z)
Demystifying the Visual Quality Paradox in Multimodal Large Language Models [49.154146792279946]
最近のMLLM(Multimodal Large Language Models)は、視覚言語タスクのベンチマークに優れていますが、入力された視覚的品質がその応答をどのように形作るかについてはほとんど分かっていません。本研究は,MLLMを先導する最初の体系的な研究と,視覚言語ベンチマークのスイートを対象とする。モデル,タスク,さらには個々のインスタンスのパフォーマンスさえも,人間の知覚した忠実さから逸脱した画像を改善することができる。
論文参考訳（メタデータ） (2025-06-18T17:14:07Z)
The Coherence Trap: When MLLM-Crafted Narratives Exploit Manipulated Visual Contexts [17.31556625041178]
マルチメディア操作は、AIが生成した偽情報と戦う上で重要な課題として浮上した。本稿では,MLLMが高リスク情報を生成するための新しい対向パイプラインを提案する。 MLLMフレームワークを用いたアーチファクト対応マニピュレーション診断について述べる。
論文参考訳（メタデータ） (2025-05-23T04:58:27Z)
Identifying Multi-modal Knowledge Neurons in Pretrained Transformers via Two-stage Filtering [0.0]
トランスフォーマーベースのMLLMであるMiniGPT-4を用いて,特定の知識に関連するニューロンを同定する手法を提案する。画像キャプション生成タスクの実験では,既存の手法よりも高い精度で知識を見つけることができることがわかった。
論文参考訳（メタデータ） (2025-03-29T02:16:15Z)
SegAgent: Exploring Pixel Understanding Capabilities in MLLMs by Imitating Human Annotator Trajectories [52.57696897619189]
MLLMが対話型セグメンテーションツールを用いた人間のアノテーションを模倣する新しいパラダイムであるHLMAT(Human-Like Mask Modeling Task)を紹介する。 HLMATにより、MLLMはテキストベースのクリックポイントを反復的に生成し、アーキテクチャの変更や暗黙のトークンなしで高品質なマスクを実現することができる。 HLMATは、MLLMの微細なピクセル理解を評価するためのプロトコルを提供し、視覚中心の多段階意思決定タスクを導入している。
論文参考訳（メタデータ） (2025-03-11T17:08:54Z)
LLaVA-RadZ: Can Multimodal Large Language Models Effectively Tackle Zero-shot Radiology Recognition? [59.81732629438753]
LLaVA-RadZは、既存のMLLM機能を利用して、ゼロショットの医療疾患認識のための、シンプルで効果的なフレームワークである。具体的には、MLLMデコーダアーキテクチャの特性を活用するために、DFAT(Decoding-Side Feature Alignment Training)と呼ばれるエンドツーエンドのトレーニング戦略を設計する。また,大規模モデルの本質的な医学的知識を活用するために,DKAM(Domain Knowledge Anchoring Module)を導入する。
論文参考訳（メタデータ） (2025-03-10T16:05:40Z)
VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文参考訳（メタデータ） (2025-02-25T23:36:19Z)
Toward Robust Hyper-Detailed Image Captioning: A Multiagent Approach and Dual Evaluation Metrics for Factuality and Coverage [50.84150600032693]
MLLM(Multimodal large language model)は、非常に詳細なキャプションを生成するのに優れるが、幻覚を引き起こすことが多い。我々は,LLM-MLLM協調を利用して与えられたキャプションを補正するマルチエージェント手法を提案する。提案手法は, キャプションの精度を向上し, GPT-4Vによるキャプションの精度を向上する。
論文参考訳（メタデータ） (2024-12-20T01:37:22Z)
Unveiling Uncertainty: A Deep Dive into Calibration and Performance of Multimodal Large Language Models [36.81503322875839]
MLLM(Multimodal large language model)は、画像キャプションや視覚的質問応答といったタスクの視覚的データとテキスト的データを組み合わせたモデルである。本稿では,MLLMの代表例について,様々なシナリオにおけるキャリブレーションに着目して検討する。その結果, キャリブレーションの相違は認められなかったが, キャリブレーションの相違は認められなかった。
論文参考訳（メタデータ） (2024-12-19T09:10:07Z)
Beyond Binary: Towards Fine-Grained LLM-Generated Text Detection via Role Recognition and Involvement Measurement [51.601916604301685]
大規模言語モデル(LLM)は、オンライン談話における信頼を損なう可能性のあるコンテンツを生成する。現在の手法はバイナリ分類に重点を置いており、人間とAIのコラボレーションのような現実のシナリオの複雑さに対処できないことが多い。バイナリ分類を超えてこれらの課題に対処するために,LLM生成コンテンツを検出するための新しいパラダイムを提案する。
論文参考訳（メタデータ） (2024-10-18T08:14:10Z)
VMAD: Visual-enhanced Multimodal Large Language Model for Zero-Shot Anomaly Detection [19.79027968793026]
Zero-shot Anomaly Detection (ZSAD)は、未確認のオブジェクト内の異常を認識し、ローカライズする。既存のZSADメソッドは、クローズドワールド設定によって制限され、事前に定義されたプロンプトで見つからない欠陥に苦労する。我々は、視覚的IAD知識ときめ細かい知覚でMLLMを強化する新しいフレームワークVMAD(Visual-enhanced MLLM Anomaly Detection)を提案する。
論文参考訳（メタデータ） (2024-09-30T09:51:29Z)
Negation Blindness in Large Language Models: Unveiling the NO Syndrome in Image Generation [63.064204206220936]
基礎的な大規模言語モデル(LLM)は、私たちが技術を理解する方法を変えました。詩の執筆からコーディング、エッセイ生成、パズルの解決まで、様々な課題に長けていることが示されている。画像生成機能の導入により、より包括的で汎用的なAIツールとなった。現在特定されている欠陥には、幻覚、偏見、有害なコンテンツを生成するために制限されたコマンドをバイパスすることが含まれる。
論文参考訳（メタデータ） (2024-08-27T14:40:16Z)
Large Language Models for Multimodal Deformable Image Registration [50.91473745610945]
そこで本研究では,様々な医用画像からの深い特徴の整合を図るために,新しい粗いMDIRフレームワークLLM-Morphを提案する。具体的には、まずCNNエンコーダを用いて、クロスモーダル画像ペアから深い視覚的特徴を抽出し、次に、最初のアダプタを使ってこれらのトークンを調整する。第3に、トークンのアライメントのために、他の4つのアダプタを使用して、LLM符号化トークンをマルチスケールの視覚特徴に変換し、マルチスケールの変形場を生成し、粗いMDIRタスクを容易にする。
論文参考訳（メタデータ） (2024-08-20T09:58:30Z)
A Comprehensive Study of Multimodal Large Language Models for Image Quality Assessment [46.55045595936298]
MLLM(Multimodal Large Language Models)は、視覚的理解と推論において大きな進歩を経験している。画像品質評価(IQA)のための強力でフレキシブル、解釈可能、およびテキスト駆動モデルとして機能する可能性については、まだ明らかにされていない。
論文参考訳（メタデータ） (2024-03-16T08:30:45Z)
Feast Your Eyes: Mixture-of-Resolution Adaptation for Multimodal Large Language Models [84.78513908768011]
MRA(Mixture-of-Resolution Adaptation)と呼ばれるMLLMの新規かつ効率的な手法を提案する。 MRAは解像度の異なる画像に対して2つの視覚経路を採用し、高解像度の視覚情報を低解像度の経路に埋め込む。 MRAを検証するために、LLaVAと呼ばれる最近のMLLMに適用し、新しいモデルLLaVA-HRと呼ぶ。
論文参考訳（メタデータ） (2024-03-05T14:31:24Z)
Q-Bench+: A Benchmark for Multi-modal Foundation Models on Low-level Vision from Single Images to Pairs [71.07108539262721]
低レベルの視覚に関連する人間の言語応答をエミュレートするためのベンチマーク設定を設計する。我々は,MLLMの低レベルの認識関連質問応答と記述評価を,単一画像から画像ペアへ拡張する。複数のMLLMが単一の画像に対して十分な低レベルの視覚能力を持つことを示したが、GPT-4Vのみが人間よりも高い精度で比較できる。
論文参考訳（メタデータ） (2024-02-11T06:44:11Z)
Mementos: A Comprehensive Benchmark for Multimodal Large Language Model Reasoning over Image Sequences [80.54979242912944]
本稿では,MLLMの逐次画像推論能力を評価するためのベンチマークであるMementosを紹介する。 MLLMは与えられた画像列の動的情報を正確に記述するのに苦労しており、しばしば幻覚/誤表現につながる。
論文参考訳（メタデータ） (2024-01-19T07:10:13Z)
LION : Empowering Multimodal Large Language Model with Dual-Level Visual Knowledge [58.82222646803248]
MLLM(Multimodal Large Language Models)は、マルチモーダル信号の知覚と理解が可能なLLMを提供する。既存のMLLMの多くは、大まかに整列された画像テキストペアで事前訓練された視覚エンコーダを採用しており、視覚知識の抽出と推論が不十分である。本稿では,2段階の視覚的知識を注入することによってMLLMを増強する,デュアルレベルvIsual knedgeOwl eNhanced Multimodal Large Language Model (LION)を提案する。
論文参考訳（メタデータ） (2023-11-20T15:56:44Z)
Investigating the Catastrophic Forgetting in Multimodal Large Language Models [43.89009178021342]
MLLMにおける破滅的忘れの評価のためのMulTimodalityを評価するEMTについて紹介する。ほぼ全ての評価されたMLLMは、標準的な画像分類タスクにおけるビジョンエンコーダと同じパフォーマンスレベルを維持することができない。微調整が進むにつれて、MLLMは幻覚し始め、一般化可能性が著しく失われる。
論文参考訳（メタデータ） (2023-09-19T04:51:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。