論文の概要: MetaRA: Metamorphic Robustness Assessment for Multimodal Large Language Model-based Visual Question Answering Systems
- arxiv url: http://arxiv.org/abs/2605.19307v1
- Date: Tue, 19 May 2026 03:37:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.10077
- Title: MetaRA: Metamorphic Robustness Assessment for Multimodal Large Language Model-based Visual Question Answering Systems
- Title(参考訳): MetaRA: マルチモーダル大言語モデルに基づく視覚質問応答システムのための変成ロバストネス評価
- Authors: Quanxing Xu, Yuhao Tian, Ling Zhou, Xian Zhong, Xiaohua Huang, Rubing Huang, Chia-Wen Lin,
- Abstract要約: メタモルフィック・ロバストネス・アセスメント(MetaRA)は,メタモルフィック・リレーショナル(MR)を用いてMLLMベースのVQAシステムの脆弱性を調査するテスト・フレームワークである。
MetaRAを複数のMLLMベースのVQAモデルに適用すると、言語的摂動に対する感受性、表面的な視覚的手がかりへの過度な依存、マルチモーダル推論におけるより深い弱点など、さまざまなタスクにまたがる障害パターンが明らかになる。
- 参考スコア(独自算出の注目度): 35.86959578973465
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Visual Question Answering (VQA), as the representative multimodal task, serves as a key benchmark for evaluating the reasoning capabilities of Multimodal Large Language Models (MLLMs). However, existing evaluations largely rely on static datasets and accuracy-based metrics, which fail to capture robustness, consistency, and generalization. Inspired by Metamorphic Testing (MT), we propose Metamorphic Robustness Assessment (MetaRA), a testing framework that employs Metamorphic Relations (MRs) to systematically probe vulnerabilities in MLLM-based VQA systems. MetaRA generates controlled variations of image-question inputs based on specific MRs and evaluates models across diverse conditions. Applying MetaRA to multiple MLLM-based VQA models across different tasks reveals nuanced failure patterns, including sensitivity to linguistic perturbations, over-reliance on superficial visual cues, and deeper weaknesses in multimodal reasoning. Experimental results demonstrate that MetaRA provides richer diagnostic insights than conventional accuracy metrics, exposing failure modes that remain hidden under standard benchmarks. Overall, this work highlights the need for systematic robustness evaluation in VQA and positions metamorphic assessment as a scalable, model-agnostic approach toward trustworthy multimodal AI.
- Abstract(参考訳): VQA(Visual Question Answering)は、マルチモーダル言語モデル(MLLM)の推論能力を評価するための重要なベンチマークである。
しかし、既存の評価は静的なデータセットと精度に基づくメトリクスに大きく依存しているため、堅牢性、一貫性、一般化は得られない。
メタモルフィック・テスト(MT)にインスパイアされたメタモルフィック・ロバストネス・アセスメント(MetaRA)は,メタモルフィック・リレーショナル(MR)を用いてMLLMベースのVQAシステムの脆弱性を系統的に調査するテスト・フレームワークである。
MetaRAは、特定のMRに基づいて、画像検索入力の制御されたバリエーションを生成し、様々な条件でモデルを評価する。
MetaRAを複数のMLLMベースのVQAモデルに適用すると、言語的摂動に対する感受性、表面的な視覚的手がかりへの過度な依存、マルチモーダル推論におけるより深い弱点など、さまざまなタスクにまたがる障害パターンが明らかになる。
実験の結果、MetaRAは従来の精度の指標よりも豊富な診断情報を提供し、標準ベンチマークの下に隠された障害モードを明らかにする。
全体として、この研究はVQAにおける体系的な堅牢性評価の必要性を強調し、信頼性のあるマルチモーダルAIに対するスケーラブルでモデルに依存しないアプローチとしてメタモルフィック評価を位置づけている。
関連論文リスト
- Multi-Level Contextual Token Relation Modeling for Machine-Generated Text Detection [105.1403233464793]
機械生成テキスト(MGT)は偽情報やフィッシングなどのリスクを生じさせ、信頼性の高い検出の必要性を強調する。
MGTの統計的に区別可能な特徴を抽出するメトリックベース法は、複雑なモデルベース法よりも実用的であることが多い。
MGT検出のための多レベルコンテキストトークン関係モデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2026-05-15T15:55:58Z) - Deconstructing Instruction-Following: A New Benchmark for Granular Evaluation of Large Language Model Instruction Compliance Abilities [2.9203730377983654]
既存のベンチマークでは、実際の使用を反映したり、コンプライアンスをタスクの成功から分離することができない。
アプリケーション指向の生成制約を最大20個まで含む動的に生成されたデータセットを使用するモジュール型フレームワークであるMOSAICを紹介した。
コンプライアンスはモノリシックな機能ではなく、制約タイプ、量、位置によって大きく異なります。
論文 参考訳(メタデータ) (2026-01-26T15:02:15Z) - MS-ISSM: Objective Quality Assessment of Point Clouds Using Multi-scale Implicit Structural Similarity [65.85858856481131]
点雲の非構造的で不規則な性質は、客観的品質評価(PCQA)に重大な課題をもたらす
マルチスケールインシシシット構造類似度測定(MS-ISSM)を提案する。
論文 参考訳(メタデータ) (2026-01-03T14:58:52Z) - PENDULUM: A Benchmark for Assessing Sycophancy in Multimodal Large Language Models [43.767942065379366]
サイコファシー(英: Sycophancy)は、AIモデルが実際の正確さや視覚的証拠の矛盾を犠牲にしてユーザー入力に同意する傾向である。
約2000組の視覚質問応答対からなる総合評価ベンチマーク「textitPENDULUM」を導入する。
本研究は, モデルロバスト性およびサイコファンおよび幻覚行動に対する感受性の顕著な変動を観察する。
論文 参考訳(メタデータ) (2025-12-22T12:49:12Z) - MMRQA: Signal-Enhanced Multimodal Large Language Models for MRI Quality Assessment [13.830308086211067]
本稿では,MMRQA(Multimodal MRI Quality Assessment)フレームワークを導入し,MLLM(Multimodal Large Language Model)と取得対応信号処理を統合した。
MMRQAは、MRQyによるロバストなメトリック抽出と、シミュレーションされたアーティファクト、Qwenを用いてメトリクスを問合せペアに構造化した変換、LLaVA-OneVisionのローランク適応(LoRA)によるパラメータ効率の融合を組み合わせた。
論文 参考訳(メタデータ) (2025-09-29T15:00:19Z) - PCRI: Measuring Context Robustness in Multimodal Models for Enterprise Applications [34.58930119882675]
MLLMのロバスト性を定量化する最初の体系的かつ解釈可能なスコアである textbfPatch Context Robustness Index (PCRI) を導入する。
InternVL2-26B や Qwen2VL-72B など,タスク間の一貫したロバスト性を示すモデルはほとんどありません。
論文 参考訳(メタデータ) (2025-09-28T13:39:57Z) - Quantization Meets dLLMs: A Systematic Study of Post-training Quantization for Diffusion LLMs [78.09559830840595]
本稿では拡散に基づく言語モデルの定量化に関する最初の体系的研究について述べる。
異常に大きなアクティベーション値によって特徴付けられるアクティベーションアウトリーチの存在を同定する。
我々は最先端のPTQ手法を実装し、包括的な評価を行う。
論文 参考訳(メタデータ) (2025-08-20T17:59:51Z) - Statistical Runtime Verification for LLMs via Robustness Estimation [0.0]
ランタイムクリティカルなアプリケーションにLLM(Large Language Models)を安全にデプロイするためには、逆の堅牢性検証が不可欠である。
ブラックボックス配置環境におけるLCMのオンライン実行時ロバスト性モニタとしての可能性を評価するために,RoMA統計検証フレームワークを適応・拡張するケーススタディを提案する。
論文 参考訳(メタデータ) (2025-04-24T16:36:19Z) - VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models [121.03333569013148]
VisuLogicは、6つのカテゴリにまたがる1,000の人間認証された問題のベンチマークです。
これらの質問は、複数の視点からMLLMの視覚的推論能力を評価するために評価することができる。
ほとんどのモデルは精度が30%以下で、25%のランダムベースラインよりわずかに高く、人間によって達成された51.4%よりはるかに低い。
論文 参考訳(メタデータ) (2025-04-21T17:59:53Z) - M3-AGIQA: Multimodal, Multi-Round, Multi-Aspect AI-Generated Image Quality Assessment [65.3860007085689]
M3-AGIQAは、AI生成画像のより人間らしく総合的な評価を可能にする包括的なフレームワークである。
モデル出力を人間の判断とより密接に整合させることで、M3-AGIQAは堅牢で解釈可能な品質スコアを提供する。
論文 参考訳(メタデータ) (2025-02-21T03:05:45Z) - Progressive Multimodal Reasoning via Active Retrieval [64.74746997923967]
多段階多モーダル推論タスクは、大規模言語モデル(MLLM)に重大な課題をもたらす
本稿では,MLLMの推論能力の向上を目的とした汎用フレームワークAR-MCTSを提案する。
我々は,AR-MCTSがサンプリングの多様性と精度を最適化し,信頼性の高いマルチモーダル推論を実現することを示す。
論文 参考訳(メタデータ) (2024-12-19T13:25:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。