Fugu-MT 論文翻訳(概要): MM-SpuBench: Towards Better Understanding of Spurious Biases in Multimodal LLMs

論文の概要: MM-SpuBench: Towards Better Understanding of Spurious Biases in Multimodal LLMs

arxiv url: http://arxiv.org/abs/2406.17126v1
Date: Mon, 24 Jun 2024 20:29:16 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-26 18:21:22.719704
Title: MM-SpuBench: Towards Better Understanding of Spurious Biases in Multimodal LLMs
Title（参考訳）: MM-SpuBench:マルチモーダルLLMにおけるスパーラスビアーゼのより良い理解を目指して
Authors: Wenqian Ye, Guangtao Zheng, Yunsheng Ma, Xu Cao, Bolin Lai, James M. Rehg, Aidong Zhang,
Abstract要約: 非意味な入力属性と予測対象変数の急激な相関を利用する傾向にあるスパースバイアスは、単一のモダリティデータに基づいて訓練されたディープラーニングモデルに深刻な落とし穴があることを明らかにした。本稿では,9つの異なる相関関係のカテゴリに対するMLLMの信頼度を評価するために,包括的視覚質問応答(VQA)ベンチマークであるMM-SpuBenchを紹介する。以上の結果から,これらのモデルからの素因相関への依存の持続性を明らかにし,素因バイアスを緩和する新たな手法の必要性を浮き彫りにした。
参考スコア（独自算出の注目度）: 38.93090238335506
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Spurious bias, a tendency to use spurious correlations between non-essential input attributes and target variables for predictions, has revealed a severe robustness pitfall in deep learning models trained on single modality data. Multimodal Large Language Models (MLLMs), which integrate both vision and language models, have demonstrated strong capability in joint vision-language understanding. However, whether spurious biases are prevalent in MLLMs remains under-explored. We mitigate this gap by analyzing the spurious biases in a multimodal setting, uncovering the specific test data patterns that can manifest this problem when biases in the vision model cascade into the alignment between visual and text tokens in MLLMs. To better understand this problem, we introduce MM-SpuBench, a comprehensive visual question-answering (VQA) benchmark designed to evaluate MLLMs' reliance on nine distinct categories of spurious correlations from five open-source image datasets. The VQA dataset is built from human-understandable concept information (attributes). Leveraging this benchmark, we conduct a thorough evaluation of current state-of-the-art MLLMs. Our findings illuminate the persistence of the reliance on spurious correlations from these models and underscore the urge for new methodologies to mitigate spurious biases. To support the MLLM robustness research, we release our VQA benchmark at https://huggingface.co/datasets/mmbench/MM-SpuBench.
Abstract（参考訳）: 無意味な入力属性と予測対象変数の急激な相関を利用する傾向にあるスパースバイアスは、単一のモーダルデータに基づいて訓練されたディープラーニングモデルにおいて、深刻な堅牢性落とし穴を露呈している。視覚モデルと言語モデルを統合したMLLM(Multimodal Large Language Models)は、共同視覚言語理解において強力な能力を示している。しかし、MLLMにおいて急激な偏見が一般的かどうかはまだ未解明のままである。視覚モデルカスケード内のバイアスがMLLM内の視覚トークンとテキストトークンのアライメントに反映される場合に、この問題を示すことのできる特定のテストデータパターンを明らかにすることで、このギャップを緩和する。この問題をより深く理解するために,5つのオープンソース画像データセットから,9つの突発的相関のカテゴリに対するMLLMの信頼度を評価するために設計された,包括的視覚的質問答え(VQA)ベンチマークであるMM-SpuBenchを紹介する。 VQAデータセットは、人間の理解可能な概念情報(属性)から構築される。このベンチマークを利用して、現状のMLLMを徹底的に評価する。以上の結果から,これらのモデルからの素因相関への依存の持続性を明らかにし,素因バイアスを緩和する新たな手法の必要性を浮き彫りにした。 MLLMの堅牢性の研究をサポートするため、私たちはVQAベンチマークをhttps://huggingface.co/datasets/mmbench/MM-SpuBenchでリリースしています。

関連論文リスト

FewMMBench: A Benchmark for Multimodal Few-Shot Learning [17.747746608503114]
FewMMBenchは、MLLM(Multimodal large language model)を評価するために設計された包括的なベンチマークである。ゼロショット,少数ショット,CoT増設数ショット設定で6種類のモデルファミリーから26個のオープンウェイトMLLMを評価した。以上の結果から,命令調整モデルではゼロショット性能は高いが,デモやCoT推論を付加することで,最小限あるいは最小限の利益を得ることができた。
論文参考訳（メタデータ） (2026-02-25T12:30:18Z)
PENDULUM: A Benchmark for Assessing Sycophancy in Multimodal Large Language Models [43.767942065379366]
サイコファシー(英: Sycophancy)は、AIモデルが実際の正確さや視覚的証拠の矛盾を犠牲にしてユーザー入力に同意する傾向である。約2000組の視覚質問応答対からなる総合評価ベンチマーク「textitPENDULUM」を導入する。本研究は, モデルロバスト性およびサイコファンおよび幻覚行動に対する感受性の顕著な変動を観察する。
論文参考訳（メタデータ） (2025-12-22T12:49:12Z)
NaViL: Rethinking Scaling Properties of Native Multimodal Large Language Models under Data Constraints [100.02131897927484]
本稿では,Multimodal Large Language Models(MLLM)のエンドツーエンドなネイティブトレーニングに焦点を当てる。そこで我々は,NaViLと呼ばれるネイティブMLLMと,シンプルで費用対効果の高いレシピを組み合わせて提案する。 14のマルチモーダルベンチマークによる実験結果から,既存のMLLMに対するNaViLの競合性能が確認された。
論文参考訳（メタデータ） (2025-10-09T17:59:37Z)
Reasoning Multimodal Large Language Model: Data Contamination and Dynamic Evaluation [9.434966074326056]
MLLM(Multimodal Large Language Models)は、視覚ベースのベンチマーク性能を示すが、真の一般化を隠蔽するデータ汚染リスクへの懸念が増大している。静的ベンチマークを超えてMLLMの一般化を厳格に評価する新しい動的評価フレームワークを提案する。シミュレーションテストデータ(極端汚染)の微調整はタスク固有の性能を大幅に向上させるが、全体的な一般化には悪影響を及ぼすことを示す。
論文参考訳（メタデータ） (2025-06-08T15:52:38Z)
STORM: Benchmarking Visual Rating of MLLMs with a Comprehensive Ordinal Regression Dataset [13.574832958298911]
STORMは、ユニバーサルビジュアルレーティングのためのMLLMの信頼に値する順序回帰能力を刺激するためのデータ収集とベンチマークである。本稿では,ラベル候補を動的に考慮し,解釈可能な思考を提供する粗大な処理パイプラインを提案する。本ベンチマークは,MLLMのオールインワンおよびゼロショット性能を,評価ラベルの基本的な共通順序関係の理解を必要とするシナリオで評価することを目的とする。
論文参考訳（メタデータ） (2025-06-02T14:48:15Z)
Can Multimodal Large Language Models Understand Spatial Relations? [16.76001474065412]
我々はCOCO 2017をベースとした人間アノテーション付き空間関係推論ベンチマークであるSpatialMQAを紹介する。その結果、現在の最先端MLLMの精度は48.14%に過ぎず、人間レベルの精度は98.40%をはるかに下回っている。
論文参考訳（メタデータ） (2025-05-25T07:37:34Z)
MLLMs are Deeply Affected by Modality Bias [158.64371871084478]
MLLM(Multimodal Large Language Models)の最近の進歩は、テキストや画像などの多様なモダリティを統合する上で、有望な成果を示している。 MLLMはモダリティバイアスに強く影響され、しばしば言語に依存し、視覚入力のような他のモダリティを過小評価する。本稿では,MLLMはモダリティバイアスの影響を強く受けており,様々なタスクにまたがってその発現を明らかにする。
論文参考訳（メタデータ） (2025-05-24T11:49:31Z)
Grounded Chain-of-Thought for Multimodal Large Language Models [66.04061083611863]
我々は,GCoT(Gunded Chain-of-Thought)と呼ばれるマルチモーダル大規模言語モデル(MLLM)の新しい学習タスクを提案する。 GCoTは、MLLMが関連する視覚的手がかりを段階的に認識し、グラウンド化するのを支援し、グラウンド化座標による正しい解を直感的に予測する。この作業を容易にするために,5,033画像に対して24,022 GCoT例からなるマルチモーダルグラウンドド・チェーン・オブ・ソート(MM-GCoT)と呼ばれるデータセットを慎重に設計し,構築する。
論文参考訳（メタデータ） (2025-03-17T04:07:47Z)
Seeing What's Not There: Spurious Correlation in Multimodal LLMs [47.651861502104715]
我々は,人間の監督なしに刺激的な視覚的手がかりを自動的に識別するパイプラインであるSpurLensを紹介した。 MLLM(Multimodal Large Language Models)において,スプリアス相関が2つの大きな障害モードを引き起こすことが明らかとなった。相関関係の持続性を明らかにすることにより,MLLMの信頼性を高めるため,より厳密な評価手法と緩和戦略が求められた。
論文参考訳（メタデータ） (2025-03-11T20:53:00Z)
Protecting multimodal large language models against misleading visualizations [94.71976205962527]
誤解を招くビジュアライゼーションの性能を改善するための最初の推論時間手法を紹介する。 MLLM問合せ精度は, 平均値からランダム基準値まで低下することがわかった。
論文参考訳（メタデータ） (2025-02-27T20:22:34Z)
Multimodal Inconsistency Reasoning (MMIR): A New Benchmark for Multimodal Reasoning Models [26.17300490736624]
MLLM(Multimodal Large Language Models)は、一貫した視覚・テキスト入力で主に訓練され、テストされる。本稿では,MLLMの意味的ミスマッチの検出と推論能力を評価するためのマルチモーダル不整合推論ベンチマークを提案する。我々は6つの最先端MLLMを評価し、o1のような専用マルチモーダル推論能力を持つモデルは、その性能を大幅に上回っていることを示す。
論文参考訳（メタデータ） (2025-02-22T01:52:37Z)
Preference Leakage: A Contamination Problem in LLM-as-a-judge [69.96778498636071]
審査員としてのLLM(Large Language Models)とLLMに基づくデータ合成は、2つの基本的なLLM駆動型データアノテーション法として登場した。本研究では, 合成データ生成器とLCMに基づく評価器の関連性に起因するLCM-as-a-judgeの汚染問題である選好リークを明らかにする。
論文参考訳（メタデータ） (2025-02-03T17:13:03Z)
MM-R$^3$: On (In-)Consistency of Multi-modal Large Language Models (MLLMs) [26.475993408532304]
本研究では,MLLMモデルが意味論的に類似したクエリに対して,意味論的に類似あるいは同一の応答を生成する能力について検討する。本稿では,SoTA MLLMの一貫性と精度の観点から,MM-R$3$ベンチマークを提案する。我々の分析では、一貫性が必ずしも精度と一致していないことを示し、高い精度のモデルが必ずしも一致しているとは限らないことを示し、その逆も示している。
論文参考訳（メタデータ） (2024-10-07T06:36:55Z)
Assessing Modality Bias in Video Question Answering Benchmarks with Multimodal Large Language Models [12.841405829775852]
我々は、VidQAベンチマークとデータセットのバイアスを特定するために、MIS(Modality importance score)を導入する。また,最新のMLLMを用いてモダリティの重要度を推定する手法を提案する。以上の結果から,既存のデータセットでは,モダリティの不均衡による情報統合が効果的に行われていないことが示唆された。
論文参考訳（メタデータ） (2024-08-22T23:32:42Z)
Social Debiasing for Fair Multi-modal LLMs [55.8071045346024]
MLLM(Multi-modal Large Language Models)は、強力な視覚言語理解機能を提供する。しかしながら、これらのモデルはトレーニングデータセットから深刻な社会的偏見を継承することが多く、人種や性別といった属性に基づいた不公平な予測につながります。本稿では,MLLMにおける社会的バイアスの問題に対処する。i)多元的社会的概念(CMSC)を用いた包括的対実的データセットの導入,i)アンチステレオタイプデバイアス戦略(ASD)を提案する。
論文参考訳（メタデータ） (2024-08-13T02:08:32Z)
DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文参考訳（メタデータ） (2024-06-25T04:27:53Z)
MMRel: A Relation Understanding Benchmark in the MLLM Era [72.95901753186227]
MMRel(Multi-Modal Relation Understanding)は、オブジェクト間の関係に関する大規模で高品質で多様なデータを特徴付けるベンチマークである。 MMRelは、関係理解に基づくMLLMの評価や、関係理解能力を高めるための微調整MLLMに最適である。
論文参考訳（メタデータ） (2024-06-13T13:51:59Z)
CogBench: a large language model walks into a psychology lab [12.981407327149679]
本稿では,7つの認知心理学実験から得られた10の行動指標を含むベンチマークであるCogBenchを紹介する。本稿では,CagBenchを35大言語モデル(LLM)に適用し,統計的多レベルモデリング手法を用いて解析する。オープンソースモデルは、プロプライエタリなモデルよりもリスクが高く、コードの微調整は必ずしもLLMの振舞いを促進しない。
論文参考訳（メタデータ） (2024-02-28T10:43:54Z)
MatPlotAgent: Method and Evaluation for LLM-Based Agentic Scientific Data Visualization [86.61052121715689]
MatPlotAgentは、科学的データ可視化タスクを自動化するために設計された、モデルに依存しないフレームワークである。 MatPlotBenchは、100人の検証されたテストケースからなる高品質なベンチマークである。
論文参考訳（メタデータ） (2024-02-18T04:28:28Z)
Revisit Input Perturbation Problems for LLMs: A Unified Robustness Evaluation Framework for Noisy Slot Filling Task [18.623619585980688]
本研究では,大言語モデルの対話理解能力を評価するために,スロット充足タスクに基づく統一ロバストネス評価フレームワークを提案する。具体的には,5種類の単一摂動と4種類の混合摂動データを含む入力摂動評価データセットであるノイズLLMを構築した。本研究の目的は,LLMの様々なロバスト性評価手法が実世界の雑音のシナリオでどの程度機能するかを評価することである。
論文参考訳（メタデータ） (2023-10-10T10:22:05Z)
Correlation Information Bottleneck: Towards Adapting Pretrained Multimodal Models for Robust Visual Question Answering [63.87200781247364]
相関情報ボトルネック (CIB) は圧縮と表現の冗長性のトレードオフを求める。マルチモーダル入力と表現の相互情報に対して,理論上界を厳密に導出する。
論文参考訳（メタデータ） (2022-09-14T22:04:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。