論文の概要: Both Text and Images Leaked! A Systematic Analysis of Multimodal LLM Data Contamination
- arxiv url: http://arxiv.org/abs/2411.03823v1
- Date: Wed, 06 Nov 2024 10:44:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 17:07:44.932091
- Title: Both Text and Images Leaked! A Systematic Analysis of Multimodal LLM Data Contamination
- Title(参考訳): テキストと画像が漏洩した!マルチモーダルLCMデータ汚染の系統解析
- Authors: Dingjie Song, Sicheng Lai, Shunian Chen, Lichao Sun, Benyou Wang,
- Abstract要約: MLLM(Multimodal large language model)は、様々なマルチモーダルベンチマークにおいて優れた性能を示す。
トレーニング中のデータ汚染の問題は、パフォーマンス評価と比較の課題を生み出します。
MLLM向けに設計されたマルチモーダルデータ汚染検出フレームワークMM-Detectを導入する。
- 参考スコア(独自算出の注目度): 18.586654412992168
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid progression of multimodal large language models (MLLMs) has demonstrated superior performance on various multimodal benchmarks. However, the issue of data contamination during training creates challenges in performance evaluation and comparison. While numerous methods exist for detecting dataset contamination in large language models (LLMs), they are less effective for MLLMs due to their various modalities and multiple training phases. In this study, we introduce a multimodal data contamination detection framework, MM-Detect, designed for MLLMs. Our experimental results indicate that MM-Detect is sensitive to varying degrees of contamination and can highlight significant performance improvements due to leakage of the training set of multimodal benchmarks. Furthermore, We also explore the possibility of contamination originating from the pre-training phase of LLMs used by MLLMs and the fine-tuning phase of MLLMs, offering new insights into the stages at which contamination may be introduced.
- Abstract(参考訳): MLLM(Multimodal large language model)の急速な進歩は、様々なマルチモーダルベンチマークにおいて優れた性能を示している。
しかし、トレーニング中のデータ汚染の問題は、性能評価と比較の課題を生み出している。
大規模言語モデル (LLM) におけるデータセットの汚染を検出する方法は数多く存在するが, MLLM には様々なモダリティと複数の訓練段階があるため, 効果が低い。
本研究では,MLLMを対象としたマルチモーダルデータ汚染検出フレームワークMM-Detectを提案する。
実験結果から,MM-Detectは各種汚染度に敏感であり,マルチモーダルベンチマークのトレーニングセットの漏洩により,大幅な性能向上が期待できることがわかった。
さらに,MLLMの事前学習段階とMLLMの微調整段階から発生した汚染の可能性についても検討し,汚染導入の段階について新たな知見を提供する。
関連論文リスト
- PENDULUM: A Benchmark for Assessing Sycophancy in Multimodal Large Language Models [43.767942065379366]
サイコファシー(英: Sycophancy)は、AIモデルが実際の正確さや視覚的証拠の矛盾を犠牲にしてユーザー入力に同意する傾向である。
約2000組の視覚質問応答対からなる総合評価ベンチマーク「textitPENDULUM」を導入する。
本研究は, モデルロバスト性およびサイコファンおよび幻覚行動に対する感受性の顕著な変動を観察する。
論文 参考訳(メタデータ) (2025-12-22T12:49:12Z) - Contamination Detection for VLMs using Multi-Modal Semantic Perturbation [73.76465227729818]
オープンソースのVision-Language Models (VLM)は、ベンチマークタスクで最先端のパフォーマンスを達成した。
プレトレーニングコーパスは,テストセットリークによるパフォーマンスの低下という,実践者とユーザ双方にとって重要な懸念を提起する。
既存の検出手法が不整合性を示すか,不整合性を示すかを示す。
マルチモーダルなセマンティック摂動に基づく,新しい簡易かつ効果的な検出法を提案する。
論文 参考訳(メタデータ) (2025-11-05T18:59:52Z) - Advancing Multimodal Reasoning Capabilities of Multimodal Large Language Models via Visual Perception Reward [87.06604760273372]
本稿では,MLLMに視覚内容の正確な知覚を促す新しい視覚認識報酬を導入するPerception-R1を提案する。
本稿では,Perception-R1が1,442のトレーニングデータのみを用いて,ほとんどのベンチマークで最先端のパフォーマンスを実現することを示す。
論文 参考訳(メタデータ) (2025-06-08T16:48:42Z) - Reasoning Multimodal Large Language Model: Data Contamination and Dynamic Evaluation [9.434966074326056]
MLLM(Multimodal Large Language Models)は、視覚ベースのベンチマーク性能を示すが、真の一般化を隠蔽するデータ汚染リスクへの懸念が増大している。
静的ベンチマークを超えてMLLMの一般化を厳格に評価する新しい動的評価フレームワークを提案する。
シミュレーションテストデータ(極端汚染)の微調整はタスク固有の性能を大幅に向上させるが、全体的な一般化には悪影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2025-06-08T15:52:38Z) - Truth in the Few: High-Value Data Selection for Efficient Multi-Modal Reasoning [71.3533541927459]
アクティベーション推論ポテンシャル(RAP)と呼ばれる新しいデータ選択パラダイムを提案する。
RAPは、真のマルチモーダル推論を刺激する各サンプルのポテンシャルを推定することで、認知サンプルを識別する。
我々のRAP法は、トレーニングデータの9.3%しか使用せず、計算コストを43%以上削減しながら、常に優れた性能を実現している。
論文 参考訳(メタデータ) (2025-06-05T08:40:24Z) - Exploring and Evaluating Multimodal Knowledge Reasoning Consistency of Multimodal Large Language Models [52.569132872560814]
マルチモーダルな大言語モデル(MLLM)は、テキストとビジョンの理解を深め、大きなブレークスルーを達成した。
しかし、現在のMLLMは、マルチモーダルな知識推論において、これらのモダリティを効果的に統合する上での課題に直面している。
MLLMにおけるマルチモーダル知識推論における一貫性劣化の程度を解析・比較する。
論文 参考訳(メタデータ) (2025-03-03T09:01:51Z) - Are Large Language Models Good Data Preprocessors? [5.954202581988127]
高品質なテキストトレーニングデータは、マルチモーダルデータ処理タスクの成功に不可欠である。
BLIPやGITのような画像キャプションモデルからの出力は、しばしばルールベースの手法で修正が難しいエラーや異常を含む。
論文 参考訳(メタデータ) (2025-02-24T02:57:21Z) - Multimodal Inconsistency Reasoning (MMIR): A New Benchmark for Multimodal Reasoning Models [26.17300490736624]
MLLM(Multimodal Large Language Models)は、一貫した視覚・テキスト入力で主に訓練され、テストされる。
本稿では,MLLMの意味的ミスマッチの検出と推論能力を評価するためのマルチモーダル不整合推論ベンチマークを提案する。
我々は6つの最先端MLLMを評価し、o1のような専用マルチモーダル推論能力を持つモデルは、その性能を大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2025-02-22T01:52:37Z) - Large Language Models are Few-shot Multivariate Time Series Classifiers [23.045734479292356]
大規模言語モデル (LLM) は時系列解析に広く応用されている。
しかし、数発の分類(すなわち重要な訓練シナリオ)におけるそれらの実用性は過小評価されている。
データ不足を克服するために,LLMの学習済み知識を幅広く活用することを目的としている。
論文 参考訳(メタデータ) (2025-01-30T03:59:59Z) - Exploring Large Language Models for Multimodal Sentiment Analysis: Challenges, Benchmarks, and Future Directions [0.0]
マルチモーダル・アスペクトベース感性分析(MABSA)は、テキストや画像を含む多モーダル情報からアスペクト項とその対応する感情極性を抽出することを目的としている。
従来の教師付き学習手法はこの課題において有効性を示したが、大規模言語モデル(LLM)のMABSAへの適応性は未だ不明である。
Llama2、LLaVA、ChatGPTなどのLLMの最近の進歩は、一般的なタスクにおいて強力な能力を示しているが、MABSAのような複雑できめ細かなシナリオでは、その性能が過小評価されている。
論文 参考訳(メタデータ) (2024-11-23T02:17:10Z) - FedMLLM: Federated Fine-tuning MLLM on Multimodal Heterogeneity Data [64.50893177169996]
フェデレートラーニング(FL)による微調整型マルチモーダル大言語モデル(MLLM)は、プライベートデータソースを含めることで、トレーニングデータの範囲を拡大することができる。
マルチモーダルなヘテロジニアスシナリオにおけるMLLMのファインチューニングにおける様々なダウンストリームタスクを評価するためのベンチマークを提案する。
我々は,2つのモダリティに依存しない戦略とともに,4つの代表的FL手法を統合する汎用FedMLLMフレームワークを開発した。
論文 参考訳(メタデータ) (2024-11-22T04:09:23Z) - LLaVA-KD: A Framework of Distilling Multimodal Large Language Models [70.19607283302712]
本稿では,l-MLLMからs-MLLMへ知識を伝達する新しいフレームワークを提案する。
具体的には,l-MLLMとs-MLLMの視覚的テキスト出力分布のばらつきを最小限に抑えるために,MDist(Multimodal Distillation)を導入する。
また,S-MLLMの可能性を完全に活用するための3段階学習手法を提案する。
論文 参考訳(メタデータ) (2024-10-21T17:41:28Z) - Beyond Binary: Towards Fine-Grained LLM-Generated Text Detection via Role Recognition and Involvement Measurement [51.601916604301685]
大規模言語モデル(LLM)は、オンライン談話における信頼を損なう可能性のあるコンテンツを生成する。
現在の手法はバイナリ分類に重点を置いており、人間とAIのコラボレーションのような現実のシナリオの複雑さに対処できないことが多い。
バイナリ分類を超えてこれらの課題に対処するために,LLM生成コンテンツを検出するための新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2024-10-18T08:14:10Z) - Understanding the Role of LLMs in Multimodal Evaluation Benchmarks [77.59035801244278]
本稿では,MLLM評価におけるLarge Language Model (LLM)バックボーンの役割について検討する。
本研究は4つのMLLMベンチマークと8つの最先端MLLMベンチマークを含む。
鍵となる発見は、いくつかのベンチマークでは視覚的な入力がなくても高いパフォーマンスを実現しており、最大50%のエラーレートは、LLMバックボーンにおける不十分な世界的知識に起因していることを示している。
論文 参考訳(メタデータ) (2024-10-16T07:49:13Z) - MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - Towards Data Contamination Detection for Modern Large Language Models: Limitations, Inconsistencies, and Oracle Challenges [3.0455427910850785]
我々は,8つの挑戦的データセットにまたがる4つの最先端LCMを用いた5つの汚染検出手法を評価する。
解析の結果,現在の手法は仮定や応用に非自明な制約があることが明らかとなった。
論文 参考訳(メタデータ) (2024-09-16T02:04:33Z) - CoMMIT: Coordinated Instruction Tuning for Multimodal Large Language Models [68.64605538559312]
本稿では,MLLM命令のチューニングを理論的・経験的両面から解析する。
そこで本研究では,学習バランスを定量的に評価する尺度を提案する。
さらに,MLLMの生成分布の更新を促進する補助的損失正規化手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T23:18:55Z) - LMMs-Eval: Reality Check on the Evaluation of Large Multimodal Models [71.8065384742686]
LMMS-EVALは50以上のタスクと10以上のモデルを持つ統一的で標準化されたマルチモーダルベンチマークフレームワークである。
LMMS-EVAL LITEは、カバー範囲と効率の両方を重視したプルーニング評価ツールキットである。
マルチモーダルなLIVEBENCHは、ニュースやオンラインフォーラムを継続的に更新し、野生におけるモデルの一般化能力を評価する。
論文 参考訳(メタデータ) (2024-07-17T17:51:53Z) - The Synergy between Data and Multi-Modal Large Language Models: A Survey from Co-Development Perspective [53.48484062444108]
モデルとデータの開発は2つの別々のパスではなく、むしろ相互接続であることがわかった。
一方,MLLMはデータ開発に役立てることができるため,MLLMの性能向上に寄与する。
MLLMコミュニティにおけるデータモデル共同開発を促進するために,データモデル共同開発の観点からMLLMに関連する既存の研究を体系的にレビューする。
論文 参考訳(メタデータ) (2024-07-11T15:08:11Z) - A Comprehensive Survey of Contamination Detection Methods in Large Language Models [68.10605098856087]
近年のLarge Language Models(LLM)の台頭に伴い、多くの新しい機会が生まれつつありますが、新たな課題もあります。
LLMの性能は、データへの以前の露出のために、少なくとも部分的には高性能である可能性があるため、もはや信頼性が低い可能性がある。
この制限は、NLPの分野での実際の能力向上を阻害するが、汚染を効率的に検出する方法が不足している。
論文 参考訳(メタデータ) (2024-03-31T14:32:02Z) - KIEval: A Knowledge-grounded Interactive Evaluation Framework for Large Language Models [53.84677081899392]
KIEvalは、大規模言語モデルのための知識ベースでインタラクティブな評価フレームワークである。
動的汚染耐性評価を達成するために、LSMを動力とする"インターアクター"の役割を初めて取り入れている。
5つのデータセットにわたる7つのLLMの大規模な実験により、KIEvalの有効性と一般化が検証された。
論文 参考訳(メタデータ) (2024-02-23T01:30:39Z) - GenCeption: Evaluate Multimodal LLMs with Unlabeled Unimodal Data [3.08543976986593]
MLLM(Multimodal Large Language Models)は通常、高価な注釈付きマルチモーダルベンチマークを用いて評価される。
本稿では,新しいアノテーションのない評価手法であるGenCeptionの概要と検証を行う。
モダリティ間のセマンティック・コヒーレンスを測定するために一元データのみを必要とし、逆にMLLMの幻覚傾向を評価する。
論文 参考訳(メタデータ) (2024-02-22T21:22:04Z) - OPDAI at SemEval-2024 Task 6: Small LLMs can Accelerate Hallucination
Detection with Weakly Supervised Data [1.3981625092173873]
本稿では,LLMの幻覚検出システムについて述べる。
SemEval-2024 Task 6のモデル非依存トラックで2位を獲得した。
論文 参考訳(メタデータ) (2024-02-20T11:01:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。