論文の概要: Dynamic Multimodal Evaluation with Flexible Complexity by Vision-Language Bootstrapping
- arxiv url: http://arxiv.org/abs/2410.08695v2
- Date: Tue, 5 Nov 2024 03:56:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 15:11:34.557381
- Title: Dynamic Multimodal Evaluation with Flexible Complexity by Vision-Language Bootstrapping
- Title(参考訳): ビジョンランゲージブートストラップによるフレキシブル複雑度を考慮した動的マルチモーダル評価
- Authors: Yue Yang, Shuibai Zhang, Wenqi Shao, Kaipeng Zhang, Yi Bin, Yu Wang, Ping Luo,
- Abstract要約: LVLM(Large Vision-Language Models)は、マルチモーダルタスクにまたがる顕著な機能を示す。
VLB(Vision-Language Bootstrapping)と呼ばれる動的マルチモーダル評価プロトコルを導入する。
VLBは、データ汚染の低減と柔軟性のある複雑さを伴うLVLMの堅牢で包括的な評価を提供する。
- 参考スコア(独自算出の注目度): 45.584695790489484
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Vision-Language Models (LVLMs) have demonstrated remarkable capabilities across multimodal tasks such as visual perception and reasoning, leading to good performance on various multimodal evaluation benchmarks. However, these benchmarks keep a static nature and overlap with the pre-training data, resulting in fixed complexity constraints and data contamination issues. This raises the concern regarding the validity of the evaluation. To address these two challenges, we introduce a dynamic multimodal evaluation protocol called Vision-Language Bootstrapping (VLB). VLB provides a robust and comprehensive assessment for LVLMs with reduced data contamination and flexible complexity. To this end, VLB dynamically generates new visual question-answering samples through a multimodal bootstrapping module that modifies both images and language, while ensuring that newly generated samples remain consistent with the original ones by a judge module. By composing various bootstrapping strategies, VLB offers dynamic variants of existing benchmarks with diverse complexities, enabling the evaluation to co-evolve with the ever-evolving capabilities of LVLMs. Extensive experimental results across multiple benchmarks, including SEEDBench, MMBench, and MME, show that VLB significantly reduces data contamination and exposes performance limitations of LVLMs.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は、視覚知覚や推論といったマルチモーダルなタスクにまたがる顕著な能力を示し、様々なマルチモーダルな評価ベンチマークで優れたパフォーマンスを実現している。
しかし、これらのベンチマークは静的な性質を保持し、トレーニング済みのデータと重なり合うため、固定された複雑さの制約とデータ汚染の問題が発生する。
これにより、評価の妥当性に関する懸念が高まる。
これら2つの課題に対処するために,ビジョンランゲージブートストラッピング (VLB) と呼ばれる動的マルチモーダル評価プロトコルを導入する。
VLBは、データ汚染の低減と柔軟性のある複雑さを伴うLVLMの堅牢で包括的な評価を提供する。
この目的のために、VLBは、画像と言語の両方を変更するマルチモーダルブートストラッピングモジュールを通じて、新しい視覚的質問応答サンプルを動的に生成する。
様々なブートストラップ戦略を構成することで、VLBは様々な複雑さを持つ既存のベンチマークの動的変種を提供し、LVLMの進化する能力と共同で評価することができる。
SEEDBench, MMBench, MMEを含む複数のベンチマークにおいて, VLBはデータ汚染を著しく低減し, LVLMの性能限界を明らかにする。
関連論文リスト
- AutoBench-V: Can Large Vision-Language Models Benchmark Themselves? [55.14033256706175]
視覚・言語情報の統合を促進するためには,LVLM(Large Vision-Language Models)が不可欠である。
本稿では,需要評価のための自動フレームワークであるAutoBench-Vを紹介する。
5つの要求されたユーザ入力にまたがる7つのLVLMの広範な評価を通じて、このフレームワークの有効性と信頼性を示す。
論文 参考訳(メタデータ) (2024-10-28T17:55:08Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - Mono-InternVL: Pushing the Boundaries of Monolithic Multimodal Large Language Models with Endogenous Visual Pre-training [48.455597568212944]
マルチモーダル・ミックス・オブ・エキスパート構造を用いて視覚専門家の集合をシームレスに統合するモノリシックMLLMであるMono-InternVLを提案する。
特に、EViPは、ノイズの多いデータから高品質なデータへの視覚的知識を完全に活用することを目的とした、視覚専門家のための進歩的な学習プロセスとして設計されている。
論文 参考訳(メタデータ) (2024-10-10T17:59:22Z) - Towards Robust Multimodal Sentiment Analysis with Incomplete Data [20.75292807497547]
頑健なマルチモーダル感性分析(MSA)を実現するための言語支配型耐雑音学習ネットワーク(LNLN)を提案する。
LNLNは、支配的モダリティ補正(DMC)モジュールと支配的モダリティベースマルチモーダル学習(DMML)モジュールを備え、様々なノイズシナリオにおけるモデルの堅牢性を高める。
論文 参考訳(メタデータ) (2024-09-30T07:14:31Z) - Multiview learning with twin parametric margin SVM [0.0]
マルチビュー学習(MVL)は、相互補完するために多様な視点の利点を活用する。
マルチビュー・ツインパラメトリック・マージン支援ベクトルマシン(MvTPMSVM)を提案する。
MvTPMSVMは、両クラスに対応するパラメトリック・マージン・ハイパープレーンを構築し、異方性雑音構造の影響を規制し、管理することを目的としている。
論文 参考訳(メタデータ) (2024-08-04T10:16:11Z) - Benchmark Self-Evolving: A Multi-Agent Framework for Dynamic LLM
Evaluation [51.99752147380505]
本稿では,大規模言語モデル(LLM)を動的に評価するベンチマーク自己進化フレームワークを提案する。
マルチエージェントシステムを用いて、元のインスタンスのコンテキストや質問を操作し、信頼性の高い新しいインスタンスをフレーミングする。
我々のフレームワークは、異なるモデル間の性能の相違を拡大し、様々なタスクで同じモデル内で性能の相違を拡大します。
論文 参考訳(メタデータ) (2024-02-18T03:40:06Z) - On the Performance of Multimodal Language Models [4.677125897916577]
本研究は、異なるマルチモーダル命令チューニングアプローチの比較分析を行う。
大規模言語モデルにマルチモーダル機能を組み込む際に,アーキテクチャ選択を導く上で重要な洞察を明らかにする。
論文 参考訳(メタデータ) (2023-10-04T23:33:36Z) - ReForm-Eval: Evaluating Large Vision Language Models via Unified
Re-Formulation of Task-Oriented Benchmarks [76.25209974199274]
大規模視覚言語モデル(LVLM)は、視覚信号を知覚し、視覚的根拠を持つ推論を行う驚くべき能力を示す。
当社のベンチマークおよび評価フレームワークは,LVLMの開発を進めるための基盤としてオープンソース化される予定である。
論文 参考訳(メタデータ) (2023-10-04T04:07:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。