Fugu-MT 論文翻訳(概要): Benchmarking Large Multimodal Models against Common Corruptions

論文の概要: Benchmarking Large Multimodal Models against Common Corruptions

arxiv url: http://arxiv.org/abs/2401.11943v1
Date: Mon, 22 Jan 2024 13:33:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-23 14:13:01.532603
Title: Benchmarking Large Multimodal Models against Common Corruptions
Title（参考訳）: 大規模マルチモーダルモデルの共通破壊に対するベンチマーク
Authors: Jiawei Zhang, Tianyu Pang, Chao Du, Yi Ren, Bo Li, Min Lin
Abstract要約: 大規模マルチモーダルモデル(LMM)の評価における欠陥を補うことを目的とした技術報告テキスト,画像,音声間の相互モーダルな相互作用について検討し,本質的な4つのタスクを包含する。 MMCBenchという名前のベンチマークを作成し、100以上のLMMをカバーしています。
参考スコア（独自算出の注目度）: 45.26424202601339
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This technical report aims to fill a deficiency in the assessment of large multimodal models (LMMs) by specifically examining the self-consistency of their outputs when subjected to common corruptions. We investigate the cross-modal interactions between text, image, and speech, encompassing four essential generation tasks: text-to-image, image-to-text, text-to-speech, and speech-to-text. We create a comprehensive benchmark, named MMCBench, that covers more than 100 popular LMMs (totally over 150 model checkpoints). A thorough evaluation under common corruptions is critical for practical deployment and facilitates a better understanding of the reliability of cutting-edge LMMs. The benchmarking code is available at https://github.com/sail-sg/MMCBench
Abstract（参考訳）: 本技術報告は, 大規模マルチモーダルモデル (LMM) の評価において, 共通の汚職を受けた場合のアウトプットの自己整合性を明らかにすることで, 不足を埋めることを目的としている。本研究では,テキスト間,画像間,画像間,テキスト間,音声間,音声間という4つの重要なタスクを包含するクロスモーダルインタラクションについて検討した。私たちはMMCBenchという名の総合的なベンチマークを作成し、100以上の人気のあるLMM(現在150以上のモデルチェックポイント)をカバーしています。共通の腐敗の下での徹底的な評価は実用的な展開には不可欠であり、最先端のlmmの信頼性をよりよく理解するのに役立つ。ベンチマークコードはhttps://github.com/sail-sg/mmcbenchで入手できる。

関連論文リスト

Benchmarking Multi-modal Semantic Segmentation under Sensor Failures: Missing and Noisy Modality Robustness [61.87055159919641]
マルチモーダルセマンティックセグメンテーション(MMSS)は、モーダル間で補完情報を統合することで、単一モーダルデータの制限に対処する。顕著な進歩にもかかわらず、マルチモーダルデータ品質の変動と不確実性により、研究と実世界の展開の間に大きなギャップが持続する。 Intire-Missing Modality (EMM)、Random-Missing Modality (RMM)、Noisy Modality (NM)の3つのシナリオでMMSSモデルを評価する頑健性ベンチマークを導入する。
論文参考訳（メタデータ） (2025-03-24T08:46:52Z)
OCRBench v2: An Improved Benchmark for Evaluating Large Multimodal Models on Visual Text Localization and Reasoning [72.57452266982642]
テキスト認識のための大規模バイリンガルテキスト中心ベンチマークであるOCRBench v2を紹介する。その結果,22 LMM中20 LMMは50点未満(合計100点)で,5種類の制限があることがわかった。
論文参考訳（メタデータ） (2024-12-31T07:32:35Z)
CAMEL-Bench: A Comprehensive Arabic LMM Benchmark [10.20074702234283]
我々は,4億人以上の話者を対象とするアラビア語の総合的LMM評価ベンチマークを開発した。提案するベンチマークは,マルチイメージ理解,複雑な視覚知覚,手書き文書理解,ビデオ理解,医用画像,植物病,リモートセンシングによる土地利用理解を含む8つのサブドメインと38のサブドメインから構成される。
論文参考訳（メタデータ） (2024-10-24T17:59:38Z)
MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。 MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文参考訳（メタデータ） (2024-10-14T04:15:00Z)
R-Bench: Are your Large Multimodal Model Robust to Real-world Corruptions? [86.94616033250068]
R-Benchは、LMMs*の**実世界のロバストネスに焦点を当てたベンチマークである。 LMMは元の参照画像を正しく扱えるが、歪んだ画像に直面すると、その性能は安定しない。我々は、R-BenchがLMMの堅牢性を改善し、*実験シミュレーションから*実世界のアプリケーションへ拡張することを願っている。
論文参考訳（メタデータ） (2024-10-07T20:12:08Z)
MMR: Evaluating Reading Ability of Large Multimodal Models [52.953316772123586]
大規模マルチモーダルモデル (LMM) は、テキストリッチな画像を含む様々な種類の画像を理解する能力を示す。現在のベンチマークでは、異なるモデルのパフォーマンスを正確に反映することができない。テキストリッチ画像理解のためのLMMを評価するために,11種類のタスクでMulti-Modal Reading (MMR)ベンチマークを提案する。
論文参考訳（メタデータ） (2024-08-26T19:26:50Z)
mGTE: Generalized Long-Context Text Representation and Reranking Models for Multilingual Text Retrieval [67.50604814528553]
まず、RoPEとアンパディングで強化されたテキストエンコーダを導入し、ネイティブの8192-tokenコンテキストで事前トレーニングを行った。そして、コントラスト学習によりハイブリッドTRMとクロスエンコーダ・リランカを構築する。
論文参考訳（メタデータ） (2024-07-29T03:12:28Z)
LMMs-Eval: Reality Check on the Evaluation of Large Multimodal Models [71.8065384742686]
LMMS-EVALは50以上のタスクと10以上のモデルを持つ統一的で標準化されたマルチモーダルベンチマークフレームワークである。 LMMS-EVAL LITEは、カバー範囲と効率の両方を重視したプルーニング評価ツールキットである。マルチモーダルなLIVEBENCHは、ニュースやオンラインフォーラムを継続的に更新し、野生におけるモデルの一般化能力を評価する。
論文参考訳（メタデータ） (2024-07-17T17:51:53Z)
Compositional Chain-of-Thought Prompting for Large Multimodal Models [46.721769077885966]
CCoT(コンポジション・チェーン・オブ・ソート)は、新規なゼロショット・オブ・ソート・プロンプト法である。まず,Large Language Model(LLM)を用いてSGを生成し,そのSGをプロンプトに使用して応答を生成する。提案手法は,LMMの性能向上だけでなく,一般的なマルチモーダルベンチマーク上でのLMMの性能向上にも寄与する。
論文参考訳（メタデータ） (2023-11-27T22:23:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。