論文の概要: Benchmarking Large Multimodal Models against Common Corruptions
- arxiv url: http://arxiv.org/abs/2401.11943v1
- Date: Mon, 22 Jan 2024 13:33:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 14:13:01.532603
- Title: Benchmarking Large Multimodal Models against Common Corruptions
- Title(参考訳): 大規模マルチモーダルモデルの共通破壊に対するベンチマーク
- Authors: Jiawei Zhang, Tianyu Pang, Chao Du, Yi Ren, Bo Li, Min Lin
- Abstract要約: 大規模マルチモーダルモデル(LMM)の評価における欠陥を補うことを目的とした技術報告
テキスト,画像,音声間の相互モーダルな相互作用について検討し,本質的な4つのタスクを包含する。
MMCBenchという名前のベンチマークを作成し、100以上のLMMをカバーしています。
- 参考スコア(独自算出の注目度): 45.26424202601339
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This technical report aims to fill a deficiency in the assessment of large
multimodal models (LMMs) by specifically examining the self-consistency of
their outputs when subjected to common corruptions. We investigate the
cross-modal interactions between text, image, and speech, encompassing four
essential generation tasks: text-to-image, image-to-text, text-to-speech, and
speech-to-text. We create a comprehensive benchmark, named MMCBench, that
covers more than 100 popular LMMs (totally over 150 model checkpoints). A
thorough evaluation under common corruptions is critical for practical
deployment and facilitates a better understanding of the reliability of
cutting-edge LMMs. The benchmarking code is available at
https://github.com/sail-sg/MMCBench
- Abstract(参考訳): 本技術報告は, 大規模マルチモーダルモデル (LMM) の評価において, 共通の汚職を受けた場合のアウトプットの自己整合性を明らかにすることで, 不足を埋めることを目的としている。
本研究では,テキスト間,画像間,画像間,テキスト間,音声間,音声間という4つの重要なタスクを包含するクロスモーダルインタラクションについて検討した。
私たちはMMCBenchという名の総合的なベンチマークを作成し、100以上の人気のあるLMM(現在150以上のモデルチェックポイント)をカバーしています。
共通の腐敗の下での徹底的な評価は実用的な展開には不可欠であり、最先端のlmmの信頼性をよりよく理解するのに役立つ。
ベンチマークコードはhttps://github.com/sail-sg/mmcbenchで入手できる。
関連論文リスト
- MATEval: A Multi-Agent Discussion Framework for Advancing Open-Ended Text Evaluation [22.19073789961769]
生成型大規模言語モデル(LLM)は注目に値するが、これらのモデルによって生成されたテキストの品質は、しばしば永続的な問題を示す。
MATEval: "Multi-Agent Text Evaluation framework"を提案する。
本フレームワークは,評価プロセスの深度と広さを高めるために,自己回帰と整合性戦略とフィードバック機構を取り入れている。
論文 参考訳(メタデータ) (2024-03-28T10:41:47Z) - DCR-Consistency: Divide-Conquer-Reasoning for Consistency Evaluation and
Improvement of Large Language Models [4.953092503184905]
この研究は、LLM(Large Language Models)生成したテキストの一貫性を評価し改善する自動化フレームワークであるDCRを提案する。
本稿では,DCEからの出力を解釈可能な数値スコアに変換する自動計量変換器(AMC)を提案する。
また,本手法は出力不整合の90%近くを著しく低減し,効果的な幻覚緩和の可能性を示唆している。
論文 参考訳(メタデータ) (2024-01-04T08:34:16Z) - Compositional Chain-of-Thought Prompting for Large Multimodal Models [46.721769077885966]
CCoT(コンポジション・チェーン・オブ・ソート)は、新規なゼロショット・オブ・ソート・プロンプト法である。
まず,Large Language Model(LLM)を用いてSGを生成し,そのSGをプロンプトに使用して応答を生成する。
提案手法は,LMMの性能向上だけでなく,一般的なマルチモーダルベンチマーク上でのLMMの性能向上にも寄与する。
論文 参考訳(メタデータ) (2023-11-27T22:23:27Z) - Fast and Accurate Factual Inconsistency Detection Over Long Documents [19.86348214462828]
我々は,新しいチャンキング戦略を用いて,現実の不整合を検出するタスク非依存モデルであるSCALEを紹介する。
このアプローチは、様々なタスクや長い入力に対して、現実の不整合検出における最先端のパフォーマンスを実現する。
コードとデータはGitHubに公開しています。
論文 参考訳(メタデータ) (2023-10-19T22:55:39Z) - MM-BigBench: Evaluating Multimodal Models on Multimodal Content
Comprehension Tasks [56.60050181186531]
MM-BigBenchを導入し、様々なモデルや命令のパフォーマンスを広範囲に評価する。
本稿では,6タスクにまたがる14のマルチモーダルデータセット上で,20の言語モデル (14 MLLM) を評価し,各タスクに10の指示を与え,新しい洞察を導き出す。
論文 参考訳(メタデータ) (2023-10-13T11:57:04Z) - MM-Vet: Evaluating Large Multimodal Models for Integrated Capabilities [159.9847317300497]
複雑なマルチモーダルタスクにおける大規模マルチモーダルモデル(LMM)を評価する評価ベンチマークであるMM-Vetを提案する。
近年のLMMは、黒板に書かれた数学の問題を解くこと、ニュース画像の出来事や有名人を推論すること、視覚的ジョークを説明することなど、様々な興味深い能力を示している。
論文 参考訳(メタデータ) (2023-08-04T17:59:47Z) - Tackling Ambiguity with Images: Improved Multimodal Machine Translation
and Contrastive Evaluation [72.6667341525552]
本稿では,ニューラルアダプターとガイド付き自己注意機構を用いた,強いテキストのみのMTモデルに基づく新しいMT手法を提案する。
また,不明瞭な文とその翻訳が可能なコントラスト型多モーダル翻訳評価セットであるCoMMuTEについても紹介する。
提案手法は, 標準英語-フランス語, 英語-ドイツ語, 英語-チェコ語のベンチマークにおいて, 強いテキストのみのモデルと比較して, 競争力のある結果が得られる。
論文 参考訳(メタデータ) (2022-12-20T10:18:18Z) - Evaluating and Improving Factuality in Multimodal Abstractive
Summarization [91.46015013816083]
そこで我々は,CLIPBERTScoreを提案する。
ゼロショットにおけるこの2つの指標の単純な組み合わせは、文書要約のための既存の事実度指標よりも高い相関性が得られることを示す。
本分析は,CLIPBERTScoreとそのコンポーネントの信頼性と高い相関性を示す。
論文 参考訳(メタデータ) (2022-11-04T16:50:40Z) - Massive Multi-Document Summarization of Product Reviews with Weak
Supervision [11.462916848094403]
製品レビュー要約は、MDS(Multi-Document Summarization)タスクの一種です。
レビューの小さなサンプルを要約すると、重要な情報が失われる可能性がある。
本稿では,標準的な要約アルゴリズムに基づいて,大量のレビューを要約するスキーマを提案する。
論文 参考訳(メタデータ) (2020-07-22T11:22:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。