論文の概要: WorldSense: Evaluating Real-world Omnimodal Understanding for Multimodal LLMs
- arxiv url: http://arxiv.org/abs/2502.04326v1
- Date: Thu, 06 Feb 2025 18:59:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-07 14:33:53.761176
- Title: WorldSense: Evaluating Real-world Omnimodal Understanding for Multimodal LLMs
- Title(参考訳): WorldSense:マルチモーダルLLMにおける実世界のOmnimodal Understandingの評価
- Authors: Jack Hong, Shilin Yan, Jiayin Cai, Xiaolong Jiang, Yao Hu, Weidi Xie,
- Abstract要約: マルチモーダルビデオ理解を評価する最初のベンチマークであるWorldSenseを紹介する。
音声とビデオの強い結合を特徴とする評価タスクを設計する。
WorldSenseは1,662本のオーディオ視覚同期ビデオの多様なコレクションを含んでいる。
- 参考スコア(独自算出の注目度): 44.28540993567552
- License:
- Abstract: In this paper, we introduce WorldSense, the first benchmark to assess the multi-modal video understanding, that simultaneously encompasses visual, audio, and text inputs. In contrast to existing benchmarks, our WorldSense has several features: (i) collaboration of omni-modality, we design the evaluation tasks to feature a strong coupling of audio and video, requiring models to effectively utilize the synergistic perception of omni-modality; (ii) diversity of videos and tasks, WorldSense encompasses a diverse collection of 1,662 audio-visual synchronised videos, systematically categorized into 8 primary domains and 67 fine-grained subcategories to cover the broad scenarios, and 3,172 multi-choice QA pairs across 26 distinct tasks to enable the comprehensive evaluation; (iii) high-quality annotations, all the QA pairs are manually labeled by 80 expert annotators with multiple rounds of correction to ensure quality. Based on our WorldSense, we extensively evaluate various state-of-the-art models. The experimental results indicate that existing models face significant challenges in understanding real-world scenarios (48.0% best accuracy). We hope our WorldSense can provide a platform for evaluating the ability in constructing and understanding coherent contexts from omni-modality.
- Abstract(参考訳): 本稿では、視覚、音声、テキスト入力を同時に含むマルチモーダルビデオ理解を評価するための最初のベンチマークであるWorldSenseを紹介する。
既存のベンチマークとは対照的に、WorldSenseにはいくつかの機能があります。
(i)オムニモダリティの協調により、オムニモダリティの相乗的知覚を効果的に活用するモデルを必要とする、音声と映像の強い結合を特徴とする評価タスクを設計する。
(II)ビデオとタスクの多様性は,ワイドシナリオをカバーするため,体系的に8つのプライマリドメインと67の細粒度サブカテゴリに分類された1,662のオーディオ視覚同期ビデオと,26の異なるタスクにまたがる3,172のマルチチョイスQAペアを包含し,包括的な評価を可能にする。
3)高品質なアノテーションは、品質を保証するために、80のエキスパートアノテータによって、すべてのQAペアに手動でラベル付けされる。
We based on our WorldSense, we evaluate various-of-the-art model。
実験の結果、既存のモデルは現実世界のシナリオを理解する上で重大な課題に直面している(48.0%の精度)。
当社のWorldSenseは,コヒーレントなコンテキストをオールニモダリティから構築し,理解する能力を評価するためのプラットフォームを提供してくれることを願っています。
関連論文リスト
- MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - E.T. Bench: Towards Open-Ended Event-Level Video-Language Understanding [57.630136434038384]
E.T. Bench (Event-Level & Time-Sensitive Video Understanding Benchmark)は、イベントレベルのオープンな理解のための大規模ベンチマークである。
ベンチマークでは,8つの画像-LLMと12個のビデオ-LLMを広範囲に評価し,その結果から,粗い(ビデオレベル)理解のための最先端モデルが,きめ細かなタスクの解決に苦慮していることが判明した。
私たちのシンプルだが効果的なソリューションは、複数のシナリオで優れたパフォーマンスを示します。
論文 参考訳(メタデータ) (2024-09-26T17:53:04Z) - OmniBench: Towards The Future of Universal Omni-Language Models [63.16606414452612]
OmniBenchは、視覚的、音響的、テキスト的入力を同時に認識し、解釈し、推論するモデルの能力を厳格に評価するために設計された新しいベンチマークである。
本研究の主目的は,ほとんどのOLMが3モーダル文脈における指示追従能力と推論能力に限界があることである。
このギャップに対処するため、84.5KのトレーニングサンプルであるOmniInstructの命令チューニングデータセットをキュレートし、OLMをマルチモーダルなコンテキストに適応させる。
論文 参考訳(メタデータ) (2024-09-23T17:59:05Z) - AlignMMBench: Evaluating Chinese Multimodal Alignment in Large Vision-Language Models [34.843603169616486]
新興中国ビジョンランゲージモデル(VLM)の総合的アライメントベンチマークであるAlignMMBenchを紹介する。
このベンチマークは、現実世界のシナリオと中国のインターネットソースから慎重にキュレートされ、3つのカテゴリにまたがる13の特定のタスクを含み、シングルターンとマルチターンの対話シナリオを含んでいる。
評価パイプラインを容易にするために,GPT-4の評価能力を超えるルール校正評価器であるCristiqueVLMを提案する。
論文 参考訳(メタデータ) (2024-06-13T16:30:14Z) - WorldQA: Multimodal World Knowledge in Videos through Long-Chain Reasoning [49.72868038180909]
マルチモーダル世界モデルの境界を押し上げるために設計されたビデオデータセットであるWorldQAを紹介する。
質問の定式化に不可欠な5つの世界知識を同定する。
我々は、専門家の知識をコヒーレントな推論チェーンに合成するためのエージェントであるWorldRetrieverを紹介する。
論文 参考訳(メタデータ) (2024-05-06T08:42:34Z) - MVBench: A Comprehensive Multi-modal Video Understanding Benchmark [63.14000659130736]
本稿では、MVBenchという総合的なマルチモーダルビデオ理解ベンチマークを紹介する。
まず、これらの時間的タスクを定義するための新しい静的-動的手法を提案する。
そして,タスク定義に従って,公開ビデオアノテーションを複数選択QAに自動的に変換し,各タスクを評価する。
論文 参考訳(メタデータ) (2023-11-28T17:59:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。