論文の概要: OmniEval: A Benchmark for Evaluating Omni-modal Models with Visual, Auditory, and Textual Inputs
- arxiv url: http://arxiv.org/abs/2506.20960v2
- Date: Sun, 29 Jun 2025 15:16:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 13:01:42.731489
- Title: OmniEval: A Benchmark for Evaluating Omni-modal Models with Visual, Auditory, and Textual Inputs
- Title(参考訳): OmniEval: 視覚、聴覚、テキスト入力によるOmni-modalモデルの評価ベンチマーク
- Authors: Yiman Zhang, Ziheng Luo, Qiangyu Yan, Wei He, Borui Jiang, Xinghao Chen, Kai Han,
- Abstract要約: オムニエバル(OmniEval)は、オムニモダリティモデルを評価するためのベンチマークである。
音声と映像の強い結合を強調する評価タスクを設計する。
いくつかのOmni-modalityモデルを用いてOmniEvalの実験を行う。
- 参考スコア(独自算出の注目度): 19.214764707089884
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we introduce OmniEval, a benchmark for evaluating omni-modality models like MiniCPM-O 2.6, which encompasses visual, auditory, and textual inputs. Compared with existing benchmarks, our OmniEval has several distinctive features: (i) Full-modal collaboration: We design evaluation tasks that highlight the strong coupling between audio and video, requiring models to effectively leverage the collaborative perception of all modalities; (ii) Diversity of videos: OmniEval includes 810 audio-visual synchronized videos, 285 Chinese videos and 525 English videos; (iii) Diversity and granularity of tasks: OmniEval contains 2617 question-answer pairs, comprising 1412 open-ended questions and 1205 multiple-choice questions. These questions are divided into 3 major task types and 12 sub-task types to achieve comprehensive evaluation. Among them, we introduce a more granular video localization task named Grounding. Then we conduct experiments on OmniEval with several omni-modality models. We hope that our OmniEval can provide a platform for evaluating the ability to construct and understand coherence from the context of all modalities. Codes and data could be found at https://omnieval-benchmark.github.io/.
- Abstract(参考訳): 本稿では,視覚,聴覚,テキスト入力を含むMiniCPM-O 2.6のようなモダリティモデルを評価するベンチマークであるOmniEvalを紹介する。
既存のベンチマークと比較すると、OmniEvalにはいくつかの特徴があります。
(i)フルモーダルコラボレーション:全てのモダリティの協調的認識を効果的に活用するためのモデルを必要とする、音声とビデオの強い結合を強調する評価タスクを設計する。
(ii)動画の多様性:OmniEvalには810の音声視覚同期ビデオ、285の中国語ビデオ、525の英語ビデオが含まれている。
(3)タスクの多様性と粒度:OmniEvalは2617の質問回答ペアを含み、1412のオープンエンド質問と1205のマルチチョイス質問で構成されている。
これらの質問は、総合的な評価を達成するために、3つの主要なタスクタイプと12のサブタスクタイプに分けられる。
その中で,より粒度の細かいビデオローカライゼーションタスクであるGroundingを紹介した。
すると、OmniEval 上で、いくつかのOmni-modality モデルで実験を行う。
当社のOmniEvalが,すべてのモダリティのコンテキストからコヒーレンスを構築し,理解する能力を評価するためのプラットフォームを提供することを期待しています。
コードとデータはhttps://omnieval-benchmark.github.io/で確認できる。
関連論文リスト
- MAGMaR Shared Task System Description: Video Retrieval with OmniEmbed [55.526939500742]
我々はTevatron 2.0ツールキットの強力なマルチモーダル埋め込みモデルであるOmniEmbedを使用して、テキスト、画像、オーディオ、ビデオの統一埋め込みを生成する。
2025年5月20日時点の公募では、MAGMaRのタスクリーダーボードの最高スコアを達成しました。
論文 参考訳(メタデータ) (2025-06-11T05:40:26Z) - OmniMMI: A Comprehensive Multi-modal Interaction Benchmark in Streaming Video Contexts [46.77966058862399]
我々は,OmniLLMs用に最適化された総合マルチモーダルインタラクションベンチマークであるOmniMMIを紹介する。
本稿では,マルチモーダル・マルチプレクサリング・モデリング(M4)を提案する。
論文 参考訳(メタデータ) (2025-03-29T02:46:58Z) - WorldSense: Evaluating Real-world Omnimodal Understanding for Multimodal LLMs [44.28540993567552]
マルチモーダルビデオ理解を評価する最初のベンチマークであるWorldSenseを紹介する。
音声とビデオの強い結合を特徴とする評価タスクを設計する。
WorldSenseは1,662本のオーディオ視覚同期ビデオの多様なコレクションを含んでいる。
論文 参考訳(メタデータ) (2025-02-06T18:59:40Z) - OmnixR: Evaluating Omni-modality Language Models on Reasoning across Modalities [124.05360767047539]
我々は、SoTA Omni-modality Language Modelsをベンチマークするために設計された評価スイートであるOmnixRを紹介する。
OLMはテキスト、ビジョン、オーディオなどの複数のモードを統合し、ユニークな課題を提示する。
実験の結果,OmnixR問題に対処するためには,複数のモダリティからの情報を統合する必要があることがわかった。
論文 参考訳(メタデータ) (2024-10-16T04:29:46Z) - OmniBench: Towards The Future of Universal Omni-Language Models [63.16606414452612]
OmniBenchは、視覚的、音響的、テキスト的入力を同時に認識し、解釈し、推論する能力を評価するために設計された新しいベンチマークである。
評価の結果,オープンソース OLM は三モーダル文脈における命令追従や推論に重大な制限があることが明らかとなった。
我々は,OLM性能を向上させるため,より堅牢な3モーダル統合技術とトレーニング戦略の開発を提唱する。
論文 参考訳(メタデータ) (2024-09-23T17:59:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。