論文の概要: RealBench: A Chinese Multi-image Understanding Benchmark Close to Real-world Scenarios
- arxiv url: http://arxiv.org/abs/2509.17421v1
- Date: Mon, 22 Sep 2025 07:14:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.258889
- Title: RealBench: A Chinese Multi-image Understanding Benchmark Close to Real-world Scenarios
- Title(参考訳): RealBench: 実世界のシナリオに近づいた中国のマルチイメージ理解
- Authors: Fei Zhao, Chengqiang Lu, Yufan Shen, Qimeng Wang, Yicheng Qian, Haoxin Zhang, Yan Gao, Yi Wu, Yao Hu, Zhen Wu, Shangyu Xing, Xinyu Dai,
- Abstract要約: 中国初のマルチモーダルマルチイメージデータセットであるRealBenchを紹介する。
RealBenchは、実際のユーザ生成コンテンツを組み込むことで、自分自身を差別化している。
データセットは、さまざまなシーン、画像解像度、画像構造をカバーしている。
- 参考スコア(独自算出の注目度): 33.441638280326465
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: While various multimodal multi-image evaluation datasets have been emerged, but these datasets are primarily based on English, and there has yet to be a Chinese multi-image dataset. To fill this gap, we introduce RealBench, the first Chinese multimodal multi-image dataset, which contains 9393 samples and 69910 images. RealBench distinguishes itself by incorporating real user-generated content, ensuring high relevance to real-world applications. Additionally, the dataset covers a wide variety of scenes, image resolutions, and image structures, further increasing the difficulty of multi-image understanding. Ultimately, we conduct a comprehensive evaluation of RealBench using 21 multimodal LLMs of different sizes, including closed-source models that support multi-image inputs as well as open-source visual and video models. The experimental results indicate that even the most powerful closed-source models still face challenges when handling multi-image Chinese scenarios. Moreover, there remains a noticeable performance gap of around 71.8\% on average between open-source visual/video models and closed-source models. These results show that RealBench provides an important research foundation for further exploring multi-image understanding capabilities in the Chinese context.
- Abstract(参考訳): 様々なマルチモーダルマルチイメージ評価データセットが登場したが、これらのデータセットは主に英語に基づいており、中国のマルチモーダルデータセットはまだ存在していない。
このギャップを埋めるために、9393サンプルと69910イメージを含む中国初のマルチモーダルマルチイメージデータセットであるRealBenchを紹介します。
RealBenchは、実際のユーザ生成コンテンツを取り入れ、現実世界のアプリケーションに高い関連性を持たせることで、自分自身を差別化している。
さらに、データセットは様々なシーン、画像解像度、画像構造をカバーし、マルチイメージ理解の難しさをさらに高めている。
最終的に、我々は、マルチイメージ入力をサポートするクローズドソースモデルや、オープンソースのビジュアルおよびビデオモデルを含む、21種類のマルチモーダルLCMを用いて、RealBenchの包括的な評価を行う。
実験結果から、最も強力なクローズドソースモデルでさえも、マルチイメージの中国のシナリオを扱う際の課題に直面していることが示唆された。
さらに、オープンソースヴィジュアル/ビデオモデルとクローズドソースモデルの間には、平均して約71.8\%のパフォーマンスギャップがある。
これらの結果は、RealBenchが中国語の文脈におけるマルチイメージ理解能力のさらなる探求に重要な研究基盤を提供することを示している。
関連論文リスト
- Migician: Revealing the Magic of Free-Form Multi-Image Grounding in Multimodal Large Language Models [79.59567114769513]
複数の画像に対して自由かつ正確なグラウンド化を行うことができる最初のマルチイメージグラウンドモデルであるMigicianを紹介する。
我々のモデルは、より優れたマルチイメージグラウンド機能を実現し、最高のMLLMを24.94%上回り、さらに大きな70Bモデルを超えた。
論文 参考訳(メタデータ) (2025-01-10T07:56:23Z) - MuirBench: A Comprehensive Benchmark for Robust Multi-image Understanding [150.28164854480912]
マルチモーダルLLMの堅牢なマルチイメージ理解機能に着目したベンチマークであるMuirBenchを紹介する。
MuirBenchは、12の多様なマルチイメージタスク(例えば、シーン理解、順序付け)で構成されており、10のカテゴリのマルチイメージ関係を含んでいる。
GPT-4oやGemini Proのような最高のパフォーマンスモデルでさえ、ムアベンチを解くことは困難であり、精度は68.0%、49.3%である。
論文 参考訳(メタデータ) (2024-06-13T17:59:52Z) - Real-MFF: A Large Realistic Multi-focus Image Dataset with Ground Truth [58.226535803985804]
我々はReal-MFFと呼ばれる大規模で現実的なマルチフォーカスデータセットを導入する。
データセットは、710対のソースイメージと対応する接地真理画像を含む。
このデータセット上で10の典型的なマルチフォーカスアルゴリズムを図示のために評価する。
論文 参考訳(メタデータ) (2020-03-28T12:33:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。