論文の概要: RealBench: A Chinese Multi-image Understanding Benchmark Close to Real-world Scenarios
- arxiv url: http://arxiv.org/abs/2509.17421v1
- Date: Mon, 22 Sep 2025 07:14:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.258889
- Title: RealBench: A Chinese Multi-image Understanding Benchmark Close to Real-world Scenarios
- Title(参考訳): RealBench: 実世界のシナリオに近づいた中国のマルチイメージ理解
- Authors: Fei Zhao, Chengqiang Lu, Yufan Shen, Qimeng Wang, Yicheng Qian, Haoxin Zhang, Yan Gao, Yi Wu, Yao Hu, Zhen Wu, Shangyu Xing, Xinyu Dai,
- Abstract要約: 中国初のマルチモーダルマルチイメージデータセットであるRealBenchを紹介する。
RealBenchは、実際のユーザ生成コンテンツを組み込むことで、自分自身を差別化している。
データセットは、さまざまなシーン、画像解像度、画像構造をカバーしている。
- 参考スコア(独自算出の注目度): 33.441638280326465
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: While various multimodal multi-image evaluation datasets have been emerged, but these datasets are primarily based on English, and there has yet to be a Chinese multi-image dataset. To fill this gap, we introduce RealBench, the first Chinese multimodal multi-image dataset, which contains 9393 samples and 69910 images. RealBench distinguishes itself by incorporating real user-generated content, ensuring high relevance to real-world applications. Additionally, the dataset covers a wide variety of scenes, image resolutions, and image structures, further increasing the difficulty of multi-image understanding. Ultimately, we conduct a comprehensive evaluation of RealBench using 21 multimodal LLMs of different sizes, including closed-source models that support multi-image inputs as well as open-source visual and video models. The experimental results indicate that even the most powerful closed-source models still face challenges when handling multi-image Chinese scenarios. Moreover, there remains a noticeable performance gap of around 71.8\% on average between open-source visual/video models and closed-source models. These results show that RealBench provides an important research foundation for further exploring multi-image understanding capabilities in the Chinese context.
- Abstract(参考訳): 様々なマルチモーダルマルチイメージ評価データセットが登場したが、これらのデータセットは主に英語に基づいており、中国のマルチモーダルデータセットはまだ存在していない。
このギャップを埋めるために、9393サンプルと69910イメージを含む中国初のマルチモーダルマルチイメージデータセットであるRealBenchを紹介します。
RealBenchは、実際のユーザ生成コンテンツを取り入れ、現実世界のアプリケーションに高い関連性を持たせることで、自分自身を差別化している。
さらに、データセットは様々なシーン、画像解像度、画像構造をカバーし、マルチイメージ理解の難しさをさらに高めている。
最終的に、我々は、マルチイメージ入力をサポートするクローズドソースモデルや、オープンソースのビジュアルおよびビデオモデルを含む、21種類のマルチモーダルLCMを用いて、RealBenchの包括的な評価を行う。
実験結果から、最も強力なクローズドソースモデルでさえも、マルチイメージの中国のシナリオを扱う際の課題に直面していることが示唆された。
さらに、オープンソースヴィジュアル/ビデオモデルとクローズドソースモデルの間には、平均して約71.8\%のパフォーマンスギャップがある。
これらの結果は、RealBenchが中国語の文脈におけるマルチイメージ理解能力のさらなる探求に重要な研究基盤を提供することを示している。
関連論文リスト
- Emerging Properties in Unified Multimodal Pretraining [32.856334401494145]
マルチモーダル理解と生成をサポートするオープンソースの基盤モデルであるBAGELを紹介する。
BAGELは、大規模なインターリーブ付きテキスト、画像、ビデオ、Webデータからキュレートされた数兆のトークンに基づいて事前訓練された、統一されたデコーダのみのモデルである。
オープンソースの統一モデルでは、マルチモーダル生成と標準ベンチマークでの理解の両方において、大幅に優れています。
論文 参考訳(メタデータ) (2025-05-20T17:59:30Z) - Migician: Revealing the Magic of Free-Form Multi-Image Grounding in Multimodal Large Language Models [79.59567114769513]
複数の画像に対して自由かつ正確なグラウンド化を行うことができる最初のマルチイメージグラウンドモデルであるMigicianを紹介する。
我々のモデルは、より優れたマルチイメージグラウンド機能を実現し、最高のMLLMを24.94%上回り、さらに大きな70Bモデルを超えた。
論文 参考訳(メタデータ) (2025-01-10T07:56:23Z) - MMPKUBase: A Comprehensive and High-quality Chinese Multi-modal Knowledge Graph [13.098964050074438]
MMPKUBaseは中国のマルチモーダルな知識グラフで、鳥類、哺乳類、シダなどさまざまな領域を網羅している。
画像データを改良するために,原型コントラスト学習と分離フォレストアルゴリズムを用いる。
論文 参考訳(メタデータ) (2024-08-03T06:35:54Z) - MIBench: Evaluating Multimodal Large Language Models over Multiple Images [70.44423964171088]
マルチイメージシナリオにおけるMLLMの微粒化能力を包括的に評価する新しいベンチマークMIBenchを提案する。
具体的には、MIBenchはマルチモーダル・インコンテクスト・ラーニング(MIC)とマルチモーダル・インコンテクスト・ラーニング(MIC)の3つのシナリオに分類する。
その結果、現在のモデルでは単一画像のタスクが優れているが、複数画像の入力に直面すると大きな欠点が現れることがわかった。
論文 参考訳(メタデータ) (2024-07-21T21:22:58Z) - MuirBench: A Comprehensive Benchmark for Robust Multi-image Understanding [150.28164854480912]
マルチモーダルLLMの堅牢なマルチイメージ理解機能に着目したベンチマークであるMuirBenchを紹介する。
MuirBenchは、12の多様なマルチイメージタスク(例えば、シーン理解、順序付け)で構成されており、10のカテゴリのマルチイメージ関係を含んでいる。
GPT-4oやGemini Proのような最高のパフォーマンスモデルでさえ、ムアベンチを解くことは困難であり、精度は68.0%、49.3%である。
論文 参考訳(メタデータ) (2024-06-13T17:59:52Z) - WanJuan: A Comprehensive Multimodal Dataset for Advancing English and
Chinese Large Models [69.96148259273065]
ワンフアン(Wan Juan)は、中国語と英語のデータからなる大規模なマルチモーダルデータセットであり、幅広いWebソースから収集されている。
同様のスケールのモデルと比較して,多次元評価において有意な優位性を示すモデルであるInternLMのトレーニングに利用された。
論文 参考訳(メタデータ) (2023-08-21T14:40:48Z) - Benchmarking Robustness of Multimodal Image-Text Models under
Distribution Shift [50.64474103506595]
本稿では,5つのタスクに対する共通の摂動下での12のオープンソース画像テキストモデルの堅牢性について検討する。
文字レベルの摂動はテキストの最も深刻な分布シフトであり、ズームボケは画像データにとって最も深刻なシフトである。
論文 参考訳(メタデータ) (2022-12-15T18:52:03Z) - Real-MFF: A Large Realistic Multi-focus Image Dataset with Ground Truth [58.226535803985804]
我々はReal-MFFと呼ばれる大規模で現実的なマルチフォーカスデータセットを導入する。
データセットは、710対のソースイメージと対応する接地真理画像を含む。
このデータセット上で10の典型的なマルチフォーカスアルゴリズムを図示のために評価する。
論文 参考訳(メタデータ) (2020-03-28T12:33:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。