論文の概要: Can MLLMs Understand the Deep Implication Behind Chinese Images?
- arxiv url: http://arxiv.org/abs/2410.13854v1
- Date: Thu, 17 Oct 2024 17:59:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-18 13:23:18.712649
- Title: Can MLLMs Understand the Deep Implication Behind Chinese Images?
- Title(参考訳): MLLMは中国の画像にまつわる深い影響を理解できるか?
- Authors: Chenhao Zhang, Xi Feng, Yuelin Bai, Xinrun Du, Jinchang Hou, Kaixin Deng, Guangzeng Han, Qinrui Li, Bingli Wang, Jiaheng Liu, Xingwei Qu, Yifei Zhang, Qixuan Zhao, Yiming Liang, Ziqiang Liu, Feiteng Fang, Min Yang, Wenhao Huang, Chenghua Lin, Ge Zhang, Shiwen Ni,
- Abstract要約: 中国語画像に対するMLLMの高次知覚と理解能力を評価することを目的とした**C**hinese **I**mage **I**mplication understanding **Bench*mark, **CII-Bench**を紹介する。
CII-Benchの画像は中国のインターネットからソースされ、手動でレビューされ、それに対応する回答も手動で作成される。
CII-Benchは中国伝統文化のイメージを取り入れており、中国の伝統文化に対するモデルの理解を深く反映している。
- 参考スコア(独自算出の注目度): 29.007010549079098
- License:
- Abstract: As the capabilities of Multimodal Large Language Models (MLLMs) continue to improve, the need for higher-order capability evaluation of MLLMs is increasing. However, there is a lack of work evaluating MLLM for higher-order perception and understanding of Chinese visual content. To fill the gap, we introduce the **C**hinese **I**mage **I**mplication understanding **Bench**mark, **CII-Bench**, which aims to assess the higher-order perception and understanding capabilities of MLLMs for Chinese images. CII-Bench stands out in several ways compared to existing benchmarks. Firstly, to ensure the authenticity of the Chinese context, images in CII-Bench are sourced from the Chinese Internet and manually reviewed, with corresponding answers also manually crafted. Additionally, CII-Bench incorporates images that represent Chinese traditional culture, such as famous Chinese traditional paintings, which can deeply reflect the model's understanding of Chinese traditional culture. Through extensive experiments on CII-Bench across multiple MLLMs, we have made significant findings. Initially, a substantial gap is observed between the performance of MLLMs and humans on CII-Bench. The highest accuracy of MLLMs attains 64.4%, where as human accuracy averages 78.2%, peaking at an impressive 81.0%. Subsequently, MLLMs perform worse on Chinese traditional culture images, suggesting limitations in their ability to understand high-level semantics and lack a deep knowledge base of Chinese traditional culture. Finally, it is observed that most models exhibit enhanced accuracy when image emotion hints are incorporated into the prompts. We believe that CII-Bench will enable MLLMs to gain a better understanding of Chinese semantics and Chinese-specific images, advancing the journey towards expert artificial general intelligence (AGI). Our project is publicly available at https://cii-bench.github.io/.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の性能向上が進み,MLLMの高次性能評価の必要性が高まっている。
しかし、中国語の視覚的内容の高次認識と理解のためにMLLMを評価する作業が不足している。
このギャップを埋めるために、中国語画像に対するMLLMの高次認識と理解能力を評価することを目的として、*C**hinese **I*mage **I**mplication understanding **Bench*mark, *CII-Bench**を導入する。
CII-Benchは、既存のベンチマークと比べて、いくつかの点で際立っている。
まず,CII-Benchのイメージを中国インターネットから入手し,手動でレビューし,それに対応する回答を手動で作成する。
また、CII-Benchは中国伝統文化のイメージを取り入れており、中国の伝統文化に対する理解を深く反映している。
複数のMLLMにおけるCII-Benchの広範な実験により,本症例は有意な発見が得られた。
当初,CII-Bench上でのMLLMとヒトのパフォーマンスの間には,かなりのギャップが見られた。
MLLMの最高精度は64.4%であり、人間の平均精度は78.2%であり、最高速度は81.0%である。
その後、MLLMは中国の伝統文化イメージに悪影響を及ぼし、高度な意味論を理解でき、中国の伝統文化の深い知識基盤が欠如していることが示唆された。
最後に、ほとんどのモデルでは、画像の感情ヒントをプロンプトに組み込むと、精度が向上することが観察された。
我々は、CII-Benchが中国の意味論や中国固有のイメージをより深く理解し、専門家の汎用人工知能(AGI)への道のりを歩むことができると信じている。
私たちのプロジェクトはhttps://cii-bench.github.io/で公開されています。
関連論文リスト
- MC-Bench: A Benchmark for Multi-Context Visual Grounding in the Era of MLLMs [61.56904387052982]
本稿では,マルチコンテキストの視覚的グラウンド化という新しい視覚的グラウンド化タスクを提案する。
オープンなテキストプロンプトに基づいて、複数の画像にまたがる関心のインスタンスをローカライズすることを目的としている。
我々は20以上の最先端MLLMと基盤モデルをベンチマークし、潜在的にマルチコンテキストの視覚的グラウンド化機能を有する。
論文 参考訳(メタデータ) (2024-10-16T07:52:57Z) - Benchmarking Chinese Knowledge Rectification in Large Language Models [43.9841600678381]
本稿では,大言語モデルにおける中国語の知識を知識編集により修正するためのベンチマークを提案する。
我々は、古典的なテキスト、イディオム、Baidu Tieba Ruozhibaのコンテンツを含む、様々な情報源から7種類の知識を収集します。
このデータセットの分析を通して、中国語を習得する上で現在LLMが直面している課題を明らかにする。
論文 参考訳(メタデータ) (2024-09-09T17:11:51Z) - II-Bench: An Image Implication Understanding Benchmark for Multimodal Large Language Models [49.070801221350486]
マルチモーダルな大言語モデル(MLLM)は、様々なベンチマークで新しいブレークスルーをもたらしている。
本稿では,画像の高次知覚評価を目的とした画像意味理解ベンチマークII-Benchを提案する。
論文 参考訳(メタデータ) (2024-06-09T17:25:47Z) - The Instinctive Bias: Spurious Images lead to Illusion in MLLMs [34.91795817316696]
MLLMは、非常に関連性が高いが、応答に矛盾する画像で構成されている。
本稿では,スプリアス画像の視覚錯視レベルを評価する最初のベンチマークである相関QAを提案する。
我々は9つの主流MLLMについて徹底的な分析を行い、これらの本能バイアスが様々な程度に普遍的に悩まされていることを指摘した。
論文 参考訳(メタデータ) (2024-02-06T06:48:46Z) - AesBench: An Expert Benchmark for Multimodal Large Language Models on
Image Aesthetics Perception [64.25808552299905]
AesBenchはMLLMの審美的知覚能力の総合評価を目的とした専門家ベンチマークである。
本稿では,プロの審美専門家が提供した多彩な画像内容と高品質なアノテーションを特徴とするEAPD(Expert-labeled Aesthetics Perception Database)を構築した。
本稿では,知覚(AesP),共感(AesE),評価(AesA),解釈(AesI)の4つの視点からMLLMの審美的知覚能力を測定するための統合的基準を提案する。
論文 参考訳(メタデータ) (2024-01-16T10:58:07Z) - MM-SAP: A Comprehensive Benchmark for Assessing Self-Awareness of Multimodal Large Language Models in Perception [21.60103376506254]
MLLM(Multimodal Large Language Models)は視覚的知覚と理解において例外的な能力を示す。
これらのモデルも幻覚に悩まされ、AIシステムとしての信頼性が制限される。
本稿では,MLLMの認識における自己認識性を定義し,評価することを目的とする。
論文 参考訳(メタデータ) (2024-01-15T08:19:22Z) - LION : Empowering Multimodal Large Language Model with Dual-Level Visual
Knowledge [58.82222646803248]
MLLM(Multimodal Large Language Models)は、マルチモーダル信号の知覚と理解が可能なLLMを提供する。
既存のMLLMの多くは、大まかに整列された画像テキストペアで事前訓練された視覚エンコーダを採用しており、視覚知識の抽出と推論が不十分である。
本稿では,2段階の視覚的知識を注入することによってMLLMを増強する,デュアルレベルvIsual knedgeOwl eNhanced Multimodal Large Language Model (LION)を提案する。
論文 参考訳(メタデータ) (2023-11-20T15:56:44Z) - Q-Bench: A Benchmark for General-Purpose Foundation Models on Low-level
Vision [85.6008224440157]
MLLM(Multi-modality Large Language Models)は、コンピュータビジョンの特殊モデルから汎用基礎モデルへのシフトを触媒している。
Q-Benchは3つの領域(低レベル視覚知覚、低レベル視覚記述、全体視品質評価)でMLLMの潜在能力を評価するための総合的なベンチマークである。
論文 参考訳(メタデータ) (2023-09-25T14:43:43Z) - CMMLU: Measuring massive multitask language understanding in Chinese [133.70911295934746]
本稿では, 自然科学, 社会科学, 工学, 人文科学など, さまざまな分野をカバーする総合的な中国のベンチマークを紹介する。
CMMLUは、中国語の文脈における大きな言語モデルの知識と推論能力の評価におけるギャップを埋める。
論文 参考訳(メタデータ) (2023-06-15T15:49:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。