論文の概要: ChineseSimpleVQA -- "See the World, Discover Knowledge": A Chinese Factuality Evaluation for Large Vision Language Models
- arxiv url: http://arxiv.org/abs/2502.11718v3
- Date: Wed, 26 Feb 2025 13:56:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-27 15:24:46.203214
- Title: ChineseSimpleVQA -- "See the World, Discover Knowledge": A Chinese Factuality Evaluation for Large Vision Language Models
- Title(参考訳): ChineseSimpleVQA -- "See the World, Discover Knowledge": 大規模視覚言語モデルのための中国語のファクチュアリティ評価
- Authors: Jihao Gu, Yingyao Wang, Pi Bu, Chen Wang, Ziming Wang, Tengtao Song, Donglai Wei, Jiale Yuan, Yingxiu Zhao, Yancheng He, Shilong Li, Jiaheng Liu, Meng Cao, Jun Song, Yingshui Tan, Xiang Li, Wenbo Su, Zhicheng Zheng, Xiaoyong Zhu, Bo Zheng,
- Abstract要約: 我々は,中国語で「 ChineseSimpleVQA」というファクトリティに基づく視覚質問応答ベンチマークを初めて導入した。
このベンチマークの主な特徴は、中国語、多様な知識タイプ、マルチホップ質問の構築、高品質なデータ、静的な一貫性、短い回答による評価、などである。
- 参考スコア(独自算出の注目度): 38.921977141721605
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The evaluation of factual accuracy in large vision language models (LVLMs) has lagged behind their rapid development, making it challenging to fully reflect these models' knowledge capacity and reliability. In this paper, we introduce the first factuality-based visual question-answering benchmark in Chinese, named ChineseSimpleVQA, aimed at assessing the visual factuality of LVLMs across 8 major topics and 56 subtopics. The key features of this benchmark include a focus on the Chinese language, diverse knowledge types, a multi-hop question construction, high-quality data, static consistency, and easy-to-evaluate through short answers. Moreover, we contribute a rigorous data construction pipeline and decouple the visual factuality into two parts: seeing the world (i.e., object recognition) and discovering knowledge. This decoupling allows us to analyze the capability boundaries and execution mechanisms of LVLMs. Subsequently, we evaluate 34 advanced open-source and closed-source models, revealing critical performance gaps within this field.
- Abstract(参考訳): 大規模視覚言語モデル(LVLM)における事実精度の評価は、その急速な発展に遅れを取っており、これらのモデルの知識能力と信頼性を完全に反映することは困難である。
本稿では,8つの主要なトピックと56のサブトピックにわたるLVLMの視覚的事実性を評価することを目的とした,中国語の「 ChineseSimpleVQA」という,ファクトリティに基づく視覚的質問応答ベンチマークについて紹介する。
このベンチマークの主な特徴は、中国語、多様な知識タイプ、マルチホップ質問の構築、高品質なデータ、静的な一貫性、短い回答による評価、などである。
さらに、厳密なデータ構築パイプラインにコントリビュートし、視覚的事実性を2つの部分に分割する。
この分離により,LVLMの機能境界と実行機構を解析できる。
その後、34の高度なオープンソースおよびクローズドソースモデルを評価し、この分野における重要なパフォーマンスギャップを明らかにした。
関連論文リスト
- Benchmarking Large Vision-Language Models on Fine-Grained Image Tasks: A Comprehensive Evaluation [53.84282335629258]
我々は349万の質問と332万の画像からなる総合的なきめ細かい評価ベンチマーク、すなわちFG-BMKを導入する。
本評価では,人間指向と機械指向の両方の観点からLVLMを体系的に検討する。
トレーニングパラダイム,モダリティアライメント,摂動感受性,および細粒度カテゴリー推論がタスクパフォーマンスに与える影響について,重要な知見を明らかにした。
論文 参考訳(メタデータ) (2025-04-21T09:30:41Z) - A Benchmark for Multi-Lingual Vision-Language Learning in Remote Sensing Image Captioning [27.350370419751385]
リモートセンシング画像キャプチャー(Remote Sensing Image Captioning、RSIC)は、リモートセンシング画像における特徴やシーンの自然言語記述を自動的に生成することを目的とした、クロスプラットフォームの視野と言語である。
非英語記述データセットの不足とモデルに対する多言語能力評価の欠如という2つの重要な課題が続いている。
本稿では,68,170のバイリンガルキャプションと組み合わせた13,634枚の画像を含む,3つの確立した英語RSICデータセットを中国語記述で強化した包括的バイリンガルデータセットであるBRSICを紹介し,分析する。
論文 参考訳(メタデータ) (2025-03-06T16:31:34Z) - InsightVision: A Comprehensive, Multi-Level Chinese-based Benchmark for Evaluating Implicit Visual Semantics in Large Vision Language Models [30.986157664865534]
画像中の暗黙の意味の理解を評価するための,総合的,多レベルな中国語ベースのベンチマークを初めて紹介する。
このベンチマークは、表面レベルのコンテンツ理解、象徴的な意味解釈、背景知識理解、暗黙的な意味理解の4つのサブタスクに分類される。
このベンチマークを用いて、15個のオープンソースの大規模視覚言語モデル (LVLM) と GPT-4o を評価し、人間のパフォーマンスに最も優れたモデルラグでさえ、暗黙的な意味を理解するのに約14%遅れていることを明らかにする。
論文 参考訳(メタデータ) (2025-02-19T13:42:37Z) - VLM$^2$-Bench: A Closer Look at How Well VLMs Implicitly Link Explicit Matching Visual Cues [32.00120712945976]
VLM$2$-Benchは、視覚言語モデルがマッチングキューを視覚的にリンクできるかどうかを評価するために設計されたベンチマークである。
我々は、モデルが視覚的手がかりをリンクする能力において重要な課題を特定し、GPT-4oでさえ人間より34.80%遅れている重要なパフォーマンスギャップを浮き彫りにしている。
論文 参考訳(メタデータ) (2025-02-17T17:57:50Z) - Chinese SimpleQA: A Chinese Factuality Evaluation for Large Language Models [24.47838086336772]
中国語SimpleQAは、短い質問に答える言語モデルの事実性を評価する最初の包括的な中国のベンチマークである。
私たちは、99の多様なサブトピックを持つ6つの主要なトピックに関する中国語に焦点を当てています。
論文 参考訳(メタデータ) (2024-11-11T17:10:56Z) - CVLUE: A New Benchmark Dataset for Chinese Vision-Language Understanding Evaluation [49.41531871253317]
我々は、新しい中国語ビジョン言語理解評価ベンチマークデータセットを提案する。
オブジェクトカテゴリとイメージの選択は、完全に中国のネイティブスピーカーによって駆動される。
中国文化関連VLデータセットの微調整により,VLMの中国文化理解が効果的に向上することが確認された。
論文 参考訳(メタデータ) (2024-07-01T08:35:37Z) - FoundaBench: Evaluating Chinese Fundamental Knowledge Capabilities of Large Language Models [64.11333762954283]
本稿では,中国のLLMの基本知識能力を厳格に評価するための先駆的ベンチマークであるFoundaBenchを紹介する。
本稿では、従来の評価手法とCircularEvalプロトコルの両方を用いて、モデル応答の潜在的なバイアスを軽減するため、FoundaBenchを用いた12の最先端LCMの広範な評価を行う。
以上の結果から,中国のコーパスで事前学習したモデルの性能が向上し,モデル推論とメモリリコール能力の相違が明らかとなった。
論文 参考訳(メタデータ) (2024-04-29T01:49:07Z) - Behind the Magic, MERLIM: Multi-modal Evaluation Benchmark for Large Image-Language Models [50.653838482083614]
本稿では,IT-LVLMの基本的なコンピュータビジョンタスクにおける能力を評価するために,スケーラブルなテストベッドを提案する。
MERLIMには300K以上の画像検索ペアが含まれており、IT-LVLMにおけるクロスモーダルな"ハロシン化"イベントの検出に重点を置いている。
論文 参考訳(メタデータ) (2023-12-03T16:39:36Z) - KoLA: Carefully Benchmarking World Knowledge of Large Language Models [87.96683299084788]
我々は知識指向LLMアセスメントベンチマーク(KoLA)を構築した。
人間の認知を模倣して、知識関連能力の4段階の分類を形成し、19ドルのタスクをカバーします。
私たちは、LLMによって事前訓練されたコーパスであるウィキペディアと、継続的に収集された新興コーパスを使用して、目に見えないデータや進化する知識を扱う能力を評価します。
論文 参考訳(メタデータ) (2023-06-15T17:20:46Z) - Retrieval-based Knowledge Augmented Vision Language Pre-training [9.779887832992435]
知識強化事前学習の主な課題は、知識とマルチモーダルデータの間の明確なつながりの欠如である。
本研究では,Retrieval-based knowledge Augmented Vision Language (REAVL)を提案する。
本稿では,知識とマルチモーダルデータとの対応性を効果的に確立する知識認識型自己教師型学習手法を初めて導入する。
論文 参考訳(メタデータ) (2023-04-27T02:23:47Z) - Intrinsic Knowledge Evaluation on Chinese Language Models [5.293979881130493]
本稿では, 統語的, 意味的, 常識的, 事実的知識の4つの課題について, 合計39,308ドルの質問に集約する。
我々の調査と知識データは、事前訓練された中国のLMを評価するための信頼性の高いベンチマークであることが証明されている。
論文 参考訳(メタデータ) (2020-11-29T04:34:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。