論文の概要: PM4Bench: A Parallel Multilingual Multi-Modal Multi-task Benchmark for Large Vision Language Model
- arxiv url: http://arxiv.org/abs/2503.18484v1
- Date: Mon, 24 Mar 2025 09:38:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:39:04.741176
- Title: PM4Bench: A Parallel Multilingual Multi-Modal Multi-task Benchmark for Large Vision Language Model
- Title(参考訳): PM4Bench:大規模視覚言語モデルのための並列多言語マルチモーダルマルチタスクベンチマーク
- Authors: Junyuan Gao, Jiahe Song, Jiang Wu, Runchuan Zhu, Guanlin Shen, Shasha Wang, Xingjian Wei, Haote Yang, Songyang Zhang, Weijia Li, Bin Wang, Dahua Lin, Lijun Wu, Conghui He,
- Abstract要約: PM4Benchは,大規模視覚言語モデルのための並列多言語マルチモーダルマルチタスクベンチマークである。
10言語にまたがる並列コーパス設計を備えており、公平で正確な言語間比較を可能にする。
これには、テキストとクエリがイメージに埋め込まれたビジョン設定が含まれており、LVLMは現実世界のアプリケーションと同時に"見る"、"読む"、"考える"必要がある。
- 参考スコア(独自算出の注目度): 75.98106427999411
- License:
- Abstract: Existing multilingual benchmarks for Large Vision Language Models (LVLMs) suffer from limitations including language-specific content biases, disjointed multimodal input formats, and a lack of safety evaluation. To address these gaps, we propose PM4Bench, the first Parallel Multilingual Multi-Modal Multi-task Benchmark for LVLMs. PM4Bench features a parallel corpus design across 10 languages, enabling fair and accurate cross-lingual comparisons. It includes the vision setting where text and queries are embedded in images, requiring LVLMs to simultaneously "see", "read", and "think", aligning with real-world applications. Additionally, PM\textsuperscript{4}Bench incorporates safety evaluations, addressing critical oversight in existing multilingual benchmarks. Using PM4Bench, we evaluate 11 mainstream LVLMs, revealing significant cross-linguistic performance disparities, particularly in vision settings, and identifying OCR capability as a key determinant of these imbalances. We will release PM4Bench at https://github.com/opendatalab/PM4Bench .
- Abstract(参考訳): 既存のLVLM(Large Vision Language Models)のマルチリンガルベンチマークは、言語固有のコンテンツバイアス、不整合型マルチモーダル入力フォーマット、安全性評価の欠如といった制限に悩まされている。
これらのギャップに対処するため,最初の並列多言語マルチモーダルマルチタスクベンチマークPM4Benchを提案する。
PM4Benchは10言語にまたがる並列コーパス設計を備えており、公平で正確な言語間比較を可能にする。
これには、テキストとクエリがイメージに埋め込まれたビジョン設定が含まれており、LVLMは現実世界のアプリケーションと同時に"見る"、"読む"、"考える"必要がある。
さらにPM\textsuperscript{4}Benchは安全性評価を取り入れ、既存のマルチ言語ベンチマークにおける重要な監視に対処する。
PM4Benchを用いて11個の主要LVLMを評価し,特に視覚設定における言語間性能の相違を明らかにし,OCR能力をこれらの不均衡の重要な要因として同定した。
私たちはPM4Benchをhttps://github.com/opendatalab/PM4Benchでリリースします。
関連論文リスト
- LUSIFER: Language Universal Space Integration for Enhanced Multilingual Embeddings with Large Language Models [89.13128402847943]
LUSIFERは,LLMをベースとした多言語タスクの埋め込みモデルに,多言語監視を必要とせずに適用可能なゼロショット方式である。
LUSIFERのアーキテクチャは多言語エンコーダを組み、言語ユニバーサル学習者として機能し、埋め込み固有のタスクに最適化されたLLMベースの埋め込みモデルと組み合わせている。
5つの主要な埋め込みタスク、123の多様なデータセット、14言語にわたるカバレッジを含む新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2025-01-01T15:43:07Z) - Multi-IF: Benchmarking LLMs on Multi-Turn and Multilingual Instructions Following [51.18383180774354]
Multi-IFは,大規模言語モデルの習熟度を多元的および多言語的指示に従って評価するための新しいベンチマークである。
Multi-IF 上での14の最先端 LLM の評価結果から,既存のベンチマークよりもはるかに難しい課題であることが判明した。
非ラテン文字(ヒンディー語、ロシア語、中国語)を持つ言語は一般的に高いエラー率を示し、モデルの多言語能力の潜在的な制限を示唆している。
論文 参考訳(メタデータ) (2024-10-21T00:59:47Z) - MIBench: Evaluating Multimodal Large Language Models over Multiple Images [70.44423964171088]
マルチイメージシナリオにおけるMLLMの微粒化能力を包括的に評価する新しいベンチマークMIBenchを提案する。
具体的には、MIBenchはマルチモーダル・インコンテクスト・ラーニング(MIC)とマルチモーダル・インコンテクスト・ラーニング(MIC)の3つのシナリオに分類する。
その結果、現在のモデルでは単一画像のタスクが優れているが、複数画像の入力に直面すると大きな欠点が現れることがわかった。
論文 参考訳(メタデータ) (2024-07-21T21:22:58Z) - M5 -- A Diverse Benchmark to Assess the Performance of Large Multimodal Models Across Multilingual and Multicultural Vision-Language Tasks [10.677274746850554]
M5は多言語コンテキストにおける様々な視覚・運動タスクのLMMを評価するために設計された最初の総合ベンチマークである。
ハイソース言語と低リソース言語のタスクに依存しないパフォーマンスの相違を強調した。
より大規模なモデルは、多言語環境では必ずしもより小さなモデルよりも優れているとは限らないことを示す。
論文 参考訳(メタデータ) (2024-07-04T09:55:04Z) - AlignMMBench: Evaluating Chinese Multimodal Alignment in Large Vision-Language Models [34.843603169616486]
新興中国ビジョンランゲージモデル(VLM)の総合的アライメントベンチマークであるAlignMMBenchを紹介する。
このベンチマークは、現実世界のシナリオと中国のインターネットソースから慎重にキュレートされ、3つのカテゴリにまたがる13の特定のタスクを含み、シングルターンとマルチターンの対話シナリオを含んでいる。
評価パイプラインを容易にするために,GPT-4の評価能力を超えるルール校正評価器であるCristiqueVLMを提案する。
論文 参考訳(メタデータ) (2024-06-13T16:30:14Z) - Parrot: Multilingual Visual Instruction Tuning [66.65963606552839]
視覚エンコーダとマルチモーダル大言語モデル(MLLM)の整合性に着目した既存手法
そこで本研究では,テキストガイダンスを用いて視覚的トークンアライメントを言語レベルで促進する新しい手法であるParrotを紹介する。
本手法は,多言語MMBenchおよびMMMB上での最先端性能を示すだけでなく,多モーダルタスクにも優れる。
論文 参考訳(メタデータ) (2024-06-04T17:56:28Z) - Learning to Scale Multilingual Representations for Vision-Language Tasks [51.27839182889422]
SMALRの有効性は、これまでビジョン言語タスクでサポートされた2倍以上の10の多言語で実証されている。
単語の埋め込み手法と比較して,訓練パラメータの1/5以下で,複数言語による画像文検索と先行作業の3~4%の性能評価を行った。
論文 参考訳(メタデータ) (2020-04-09T01:03:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。