Fugu-MT 論文翻訳(概要): PM4Bench: A Parallel Multilingual Multi-Modal Multi-task Benchmark for Large Vision Language Model

論文の概要: PM4Bench: A Parallel Multilingual Multi-Modal Multi-task Benchmark for Large Vision Language Model

arxiv url: http://arxiv.org/abs/2503.18484v1
Date: Mon, 24 Mar 2025 09:38:37 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-25 16:32:17.188886
Title: PM4Bench: A Parallel Multilingual Multi-Modal Multi-task Benchmark for Large Vision Language Model
Title（参考訳）: PM4Bench:大規模視覚言語モデルのための並列多言語マルチモーダルマルチタスクベンチマーク
Authors: Junyuan Gao, Jiahe Song, Jiang Wu, Runchuan Zhu, Guanlin Shen, Shasha Wang, Xingjian Wei, Haote Yang, Songyang Zhang, Weijia Li, Bin Wang, Dahua Lin, Lijun Wu, Conghui He,
Abstract要約: PM4Benchは,大規模視覚言語モデルのための並列多言語マルチモーダルマルチタスクベンチマークである。 10言語にまたがる並列コーパス設計を備えており、公平で正確な言語間比較を可能にする。これには、テキストとクエリがイメージに埋め込まれたビジョン設定が含まれており、LVLMは現実世界のアプリケーションと同時に"見る"、"読む"、"考える"必要がある。
参考スコア（独自算出の注目度）: 75.98106427999411
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Existing multilingual benchmarks for Large Vision Language Models (LVLMs) suffer from limitations including language-specific content biases, disjointed multimodal input formats, and a lack of safety evaluation. To address these gaps, we propose PM4Bench, the first Parallel Multilingual Multi-Modal Multi-task Benchmark for LVLMs. PM4Bench features a parallel corpus design across 10 languages, enabling fair and accurate cross-lingual comparisons. It includes the vision setting where text and queries are embedded in images, requiring LVLMs to simultaneously "see", "read", and "think", aligning with real-world applications. Additionally, PM\textsuperscript{4}Bench incorporates safety evaluations, addressing critical oversight in existing multilingual benchmarks. Using PM4Bench, we evaluate 11 mainstream LVLMs, revealing significant cross-linguistic performance disparities, particularly in vision settings, and identifying OCR capability as a key determinant of these imbalances. We will release PM4Bench at https://github.com/opendatalab/PM4Bench .
Abstract（参考訳）: 既存のLVLM(Large Vision Language Models)のマルチリンガルベンチマークは、言語固有のコンテンツバイアス、不整合型マルチモーダル入力フォーマット、安全性評価の欠如といった制限に悩まされている。これらのギャップに対処するため,最初の並列多言語マルチモーダルマルチタスクベンチマークPM4Benchを提案する。 PM4Benchは10言語にまたがる並列コーパス設計を備えており、公平で正確な言語間比較を可能にする。これには、テキストとクエリがイメージに埋め込まれたビジョン設定が含まれており、LVLMは現実世界のアプリケーションと同時に"見る"、"読む"、"考える"必要がある。さらにPM\textsuperscript{4}Benchは安全性評価を取り入れ、既存のマルチ言語ベンチマークにおける重要な監視に対処する。 PM4Benchを用いて11個の主要LVLMを評価し,特に視覚設定における言語間性能の相違を明らかにし,OCR能力をこれらの不均衡の重要な要因として同定した。私たちはPM4Benchをhttps://github.com/opendatalab/PM4Benchでリリースします。

関連論文リスト

VisChainBench: A Benchmark for Multi-Turn, Multi-Image Visual Reasoning Beyond Language Priors [32.4515119002324]
VisChainBenchは、LVLM(Large Vision-Language Models)を厳格に評価するために設計されたベンチマークである。 3つの異なる領域(例えば、日々のシナリオ、エンジニアリングのトラブルシューティング)にわたる20,000以上のイメージにまたがる1,457のタスクを含んでいる。ユニークなことに、ベンチマークはマルチエージェント生成パイプラインを使用して構築されており、高い視覚的多様性と制御された言語バイアスを保証する。
論文参考訳（メタデータ） (2025-12-07T09:48:10Z)
IndicVisionBench: Benchmarking Cultural and Multilingual Understanding in VLMs [2.697578491761838]
IndicVisionBenchはインド亜大陸を中心とした最初の大規模ベンチマークである。我々のベンチマークは光学文字認識(OCR)、マルチモーダル機械翻訳(MMT)、視覚質問応答(VQA)を含む3つのマルチモーダルタスクにまたがる。さらに,10言語にまたがるアノテーションの並列コーパスをリリースし,VLMの文化的・言語的バイアスを解析するためのユニークなリソースを創出する。
論文参考訳（メタデータ） (2025-11-06T18:01:22Z)
MultiVerse: A Multi-Turn Conversation Benchmark for Evaluating Large Vision and Language Models [25.072791108956682]
MultiVerseは、647の対話を特徴とする新しいマルチターン会話ベンチマークである。 484のタスクと484のインタラクション目標を持つMultiVerseは、事実知識や知覚から、数学やコーディングといった高度な推論タスクまで、幅広いトピックをカバーしている。我々は、MultiVerse上で18のビジョン・アンド・ランゲージモデル(VLM)を評価し、最強モデルでさえ複雑なマルチターン会話において50%の成功率しか達成していないことを明らかにした。
論文参考訳（メタデータ） (2025-10-18T21:00:12Z)
LUSIFER: Language Universal Space Integration for Enhanced Multilingual Embeddings with Large Language Models [89.13128402847943]
LUSIFERは,LLMをベースとした多言語タスクの埋め込みモデルに,多言語監視を必要とせずに適用可能なゼロショット方式である。 LUSIFERのアーキテクチャは多言語エンコーダを組み、言語ユニバーサル学習者として機能し、埋め込み固有のタスクに最適化されたLLMベースの埋め込みモデルと組み合わせている。 5つの主要な埋め込みタスク、123の多様なデータセット、14言語にわたるカバレッジを含む新しいベンチマークを導入する。
論文参考訳（メタデータ） (2025-01-01T15:43:07Z)
P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs [84.24644520272835]
本稿では,P-MMEvalを提案する。P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P -M P-MMEvalは、さまざまなデータセットにわたって一貫した言語カバレッジを提供し、並列サンプルを提供する。我々は、モデルとタスク間の性能を比較するために、代表的多言語モデル系列に関する広範な実験を行う。
論文参考訳（メタデータ） (2024-11-14T01:29:36Z)
Multi-IF: Benchmarking LLMs on Multi-Turn and Multilingual Instructions Following [51.18383180774354]
Multi-IFは,大規模言語モデルの習熟度を多元的および多言語的指示に従って評価するための新しいベンチマークである。 Multi-IF 上での14の最先端 LLM の評価結果から,既存のベンチマークよりもはるかに難しい課題であることが判明した。非ラテン文字(ヒンディー語、ロシア語、中国語)を持つ言語は一般的に高いエラー率を示し、モデルの多言語能力の潜在的な制限を示唆している。
論文参考訳（メタデータ） (2024-10-21T00:59:47Z)
MIBench: Evaluating Multimodal Large Language Models over Multiple Images [70.44423964171088]
マルチイメージシナリオにおけるMLLMの微粒化能力を包括的に評価する新しいベンチマークMIBenchを提案する。具体的には、MIBenchはマルチモーダル・インコンテクスト・ラーニング(MIC)とマルチモーダル・インコンテクスト・ラーニング(MIC)の3つのシナリオに分類する。その結果、現在のモデルでは単一画像のタスクが優れているが、複数画像の入力に直面すると大きな欠点が現れることがわかった。
論文参考訳（メタデータ） (2024-07-21T21:22:58Z)
M5 -- A Diverse Benchmark to Assess the Performance of Large Multimodal Models Across Multilingual and Multicultural Vision-Language Tasks [10.677274746850554]
M5は多言語コンテキストにおける様々な視覚・運動タスクのLMMを評価するために設計された最初の総合ベンチマークである。ハイソース言語と低リソース言語のタスクに依存しないパフォーマンスの相違を強調した。より大規模なモデルは、多言語環境では必ずしもより小さなモデルよりも優れているとは限らないことを示す。
論文参考訳（メタデータ） (2024-07-04T09:55:04Z)
AlignMMBench: Evaluating Chinese Multimodal Alignment in Large Vision-Language Models [34.843603169616486]
新興中国ビジョンランゲージモデル(VLM)の総合的アライメントベンチマークであるAlignMMBenchを紹介する。このベンチマークは、現実世界のシナリオと中国のインターネットソースから慎重にキュレートされ、3つのカテゴリにまたがる13の特定のタスクを含み、シングルターンとマルチターンの対話シナリオを含んでいる。評価パイプラインを容易にするために,GPT-4の評価能力を超えるルール校正評価器であるCristiqueVLMを提案する。
論文参考訳（メタデータ） (2024-06-13T16:30:14Z)
Parrot: Multilingual Visual Instruction Tuning [66.65963606552839]
視覚エンコーダとマルチモーダル大言語モデル(MLLM)の整合性に着目した既存手法そこで本研究では,テキストガイダンスを用いて視覚的トークンアライメントを言語レベルで促進する新しい手法であるParrotを紹介する。本手法は,多言語MMBenchおよびMMMB上での最先端性能を示すだけでなく,多モーダルタスクにも優れる。
論文参考訳（メタデータ） (2024-06-04T17:56:28Z)
Learning to Scale Multilingual Representations for Vision-Language Tasks [51.27839182889422]
SMALRの有効性は、これまでビジョン言語タスクでサポートされた2倍以上の10の多言語で実証されている。単語の埋め込み手法と比較して,訓練パラメータの1/5以下で,複数言語による画像文検索と先行作業の3～4%の性能評価を行った。
論文参考訳（メタデータ） (2020-04-09T01:03:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。