論文の概要: MCIF: Multimodal Crosslingual Instruction-Following Benchmark from Scientific Talks
- arxiv url: http://arxiv.org/abs/2507.19634v1
- Date: Fri, 25 Jul 2025 19:00:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:55.869666
- Title: MCIF: Multimodal Crosslingual Instruction-Following Benchmark from Scientific Talks
- Title(参考訳): MCIF:マルチモーダル・クロスリンガル・インストラクションのベンチマーク
- Authors: Sara Papi, Maike Züfle, Marco Gaido, Beatrice Savoldi, Danni Liu, Ioannis Douros, Luisa Bentivogli, Jan Niehues,
- Abstract要約: MCIF (Multimodal Crosslingual Instruction following) は、科学的な議論に基づく最初の多言語人手によるベンチマークである。
MCFは、音声、視覚、テキストの3つの中核モダリティと4つの多言語(英語、ドイツ語、イタリア語、中国語)にまたがる。
MLLMの言語間の命令を解釈し、それをマルチモーダルな文脈情報と組み合わせることで、包括的なMLLMの能力の評価を可能にする。
- 参考スコア(独自算出の注目度): 25.75895667904485
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in large language models have catalyzed the development of multimodal LLMs (MLLMs) that integrate text, speech, and vision within unified frameworks. As MLLMs evolve from narrow, monolingual, task-specific systems to general-purpose instruction-following models, a key frontier lies in evaluating their multilingual and multimodal capabilities over both long and short contexts. However, existing benchmarks fall short in evaluating these dimensions jointly: they are often limited to English, mostly focus on one single modality at a time, rely on short-form contexts, or lack human annotations--hindering comprehensive assessment of model performance across languages, modalities, and task complexity. To address these gaps, we introduce MCIF (Multimodal Crosslingual Instruction Following), the first multilingual human-annotated benchmark based on scientific talks that is designed to evaluate instruction-following in crosslingual, multimodal settings over both short- and long-form inputs. MCIF spans three core modalities--speech, vision, and text--and four diverse languages (English, German, Italian, and Chinese), enabling a comprehensive evaluation of MLLMs' abilities to interpret instructions across languages and combine them with multimodal contextual information. MCIF is released under a CC-BY 4.0 license to encourage open research and progress in MLLMs development.
- Abstract(参考訳): 大規模言語モデルの最近の進歩は、テキスト、音声、ビジョンを統一されたフレームワークに統合するマルチモーダルLLM(MLLM)の開発を触媒している。
MLLMが狭く単言語的なタスク固有のシステムから汎用的な命令追従モデルへと進化するにつれて、長いコンテキストと短いコンテキストの両方で多言語とマルチモーダルの能力を評価する上で重要なフロンティアとなる。
しかし、既存のベンチマークは、これらの次元を共同で評価するのに不足している。それらは英語に限られており、たいていは一度に1つのモダリティに焦点を合わせ、短い形式のコンテキストに依存したり、人間のアノテーションが欠如している。
これらのギャップに対処するために, MCIF (Multimodal Crosslingual Instruction following) を導入する。
MCIFは、音声、視覚、テキストの3つの中核的なモダリティ、および4つの多言語(英語、ドイツ語、イタリア語、中国語)にまたがっており、MLLMの言語間の命令を解釈し、多モーダルな文脈情報と組み合わせる能力の総合的な評価を可能にしている。
MCIF は CC-BY 4.0 ライセンスでリリースされ、MLLM 開発におけるオープンな研究と進歩を奨励している。
関連論文リスト
- MultiFinBen: A Multilingual, Multimodal, and Difficulty-Aware Benchmark for Financial LLM Evaluation [89.73542209537148]
MultiFinBenは、グローバルファイナンシャルドメインに合わせた最初のマルチリンガルおよびマルチモーダルベンチマークである。
我々は,最初のOCR組み込み財務QAタスクである EnglishOCR と SpanishOCR の2つの新しいタスクを紹介する。
本稿では,動的で難易度の高い選択機構を提案し,コンパクトでバランスの取れたベンチマークをキュレートする。
論文 参考訳(メタデータ) (2025-06-16T22:01:49Z) - Can Large Language Models Help Multimodal Language Analysis? MMLA: A Comprehensive Benchmark [35.654523541347174]
MMLAは、ステージ化されたシナリオと実世界のシナリオの両方から引き出された61K以上のマルチモーダル発話で構成されている。
我々は、ゼロショット推論、教師付き微調整、命令チューニングの3つの手法を用いて、LLMとMLLMの8つの主流ブランチを評価した。
実験の結果、微調整されたモデルでさえ約60%の精度しか達成できず、複雑な人間の言語を理解する上での現在のMLLMの限界が強調されている。
論文 参考訳(メタデータ) (2025-04-23T05:25:13Z) - Multilingual Large Language Models: A Systematic Survey [38.972546467173565]
本稿では,多言語大言語モデル(MLLM)の最新研究を包括的に調査する。
まず,MLLMのアーキテクチャと事前学習の目的について論じ,多言語機能に寄与する重要なコンポーネントや方法論を強調した。
本稿では,MLLMの言語間知識,推論,人的価値との整合性,安全性,解釈可能性,専門的応用に関する詳細な分類とロードマップを示す。
論文 参考訳(メタデータ) (2024-11-17T13:21:26Z) - P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs [84.24644520272835]
本稿では,P-MMEvalを提案する。P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P -M
P-MMEvalは、さまざまなデータセットにわたって一貫した言語カバレッジを提供し、並列サンプルを提供する。
我々は、モデルとタスク間の性能を比較するために、代表的多言語モデル系列に関する広範な実験を行う。
論文 参考訳(メタデータ) (2024-11-14T01:29:36Z) - Multi-IF: Benchmarking LLMs on Multi-Turn and Multilingual Instructions Following [51.18383180774354]
Multi-IFは,大規模言語モデルの習熟度を多元的および多言語的指示に従って評価するための新しいベンチマークである。
Multi-IF 上での14の最先端 LLM の評価結果から,既存のベンチマークよりもはるかに難しい課題であることが判明した。
非ラテン文字(ヒンディー語、ロシア語、中国語)を持つ言語は一般的に高いエラー率を示し、モデルの多言語能力の潜在的な制限を示唆している。
論文 参考訳(メタデータ) (2024-10-21T00:59:47Z) - A Comprehensive Review of Multimodal Large Language Models: Performance and Challenges Across Different Tasks [74.52259252807191]
MLLM(Multimodal Large Language Models)は、単一のモダリティシステムの能力を超えた現実世界のアプリケーションの複雑さに対処する。
本稿では,自然言語,視覚,音声などのマルチモーダルタスクにおけるMLLMの応用を体系的に整理する。
論文 参考訳(メタデータ) (2024-08-02T15:14:53Z) - A Survey on Large Language Models with Multilingualism: Recent Advances and New Frontiers [51.8203871494146]
LLM(Large Language Models)の急速な開発は、自然言語処理における顕著な多言語機能を示している。
LLMのブレークスルーにもかかわらず、多言語シナリオの研究は依然として不十分である。
本調査は,多言語問題に対する研究コミュニティの取り組みを支援することを目的としており,LLMに基づく多言語自然言語処理における中核概念,鍵技術,最新の発展の包括的理解を提供する。
論文 参考訳(メタデータ) (2024-05-17T17:47:39Z) - A Survey on Multilingual Large Language Models: Corpora, Alignment, and Bias [5.096332588720052]
本稿では,MLLMの進化,鍵技術,多言語能力について概説する。
第3に、多言語表現の最先端研究について調査し、現在のMLLMが普遍言語表現を学べるかどうかを検討する。
第4に,MLLMのカテゴリ,評価指標,脱バイアス技術などのバイアスについて論じる。
論文 参考訳(メタデータ) (2024-04-01T05:13:56Z) - M3Exam: A Multilingual, Multimodal, Multilevel Benchmark for Examining
Large Language Models [76.88692952308084]
M3Examは、多言語、マルチモーダル、マルチレベルコンテキストにおける大規模言語モデル(LLM)を評価するためのベンチマークである。
M3Examには、9つの言語で12,317の質問があり、3つの教育レベルがある。
我々は,M3Exam上でのLLMの性能評価を行い,GPT-4を含む現在のモデルが多言語テキストに苦戦していることを確認した。
論文 参考訳(メタデータ) (2023-06-08T13:21:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。