論文の概要: A Culturally-diverse Multilingual Multimodal Video Benchmark & Model
- arxiv url: http://arxiv.org/abs/2506.07032v1
- Date: Sun, 08 Jun 2025 07:52:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.639298
- Title: A Culturally-diverse Multilingual Multimodal Video Benchmark & Model
- Title(参考訳): 文化的多言語マルチモーダルビデオベンチマークとモデル
- Authors: Bhuiyan Sanjid Shafique, Ashmal Vayani, Muhammad Maaz, Hanoona Abdul Rasheed, Dinura Dissanayake, Mohammed Irfan Kurpath, Yahya Hmaiti, Go Inoue, Jean Lahoud, Md. Safirur Rashid, Shadid Intisar Quasem, Maheen Fatima, Franco Vidal, Mykola Maslych, Ketan Pravin More, Sanoojan Baliah, Hasindri Watawana, Yuhao Li, Fabian Farestam, Leon Schaller, Roman Tymtsiv, Simon Weber, Hisham Cholakkal, Ivan Laptev, Shin'ichi Satoh, Michael Felsberg, Mubarak Shah, Salman Khan, Fahad Shahbaz Khan,
- Abstract要約: 我々は,14言語にわたるビデオLMMを評価するために,ViMUL-Benchという多言語ビデオLMMベンチマークを導入した。
私たちのViMUL-Benchは、文化的に多様な8つのカテゴリを含む15のカテゴリにわたるビデオLMMを厳格にテストするために設計されています。
また、120万のサンプルからなる機械翻訳多言語ビデオトレーニングセットを導入し、ViMULというシンプルな多言語ビデオLMMを開発した。
- 参考スコア(独自算出の注目度): 92.46241980744377
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large multimodal models (LMMs) have recently gained attention due to their effectiveness to understand and generate descriptions of visual content. Most existing LMMs are in English language. While few recent works explore multilingual image LMMs, to the best of our knowledge, moving beyond the English language for cultural and linguistic inclusivity is yet to be investigated in the context of video LMMs. In pursuit of more inclusive video LMMs, we introduce a multilingual Video LMM benchmark, named ViMUL-Bench, to evaluate Video LMMs across 14 languages, including both low- and high-resource languages: English, Chinese, Spanish, French, German, Hindi, Arabic, Russian, Bengali, Urdu, Sinhala, Tamil, Swedish, and Japanese. Our ViMUL-Bench is designed to rigorously test video LMMs across 15 categories including eight culturally diverse categories, ranging from lifestyles and festivals to foods and rituals and from local landmarks to prominent cultural personalities. ViMUL-Bench comprises both open-ended (short and long-form) and multiple-choice questions spanning various video durations (short, medium, and long) with 8k samples that are manually verified by native language speakers. In addition, we also introduce a machine translated multilingual video training set comprising 1.2 million samples and develop a simple multilingual video LMM, named ViMUL, that is shown to provide a better tradeoff between high-and low-resource languages for video understanding. We hope our ViMUL-Bench and multilingual video LMM along with a large-scale multilingual video training set will help ease future research in developing cultural and linguistic inclusive multilingual video LMMs. Our proposed benchmark, video LMM and training data will be publicly released at https://mbzuai-oryx.github.io/ViMUL/.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)が近年注目されている。
既存のLMMのほとんどは英語で書かれている。
近年,多言語画像LMMを探索する研究はほとんどないが,私たちの知る限り,ビデオLMMの文脈では,文化的・言語的傾きの英語以外のものも検討されていない。
より包括的なビデオLMMを追求するために、ViMUL-Benchという多言語ビデオLMMベンチマークを導入し、低リソース言語、中国語、スペイン語、フランス語、ヒンディー語、アラビア語、ロシア語、ベンガル語、ウルドゥー語、シンハラ語、タミル語、スウェーデン語、日本語を含む14言語にわたるビデオLMMを評価する。
私たちのViMUL-Benchは、ライフスタイルや祭り、食事や儀式、地元のランドマークから文化的個性まで、文化的に多様な8つのカテゴリを含む15のカテゴリにわたるビデオLMMを厳格にテストするように設計されています。
ViMUL-Benchは、様々なビデオ時間(ショート、ミディアム、ロング)にまたがるオープンエンド(ショート、ロングフォーム)とマルチチョイスの2つの質問で構成され、ネイティブ言語話者によって手動で検証される8kサンプルを含んでいる。
さらに、120万のサンプルからなる機械翻訳多言語ビデオトレーニングセットを導入し、ビデオ理解のための高解像度言語と低解像度言語とのトレードオフを改善するために、ViMULというシンプルな多言語ビデオLMMを開発した。
ViMUL-Benchと多言語ビデオLMMと、大規模な多言語ビデオトレーニングセットが、文化的および言語的包括的多言語ビデオLMMの開発における今後の研究を容易にすることを願っている。
提案したベンチマーク、ビデオLMM、トレーニングデータはhttps://mbzuai-oryx.github.io/ViMUL/で公開されます。
関連論文リスト
- All Languages Matter: Evaluating LMMs on Culturally Diverse 100 Languages [73.93600813999306]
ALM-benchは、100言語にわたるLMMを評価するための、これまでで最大かつ最も包括的な取り組みである。
様々な言語でテキストと組み合わせた文化的に多様なイメージを理解し、推論する能力をテストすることで、既存のモデルに挑戦する。
このベンチマークは、真/偽、複数選択、オープンな質問など、さまざまな質問フォーマットを備えた、堅牢でニュアンスの高い評価フレームワークを提供する。
論文 参考訳(メタデータ) (2024-11-25T15:44:42Z) - PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。
その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。
さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文 参考訳(メタデータ) (2023-07-12T09:00:37Z) - Youku-mPLUG: A 10 Million Large-scale Chinese Video-Language Dataset for
Pre-training and Benchmarks [63.09588102724274]
中国最大の高品質ビデオ言語データセットであるYouku-mPLUGをリリースする。
Youku-mPLUGには、大規模な事前トレーニングのための45のさまざまなカテゴリにわたる4億の生のビデオからフィルタリングされた1000万の中国製ビデオテキストペアが含まれている。
我々は、クロスモーダル検索、ビデオキャプション、ビデオカテゴリ分類の3つの一般的なビデオ言語タスクをカバーする、人手による最大のベンチマークを構築した。
論文 参考訳(メタデータ) (2023-06-07T11:52:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。