論文の概要: JMMMU: A Japanese Massive Multi-discipline Multimodal Understanding Benchmark for Culture-aware Evaluation
- arxiv url: http://arxiv.org/abs/2410.17250v1
- Date: Tue, 22 Oct 2024 17:59:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-23 14:30:52.041141
- Title: JMMMU: A Japanese Massive Multi-discipline Multimodal Understanding Benchmark for Culture-aware Evaluation
- Title(参考訳): JMMMU:文化認識評価のための大規模マルチディシプリッドマルチモーダル理解ベンチマーク
- Authors: Shota Onohara, Atsuyuki Miyai, Yuki Imajuku, Kazuki Egashira, Jeonghun Baek, Xiang Yue, Graham Neubig, Kiyoharu Aizawa,
- Abstract要約: JMMMU(JMMMU、日本語MMMU)は、日本の文化状況に基づいて、専門家レベルのタスクでLMMを評価するために設計された、日本初の大規模ベンチマークである。
CAサブセットを用いて、日本語で評価すると、多くのLMMのパフォーマンス低下が観察される。
両サブセットを組み合わせることで,一部のLMMはCAサブセットでは良好に機能するが,CSサブセットでは機能しないことが明らかとなり,文化的理解の深みに欠ける日本語の理解が浅かった。
- 参考スコア(独自算出の注目度): 63.83457341009046
- License:
- Abstract: Accelerating research on Large Multimodal Models (LMMs) in non-English languages is crucial for enhancing user experiences across broader populations. In this paper, we introduce JMMMU (Japanese MMMU), the first large-scale Japanese benchmark designed to evaluate LMMs on expert-level tasks based on the Japanese cultural context. To facilitate comprehensive culture-aware evaluation, JMMMU features two complementary subsets: (i) culture-agnostic (CA) subset, where the culture-independent subjects (e.g., Math) are selected and translated into Japanese, enabling one-to-one comparison with its English counterpart MMMU; and (ii) culture-specific (CS) subset, comprising newly crafted subjects that reflect Japanese cultural context. Using the CA subset, we observe performance drop in many LMMs when evaluated in Japanese, which is purely attributable to language variation. Using the CS subset, we reveal their inadequate Japanese cultural understanding. Further, by combining both subsets, we identify that some LMMs perform well on the CA subset but not on the CS subset, exposing a shallow understanding of the Japanese language that lacks depth in cultural understanding. We hope this work will not only help advance LMM performance in Japanese but also serve as a guideline to create high-standard, culturally diverse benchmarks for multilingual LMM development. The project page is https://mmmu-japanese-benchmark.github.io/JMMMU/.
- Abstract(参考訳): 非英語言語におけるLMM(Large Multimodal Models)の加速研究は、より広い人口にわたるユーザエクスペリエンス向上に不可欠である。
本稿では,日本の文化状況に基づいて,専門家レベルのタスクにおいてLMMを評価するために設計された,最初の大規模日本語ベンチマークであるJMMMU(日本語MMMU)を紹介する。
総合的な文化認識評価を容易にするため、JMMMUは2つの補完的なサブセットを備えている。
一 文化非依存の科目(例えば、数学)を選択して日本語に翻訳し、英語のMMMUと一対一の比較を可能にするカルチャー非依存サブセット
(二)日本文化の文脈を反映した新しい工芸科目からなる文化特化(CS)サブセット。
CAサブセットを用いて、日本語で評価すると、多くのLMMのパフォーマンス低下が観察される。
CSサブセットを用いて,日本文化の理解が不十分であることを明らかにする。
さらに,両サブセットを組み合わせることで,一部のLMMはCAサブセットでは良好に機能するが,CSサブセットでは機能しないことが明らかとなり,文化理解の深みに欠ける日本語の理解が浅かった。
本研究は,日本語のLMM向上に寄与するだけでなく,多言語LMM開発のための高度で文化的に多様なベンチマークを作成するための指針となることを期待する。
プロジェクトページはhttps://mmmu-japanese-benchmark.github.io/JMMMU/。
関連論文リスト
- Translating Across Cultures: LLMs for Intralingual Cultural Adaptation [12.5954253354303]
文化適応の課題を定義し,現代LLMの性能を評価するための評価枠組みを構築した。
我々は、自動適応で起こりうる問題を解析する。
本稿は, LLMの文化的理解と, 異文化のシナリオにおける創造性について, より深い知見を提供していくことを願っている。
論文 参考訳(メタデータ) (2024-06-20T17:06:58Z) - The Echoes of Multilinguality: Tracing Cultural Value Shifts during LM Fine-tuning [23.418656688405605]
本研究では, 異なるテスト言語で符号化された文化的価値に言語がどのように影響するかを, 微調整時にどのように修正されるかを検討する。
最後に、トレーニングデータ属性法を用いて、微調整の例やそれらが生み出す言語にパターンを見つける。
論文 参考訳(メタデータ) (2024-05-21T12:55:15Z) - Understanding the Capabilities and Limitations of Large Language Models for Cultural Commonsense [98.09670425244462]
大規模言語モデル(LLM)は、かなりの常識的理解を示している。
本稿では,文化的コモンセンスタスクの文脈におけるいくつかの最先端LCMの能力と限界について検討する。
論文 参考訳(メタデータ) (2024-05-07T20:28:34Z) - MLaKE: Multilingual Knowledge Editing Benchmark for Large Language Models [65.10456412127405]
MLaKEは5言語にわたる知識編集手法の適応性のベンチマークである。
MLaKEは、ウィキペディアから言語にまたがるファクトチェーンを集約し、フリーフォームとマルチチョイスの両方で質問を生成する。
MLaKEにおける既存手法の多言語知識編集の一般化能力を評価する。
論文 参考訳(メタデータ) (2024-04-07T15:23:28Z) - CMMMU: A Chinese Massive Multi-discipline Multimodal Understanding Benchmark [53.24896036161829]
大学レベルの教科知識と意図的推論を必要とするタスクにおいて,LMMを評価するために設計された,中国の大規模多分野マルチモーダル理解ベンチマークを導入する。
CMMMUは、大学試験、クイズ、教科書から12kの質問を手作業で収集し、アート・アンド・デザイン、ビジネス、サイエンス、ヘルス・アンド・メディカル、ヒューマニティ・アンド・ソーシャル・サイエンス、テック・アンド・エンジニアリングの6つの中核分野をカバーしている。
CMMMUは、中国語の文脈における複雑な認識とドメイン固有の知識による推論に焦点を当てている。
論文 参考訳(メタデータ) (2024-01-22T13:34:34Z) - Multilingual Sentence-Level Semantic Search using Meta-Distillation
Learning [73.69884850632431]
多言語セマンティックサーチは モノリンガルやバイリンガルよりも 探究も困難です
我々は,MAML-Align,特に低リソースシナリオに対するアライメントアプローチを提案する。
以上の結果から, メタ蒸留法によりMAMLの利得が向上し, ナイーブ微調整法よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-09-15T06:22:37Z) - BHASA: A Holistic Southeast Asian Linguistic and Cultural Evaluation
Suite for Large Language Models [0.06597195879147556]
BHASA (英語: BHASA) は、東南アジアにおける大規模言語モデル(LLM)のための総合言語・文化評価スイートである。
1)自然言語理解(NLU)、生成(NLG)、推論(NLR)の8つのタスクをカバーするNLPベンチマーク,(2)LINDSEA, 構文, 意味学, 実用学などの言語現象を網羅する言語診断ツールキット, (3) 文化的表現と感受性の両方を探索する文化的診断データセットである。
論文 参考訳(メタデータ) (2023-09-12T09:31:25Z) - CMMLU: Measuring massive multitask language understanding in Chinese [133.70911295934746]
本稿では, 自然科学, 社会科学, 工学, 人文科学など, さまざまな分野をカバーする総合的な中国のベンチマークを紹介する。
CMMLUは、中国語の文脈における大きな言語モデルの知識と推論能力の評価におけるギャップを埋める。
論文 参考訳(メタデータ) (2023-06-15T15:49:51Z) - Linguistically-driven Multi-task Pre-training for Low-resource Neural
Machine Translation [31.225252462128626]
本稿では,日本語を母語とする言語対に対する日本語固有のシーケンス to sequence (JASS) と,英語を含む言語対に対する英語固有のシーケンス to sequence (ENSS) を提案する。
JASSは文節(ぶんせつ)として知られる日本語単位のマスキングとリオーダーに重点を置いており、ENSSは句構造マスキングとリオーダータスクに基づいて提案されている。
論文 参考訳(メタデータ) (2022-01-20T09:10:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。