論文の概要: Unveiling Cultural Blind Spots: Analyzing the Limitations of mLLMs in Procedural Text Comprehension
- arxiv url: http://arxiv.org/abs/2502.14315v1
- Date: Thu, 20 Feb 2025 07:01:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 22:18:11.54864
- Title: Unveiling Cultural Blind Spots: Analyzing the Limitations of mLLMs in Procedural Text Comprehension
- Title(参考訳): 文化的盲点の解明 : 手続き的テキスト理解におけるmLLMの限界の分析
- Authors: Amir Hossein Yari, Fajri Koto,
- Abstract要約: 我々は,mLLMsの文化的に多様な手続き的テキストの処理と推論能力を評価するためのベンチマークであるCAPTexを紹介する。
以上の結果から,mLLMsは文化的に文脈化された手続き文の難易度に直面することが示唆された。
多様な言語・文化の景観にまたがる適応性と理解を高めるため、CAPTexのような文化的に意識されたベンチマークの必要性を強調した。
- 参考スコア(独自算出の注目度): 6.0422282033999135
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Despite the impressive performance of multilingual large language models (mLLMs) in various natural language processing tasks, their ability to understand procedural texts, particularly those with culture-specific content, remains largely unexplored. Texts describing cultural procedures, including rituals, traditional craftsmanship, and social etiquette, require an inherent understanding of cultural context, presenting a significant challenge for mLLMs. In this work, we introduce CAPTex, a benchmark designed to evaluate mLLMs' ability to process and reason about culturally diverse procedural texts across multiple languages using various methodologies to assess their performance. Our findings indicate that (1) mLLMs face difficulties with culturally contextualized procedural texts, showing notable performance declines in low-resource languages, (2) model performance fluctuates across cultural domains, with some areas presenting greater difficulties, and (3) language models exhibit better performance on multiple-choice tasks within conversational frameworks compared to direct questioning. These results underscore the current limitations of mLLMs in handling culturally nuanced procedural texts and highlight the need for culturally aware benchmarks like CAPTex to enhance their adaptability and comprehension across diverse linguistic and cultural landscapes.
- Abstract(参考訳): 様々な自然言語処理タスクにおける多言語大言語モデル(mLLM)の印象的なパフォーマンスにもかかわらず、プロシージャテキスト、特に文化固有のコンテンツを理解する能力はほとんど解明されていない。
儀式、伝統工芸、社会儀礼など、文化的な手続きを記述する文章は、文化的な文脈について固有の理解を必要とし、mLLMにとって重要な課題を提示する。
本研究では,様々な手法を用いて複数の言語にまたがる多種多様な手続き的テキストの処理と推論を行うmLLMsの能力を評価するためのベンチマークであるCAPTexを紹介する。
その結果,(1)mLLMsは,低リソース言語における顕著なパフォーマンス低下,(2)文化ドメイン全体でのモデル性能の変動,(3)言語モデルは,直接質問よりも会話の枠組み内でのマルチチョイスタスクにおいて,より優れたパフォーマンスを示すことが示唆された。
これらの結果は、文化的に曖昧な手続きテキストを扱う mLLMs の現在の限界を浮き彫りにして、多様な言語的・文化的景観にまたがる適応性と理解を高めるために、CAPTex のような文化的に意識されたベンチマークの必要性を強調している。
関連論文リスト
- CAReDiO: Cultural Alignment of LLM via Representativeness and Distinctiveness Guided Data Optimization [50.90288681622152]
大規模言語モデル(LLM)は、より深く様々な地域における人間の生活に統合される。
既存のアプローチは、文化固有のコーパスを微調整することで、文化的に整合したLCMを開発する。
本稿では,新しい文化データ構築フレームワークであるCAReDiOを紹介する。
論文 参考訳(メタデータ) (2025-04-09T13:40:13Z) - Fùxì: A Benchmark for Evaluating Language Models on Ancient Chinese Text Understanding and Generation [20.87296508045343]
我々は21種類のタスクに対する理解と生成の両方の能力を評価する総合的なベンチマークであるFuxiを紹介する。
我々は,理解タスクと生成タスクの間に大きなパフォーマンスギャップを生じさせ,モデルが有望な結果を得るためには理解が難しいが,生成タスクではかなり苦労する。
本研究は,古代中国のテキスト処理における現状の限界に注目し,今後のモデル開発への洞察を提供するものである。
論文 参考訳(メタデータ) (2025-03-20T04:26:40Z) - Extracting and Emulsifying Cultural Explanation to Improve Multilingual Capability of LLMs [8.97780713904412]
大規模言語モデル(LLM)は目覚ましい成功を収めているが、英語中心のトレーニングデータでは英語以外の言語のパフォーマンスが制限されている。
より正確かつ適切な応答に文化コンテキストを組み込むことで,LLMの多言語機能を改善する,シンプルかつ効果的なアプローチであるEMCEIを提案する。
論文 参考訳(メタデータ) (2025-03-07T06:05:34Z) - All Languages Matter: Evaluating LMMs on Culturally Diverse 100 Languages [73.93600813999306]
ALM-benchは、100言語にわたるLMMを評価するための、これまでで最大かつ最も包括的な取り組みである。
様々な言語でテキストと組み合わせた文化的に多様なイメージを理解し、推論する能力をテストすることで、既存のモデルに挑戦する。
このベンチマークは、真/偽、複数選択、オープンな質問など、さまざまな質問フォーマットを備えた、堅牢でニュアンスの高い評価フレームワークを提供する。
論文 参考訳(メタデータ) (2024-11-25T15:44:42Z) - Methodology of Adapting Large English Language Models for Specific Cultural Contexts [10.151487049108626]
本稿では,特定の文化的文脈における大規模モデルの迅速な適応手法を提案する。
適応LLMは、ドメイン固有の知識と安全性値への適応性において、その能力を著しく向上させる。
論文 参考訳(メタデータ) (2024-06-26T09:16:08Z) - Extrinsic Evaluation of Cultural Competence in Large Language Models [53.626808086522985]
本稿では,2つのテキスト生成タスクにおける文化能力の評価に焦点をあてる。
我々は,文化,特に国籍の明示的なキューが,そのプロンプトに乱入している場合のモデル出力を評価する。
異なる国におけるアウトプットのテキスト類似性とこれらの国の文化的価値との間には弱い相関関係がある。
論文 参考訳(メタデータ) (2024-06-17T14:03:27Z) - Understanding the Capabilities and Limitations of Large Language Models for Cultural Commonsense [98.09670425244462]
大規模言語モデル(LLM)は、かなりの常識的理解を示している。
本稿では,文化的コモンセンスタスクの文脈におけるいくつかの最先端LCMの能力と限界について検討する。
論文 参考訳(メタデータ) (2024-05-07T20:28:34Z) - Massively Multi-Cultural Knowledge Acquisition & LM Benchmarking [48.21982147529661]
本稿では,多文化知識獲得のための新しいアプローチを提案する。
本手法は,文化トピックに関するウィキペディア文書からリンクページの広範囲なネットワークへ戦略的にナビゲートする。
私たちの仕事は、AIにおける文化的格差のギャップを深く理解し、橋渡しするための重要なステップです。
論文 参考訳(メタデータ) (2024-02-14T18:16:54Z) - Benchmarking Machine Translation with Cultural Awareness [50.183458829028226]
文化関連コンテンツの翻訳は、効果的な異文化間コミュニケーションに不可欠である。
多くの文化特化項目(CSI)は言語間の翻訳を欠いていることが多い。
この難しさは機械翻訳システムの文化的意識の分析を妨げる。
論文 参考訳(メタデータ) (2023-05-23T17:56:33Z) - EnCBP: A New Benchmark Dataset for Finer-Grained Cultural Background
Prediction in English [25.38572483508948]
文化的背景を持つ自然言語処理モデルを拡張した。
英語を話す5カ国と米国の4州で、言語表現に顕著な違いがあることが示されている。
本研究は,多種多様なNLPタスクに対する文化的背景モデリングの重要性を裏付け,文化関連研究におけるEnCBPの適用性を示すものである。
論文 参考訳(メタデータ) (2022-03-28T04:57:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。