論文の概要: Unveiling Cultural Blind Spots: Analyzing the Limitations of mLLMs in Procedural Text Comprehension
- arxiv url: http://arxiv.org/abs/2502.14315v1
- Date: Thu, 20 Feb 2025 07:01:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 22:18:11.54864
- Title: Unveiling Cultural Blind Spots: Analyzing the Limitations of mLLMs in Procedural Text Comprehension
- Title(参考訳): 文化的盲点の解明 : 手続き的テキスト理解におけるmLLMの限界の分析
- Authors: Amir Hossein Yari, Fajri Koto,
- Abstract要約: 我々は,mLLMsの文化的に多様な手続き的テキストの処理と推論能力を評価するためのベンチマークであるCAPTexを紹介する。
以上の結果から,mLLMsは文化的に文脈化された手続き文の難易度に直面することが示唆された。
多様な言語・文化の景観にまたがる適応性と理解を高めるため、CAPTexのような文化的に意識されたベンチマークの必要性を強調した。
- 参考スコア(独自算出の注目度): 6.0422282033999135
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Despite the impressive performance of multilingual large language models (mLLMs) in various natural language processing tasks, their ability to understand procedural texts, particularly those with culture-specific content, remains largely unexplored. Texts describing cultural procedures, including rituals, traditional craftsmanship, and social etiquette, require an inherent understanding of cultural context, presenting a significant challenge for mLLMs. In this work, we introduce CAPTex, a benchmark designed to evaluate mLLMs' ability to process and reason about culturally diverse procedural texts across multiple languages using various methodologies to assess their performance. Our findings indicate that (1) mLLMs face difficulties with culturally contextualized procedural texts, showing notable performance declines in low-resource languages, (2) model performance fluctuates across cultural domains, with some areas presenting greater difficulties, and (3) language models exhibit better performance on multiple-choice tasks within conversational frameworks compared to direct questioning. These results underscore the current limitations of mLLMs in handling culturally nuanced procedural texts and highlight the need for culturally aware benchmarks like CAPTex to enhance their adaptability and comprehension across diverse linguistic and cultural landscapes.
- Abstract(参考訳): 様々な自然言語処理タスクにおける多言語大言語モデル(mLLM)の印象的なパフォーマンスにもかかわらず、プロシージャテキスト、特に文化固有のコンテンツを理解する能力はほとんど解明されていない。
儀式、伝統工芸、社会儀礼など、文化的な手続きを記述する文章は、文化的な文脈について固有の理解を必要とし、mLLMにとって重要な課題を提示する。
本研究では,様々な手法を用いて複数の言語にまたがる多種多様な手続き的テキストの処理と推論を行うmLLMsの能力を評価するためのベンチマークであるCAPTexを紹介する。
その結果,(1)mLLMsは,低リソース言語における顕著なパフォーマンス低下,(2)文化ドメイン全体でのモデル性能の変動,(3)言語モデルは,直接質問よりも会話の枠組み内でのマルチチョイスタスクにおいて,より優れたパフォーマンスを示すことが示唆された。
これらの結果は、文化的に曖昧な手続きテキストを扱う mLLMs の現在の限界を浮き彫りにして、多様な言語的・文化的景観にまたがる適応性と理解を高めるために、CAPTex のような文化的に意識されたベンチマークの必要性を強調している。
関連論文リスト
- MyCulture: Exploring Malaysia's Diverse Culture under Low-Resource Language Constraints [7.822567458977689]
MyCultureは、マレーシアの文化に関する大規模言語モデル(LLM)を総合的に評価するために設計されたベンチマークである。
従来のベンチマークとは異なり、MyCultureは未定義のオプションなしで、新しいオープンエンドの複数選択質問フォーマットを採用している。
構造化された出力と自由形式出力のモデル性能を比較して構造バイアスを解析し、多言語的プロンプト変動による言語バイアスを評価する。
論文 参考訳(メタデータ) (2025-08-07T14:17:43Z) - MCEval: A Dynamic Framework for Fair Multilingual Cultural Evaluation of LLMs [25.128936333806678]
大規模な言語モデルは、文化的バイアスと限定的な文化的理解能力を示す。
動的文化的質問構築を用いた多言語評価フレームワークであるMCEvalを提案する。
論文 参考訳(メタデータ) (2025-07-13T16:24:35Z) - MAKIEval: A Multilingual Automatic WiKidata-based Framework for Cultural Awareness Evaluation for LLMs [26.806566827956875]
MAKIEvalは、大規模言語モデルにおける文化的認識を評価するための自動多言語フレームワークである。
モデル出力における文化的実体を自動的に識別し、構造化された知識にリンクする。
オープンソースのシステムとプロプライエタリシステムの両方を対象とする,世界のさまざまな場所で開発された7つのLLMを評価した。
論文 参考訳(メタデータ) (2025-05-27T19:29:40Z) - CulFiT: A Fine-grained Cultural-aware LLM Training Paradigm via Multilingual Critique Data Synthesis [41.261808170896686]
CulFiTは、多言語データと微粒な報酬モデリングを利用して、文化的感受性と傾きを高める新しいトレーニングパラダイムである。
本手法は,文化関連諸質問を合成し,文化関連言語における批判データを構築し,文化文献を検証可能な知識単位に分解するために,きめ細かい報酬を用いる。
論文 参考訳(メタデータ) (2025-05-26T04:08:26Z) - From Word to World: Evaluate and Mitigate Culture Bias via Word Association Test [48.623761108859085]
我々は,人中心語関連テスト(WAT)を拡張し,異文化間認知による大規模言語モデルのアライメントを評価する。
文化選好を緩和するために,カルチャー対応のステアリング機構を統合する革新的なアプローチであるCultureSteerを提案する。
論文 参考訳(メタデータ) (2025-05-24T07:05:10Z) - TCC-Bench: Benchmarking the Traditional Chinese Culture Understanding Capabilities of MLLMs [13.069833806549914]
中国伝統文化理解ベンチマーク(TCC-Bench)を提案する。
TCC-Benchは、文化的に豊かで視覚的に多様なデータで構成されており、博物館の工芸品、日常の生活シーン、漫画、その他の文化的に重要な文脈の画像が組み込まれている。
テキストのみのモードでGPT-4oを利用する半自動パイプラインを採用し、候補問題を生成し、続いて人間によるキュレーションを行い、データ品質を保証し、潜在的なデータ漏洩を回避する。
論文 参考訳(メタデータ) (2025-05-16T14:10:41Z) - CAReDiO: Cultural Alignment of LLM via Representativeness and Distinctiveness Guided Data Optimization [50.90288681622152]
大規模言語モデル(LLM)は、より深く様々な地域における人間の生活に統合される。
既存のアプローチは、文化固有のコーパスを微調整することで、文化的に整合したLCMを開発する。
本稿では,新しい文化データ構築フレームワークであるCAReDiOを紹介する。
論文 参考訳(メタデータ) (2025-04-09T13:40:13Z) - Fùxì: A Benchmark for Evaluating Language Models on Ancient Chinese Text Understanding and Generation [20.87296508045343]
我々は21種類のタスクに対する理解と生成の両方の能力を評価する総合的なベンチマークであるFuxiを紹介する。
我々は,理解タスクと生成タスクの間に大きなパフォーマンスギャップを生じさせ,モデルが有望な結果を得るためには理解が難しいが,生成タスクではかなり苦労する。
本研究は,古代中国のテキスト処理における現状の限界に注目し,今後のモデル開発への洞察を提供するものである。
論文 参考訳(メタデータ) (2025-03-20T04:26:40Z) - Extracting and Emulsifying Cultural Explanation to Improve Multilingual Capability of LLMs [8.97780713904412]
大規模言語モデル(LLM)は目覚ましい成功を収めているが、英語中心のトレーニングデータでは英語以外の言語のパフォーマンスが制限されている。
より正確かつ適切な応答に文化コンテキストを組み込むことで,LLMの多言語機能を改善する,シンプルかつ効果的なアプローチであるEMCEIを提案する。
論文 参考訳(メタデータ) (2025-03-07T06:05:34Z) - All Languages Matter: Evaluating LMMs on Culturally Diverse 100 Languages [73.93600813999306]
ALM-benchは、100言語にわたるLMMを評価するための、これまでで最大かつ最も包括的な取り組みである。
様々な言語でテキストと組み合わせた文化的に多様なイメージを理解し、推論する能力をテストすることで、既存のモデルに挑戦する。
このベンチマークは、真/偽、複数選択、オープンな質問など、さまざまな質問フォーマットを備えた、堅牢でニュアンスの高い評価フレームワークを提供する。
論文 参考訳(メタデータ) (2024-11-25T15:44:42Z) - Methodology of Adapting Large English Language Models for Specific Cultural Contexts [10.151487049108626]
本稿では,特定の文化的文脈における大規模モデルの迅速な適応手法を提案する。
適応LLMは、ドメイン固有の知識と安全性値への適応性において、その能力を著しく向上させる。
論文 参考訳(メタデータ) (2024-06-26T09:16:08Z) - Extrinsic Evaluation of Cultural Competence in Large Language Models [53.626808086522985]
本稿では,2つのテキスト生成タスクにおける文化能力の評価に焦点をあてる。
我々は,文化,特に国籍の明示的なキューが,そのプロンプトに乱入している場合のモデル出力を評価する。
異なる国におけるアウトプットのテキスト類似性とこれらの国の文化的価値との間には弱い相関関係がある。
論文 参考訳(メタデータ) (2024-06-17T14:03:27Z) - Understanding the Capabilities and Limitations of Large Language Models for Cultural Commonsense [98.09670425244462]
大規模言語モデル(LLM)は、かなりの常識的理解を示している。
本稿では,文化的コモンセンスタスクの文脈におけるいくつかの最先端LCMの能力と限界について検討する。
論文 参考訳(メタデータ) (2024-05-07T20:28:34Z) - Massively Multi-Cultural Knowledge Acquisition & LM Benchmarking [48.21982147529661]
本稿では,多文化知識獲得のための新しいアプローチを提案する。
本手法は,文化トピックに関するウィキペディア文書からリンクページの広範囲なネットワークへ戦略的にナビゲートする。
私たちの仕事は、AIにおける文化的格差のギャップを深く理解し、橋渡しするための重要なステップです。
論文 参考訳(メタデータ) (2024-02-14T18:16:54Z) - Benchmarking Machine Translation with Cultural Awareness [50.183458829028226]
文化関連コンテンツの翻訳は、効果的な異文化間コミュニケーションに不可欠である。
多くの文化特化項目(CSI)は言語間の翻訳を欠いていることが多い。
この難しさは機械翻訳システムの文化的意識の分析を妨げる。
論文 参考訳(メタデータ) (2023-05-23T17:56:33Z) - EnCBP: A New Benchmark Dataset for Finer-Grained Cultural Background
Prediction in English [25.38572483508948]
文化的背景を持つ自然言語処理モデルを拡張した。
英語を話す5カ国と米国の4州で、言語表現に顕著な違いがあることが示されている。
本研究は,多種多様なNLPタスクに対する文化的背景モデリングの重要性を裏付け,文化関連研究におけるEnCBPの適用性を示すものである。
論文 参考訳(メタデータ) (2022-03-28T04:57:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。