論文の概要: Evaluating Cultural Awareness of LLMs for Yoruba, Malayalam, and English
- arxiv url: http://arxiv.org/abs/2410.01811v1
- Date: Sat, 14 Sep 2024 02:21:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 15:04:32.131906
- Title: Evaluating Cultural Awareness of LLMs for Yoruba, Malayalam, and English
- Title(参考訳): ヨルバ・マラヤラム・英語におけるLLMの文化的意識評価
- Authors: Fiifi Dawson, Zainab Mosunmola, Sahil Pocker, Raj Abhijit Dandekar, Rajat Dandekar, Sreedath Panat,
- Abstract要約: マラヤラム(インド・ケララ州)とヨルバ(西アフリカ)の2つの地域言語の文化的側面を理解するための様々なLLMの能力について検討する。
LLMは英語に高い文化的類似性を示すが、マラヤラムとヨルバの6つの指標にまたがる文化的ニュアンスを捉えられなかった。
このことは、チャットベースのLLMのユーザエクスペリエンスの向上や、大規模LLMエージェントベースの市場調査の妥当性向上に大きく影響する。
- 参考スコア(独自算出の注目度): 1.3359598694842185
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although LLMs have been extremely effective in a large number of complex tasks, their understanding and functionality for regional languages and cultures are not well studied. In this paper, we explore the ability of various LLMs to comprehend the cultural aspects of two regional languages: Malayalam (state of Kerala, India) and Yoruba (West Africa). Using Hofstede's six cultural dimensions: Power Distance (PDI), Individualism (IDV), Motivation towards Achievement and Success (MAS), Uncertainty Avoidance (UAV), Long Term Orientation (LTO), and Indulgence (IVR), we quantify the cultural awareness of LLM-based responses. We demonstrate that although LLMs show a high cultural similarity for English, they fail to capture the cultural nuances across these 6 metrics for Malayalam and Yoruba. We also highlight the need for large-scale regional language LLM training with culturally enriched datasets. This will have huge implications for enhancing the user experience of chat-based LLMs and also improving the validity of large-scale LLM agent-based market research.
- Abstract(参考訳): LLMは、多くの複雑なタスクにおいて非常に効果的であるが、地域言語や文化に対する理解と機能はあまり研究されていない。
本稿では,マラヤラム (インド・ケララ州) とヨルバ (西アフリカ) の2つの地域言語における文化的側面を理解するための様々なLLMの能力について考察する。
ホフステデの文化的側面として、パワーディスタンス(PDI)、パーソナリズム(IDV)、達成と成功へのモチベーション(MAS)、不確実性回避(UAV)、長期指向(LTO)、インデュアランス(IVR)の6つを用いて、LCMに基づく応答の文化的認識を定量化する。
LLMは英語に高い文化的類似性を示すが、マラヤラムとヨルバの6つの指標にまたがる文化的ニュアンスを捉えられなかった。
また、文化的に豊かなデータセットを用いた大規模地域言語LLMトレーニングの必要性を強調した。
このことは、チャットベースのLLMのユーザエクスペリエンスの向上や、大規模LLMエージェントベースの市場調査の妥当性向上に大きく影響する。
関連論文リスト
- All Languages Matter: Evaluating LMMs on Culturally Diverse 100 Languages [73.93600813999306]
ALM-benchは、100言語にわたるLMMを評価するための、これまでで最大かつ最も包括的な取り組みである。
様々な言語でテキストと組み合わせた文化的に多様なイメージを理解し、推論する能力をテストすることで、既存のモデルに挑戦する。
このベンチマークは、真/偽、複数選択、オープンな質問など、さまざまな質問フォーマットを備えた、堅牢でニュアンスの高い評価フレームワークを提供する。
論文 参考訳(メタデータ) (2024-11-25T15:44:42Z) - Survey of Cultural Awareness in Language Models: Text and Beyond [39.77033652289063]
大規模言語モデル(LLM)を様々なアプリケーションに大規模に展開するには、LCMはインクリビティを確保するために、ユーザに文化的に敏感である必要がある。
文化は心理学や人類学で広く研究され、近年、LLMをより文化的に包括的にする研究が急増している。
論文 参考訳(メタデータ) (2024-10-30T16:37:50Z) - Arabic Dataset for LLM Safeguard Evaluation [62.96160492994489]
本研究では,アラビア語における大言語モデル(LLM)の安全性と,その言語的・文化的複雑さについて考察する。
本稿では, 直接攻撃, 間接攻撃, センシティブな単語による無害な要求を含む5,799の質問からなるアラブ地域固有の安全評価データセットを提案する。
論文 参考訳(メタデータ) (2024-10-22T14:12:43Z) - Translating Across Cultures: LLMs for Intralingual Cultural Adaptation [12.5954253354303]
文化適応の課題を定義し,現代LLMの性能を評価するための評価枠組みを構築した。
我々は、自動適応で起こりうる問題を解析する。
本稿は, LLMの文化的理解と, 異文化のシナリオにおける創造性について, より深い知見を提供していくことを願っている。
論文 参考訳(メタデータ) (2024-06-20T17:06:58Z) - Understanding the Capabilities and Limitations of Large Language Models for Cultural Commonsense [98.09670425244462]
大規模言語モデル(LLM)は、かなりの常識的理解を示している。
本稿では,文化的コモンセンスタスクの文脈におけるいくつかの最先端LCMの能力と限界について検討する。
論文 参考訳(メタデータ) (2024-05-07T20:28:34Z) - CULTURE-GEN: Revealing Global Cultural Perception in Language Models through Natural Language Prompting [73.94059188347582]
110か国・地域での3つのSOTAモデルの文化認識を,文化条件付き世代を通して8つの文化関連トピックについて明らかにした。
文化条件付き世代は、デフォルトの文化と区別される余分な文化を区別する言語的な「マーカー」から成り立っていることが判明した。
論文 参考訳(メタデータ) (2024-04-16T00:50:43Z) - Does Mapo Tofu Contain Coffee? Probing LLMs for Food-related Cultural Knowledge [47.57055368312541]
FmLAMA(FmLAMA)は、食品関連の文化的事実と食実践のバリエーションに着目した多言語データセットである。
我々は,LLMを様々なアーキテクチャや構成にわたって分析し,その性能を単言語と多言語の両方で評価する。
論文 参考訳(メタデータ) (2024-04-10T08:49:27Z) - CulturalTeaming: AI-Assisted Interactive Red-Teaming for Challenging LLMs' (Lack of) Multicultural Knowledge [69.82940934994333]
我々は、人間とAIのコラボレーションを活用して、挑戦的な評価データセットを構築するインタラクティブなレッドチームシステムであるCulturalTeamingを紹介する。
我々の研究は、CulturalTeamingの様々なAI支援モードが、文化的な質問の作成においてアノテータを支援することを明らかにした。
CULTURALBENCH-V0.1は、ユーザのリピートの試みにより、コンパクトだが高品質な評価データセットである。
論文 参考訳(メタデータ) (2024-04-10T00:25:09Z) - CDEval: A Benchmark for Measuring the Cultural Dimensions of Large Language Models [41.885600036131045]
CDEvalは、大規模言語モデルの文化的側面を評価するためのベンチマークである。
GPT-4の自動生成と人間による検証の両方を取り入れて構築され、7つの領域にわたる6つの文化的次元をカバーする。
論文 参考訳(メタデータ) (2023-11-28T02:01:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。