Fugu-MT 論文翻訳(概要): Evaluating Cultural Awareness of LLMs for Yoruba, Malayalam, and English

論文の概要: Evaluating Cultural Awareness of LLMs for Yoruba, Malayalam, and English

arxiv url: http://arxiv.org/abs/2410.01811v1
Date: Sat, 14 Sep 2024 02:21:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-04 15:04:32.131906
Title: Evaluating Cultural Awareness of LLMs for Yoruba, Malayalam, and English
Title（参考訳）: ヨルバ・マラヤラム・英語におけるLLMの文化的意識評価
Authors: Fiifi Dawson, Zainab Mosunmola, Sahil Pocker, Raj Abhijit Dandekar, Rajat Dandekar, Sreedath Panat,
Abstract要約: マラヤラム(インド・ケララ州)とヨルバ(西アフリカ)の2つの地域言語の文化的側面を理解するための様々なLLMの能力について検討する。 LLMは英語に高い文化的類似性を示すが、マラヤラムとヨルバの6つの指標にまたがる文化的ニュアンスを捉えられなかった。このことは、チャットベースのLLMのユーザエクスペリエンスの向上や、大規模LLMエージェントベースの市場調査の妥当性向上に大きく影響する。
参考スコア（独自算出の注目度）: 1.3359598694842185
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Although LLMs have been extremely effective in a large number of complex tasks, their understanding and functionality for regional languages and cultures are not well studied. In this paper, we explore the ability of various LLMs to comprehend the cultural aspects of two regional languages: Malayalam (state of Kerala, India) and Yoruba (West Africa). Using Hofstede's six cultural dimensions: Power Distance (PDI), Individualism (IDV), Motivation towards Achievement and Success (MAS), Uncertainty Avoidance (UAV), Long Term Orientation (LTO), and Indulgence (IVR), we quantify the cultural awareness of LLM-based responses. We demonstrate that although LLMs show a high cultural similarity for English, they fail to capture the cultural nuances across these 6 metrics for Malayalam and Yoruba. We also highlight the need for large-scale regional language LLM training with culturally enriched datasets. This will have huge implications for enhancing the user experience of chat-based LLMs and also improving the validity of large-scale LLM agent-based market research.
Abstract（参考訳）: LLMは、多くの複雑なタスクにおいて非常に効果的であるが、地域言語や文化に対する理解と機能はあまり研究されていない。本稿では,マラヤラム (インド・ケララ州) とヨルバ (西アフリカ) の2つの地域言語における文化的側面を理解するための様々なLLMの能力について考察する。ホフステデの文化的側面として、パワーディスタンス(PDI)、パーソナリズム(IDV)、達成と成功へのモチベーション(MAS)、不確実性回避(UAV)、長期指向(LTO)、インデュアランス(IVR)の6つを用いて、LCMに基づく応答の文化的認識を定量化する。 LLMは英語に高い文化的類似性を示すが、マラヤラムとヨルバの6つの指標にまたがる文化的ニュアンスを捉えられなかった。また、文化的に豊かなデータセットを用いた大規模地域言語LLMトレーニングの必要性を強調した。このことは、チャットベースのLLMのユーザエクスペリエンスの向上や、大規模LLMエージェントベースの市場調査の妥当性向上に大きく影響する。

関連論文リスト

LLMs as Cultural Archives: Cultural Commonsense Knowledge Graph Extraction [57.23766971626989]
大規模言語モデル(LLM)は、多様なWebスケールデータから学んだ豊富な文化的知識を符号化する。文化常識知識グラフ(CCKG)構築のための反復的,即時的枠組みを提案する。対象文化が英語ではない場合でも、文化知識グラフは英語でよりよく認識されている。
論文参考訳（メタデータ） (2026-01-25T20:05:04Z)
Camellia: Benchmarking Cultural Biases in LLMs for Asian Languages [46.3747338016989]
カメリア(Camellia)は、6つの異なるアジア文化にまたがる9つのアジア言語において、エンティティ中心の文化的バイアスを測定するためのベンチマークである。文化的文脈適応,感情関連,実体抽出QAなど,多言語多言語大言語モデルにおける文化的バイアスの評価を行った。分析の結果,すべてのアジア諸言語におけるLLMの文化的適応に苦慮する傾向がみられた。
論文参考訳（メタデータ） (2025-10-06T18:59:11Z)
Entangled in Representations: Mechanistic Investigation of Cultural Biases in Large Language Models [42.367959511140036]
本稿では,大規模言語モデルの内部表現を探索する最初の解釈可能性に基づく手法であるCulturescopeを提案する。本研究は,本質的な文化的偏見の尺度として,文化的平坦化スコアを導入する。実験の結果,LLMは文化知識空間における西洋支配バイアスと文化的フラット化をエンコードしていることが明らかとなった。
論文参考訳（メタデータ） (2025-08-12T12:05:32Z)
An Evaluation of Cultural Value Alignment in LLM [27.437888319382893]
20カ国の文化と言語を10のLLMで評価し,LLM文化の大規模評価を行った。以上の結果から,全てのモデルにまたがるアウトプットは中程度の文化的中核となることが示唆された。より深い調査は、モデルの起源、プロンプト言語、および価値次元が文化的なアウトプットに与える影響に光を当てている。
論文参考訳（メタデータ） (2025-04-11T09:13:19Z)
CAReDiO: Cultural Alignment of LLM via Representativeness and Distinctiveness Guided Data Optimization [50.90288681622152]
大規模言語モデル(LLM)は、より深く様々な地域における人間の生活に統合される。既存のアプローチは、文化固有のコーパスを微調整することで、文化的に整合したLCMを開発する。本稿では,新しい文化データ構築フレームワークであるCAReDiOを紹介する。
論文参考訳（メタデータ） (2025-04-09T13:40:13Z)
Cultural Learning-Based Culture Adaptation of Language Models [70.1063219524999]
大きな言語モデル(LLM)をさまざまな文化的価値に適用することは難しい課題です。文化的学習に基づくLLMと文化的価値との整合性を高めるための新しい枠組みであるCLCAについて述べる。
論文参考訳（メタデータ） (2025-04-03T18:16:26Z)
Through the Prism of Culture: Evaluating LLMs' Understanding of Indian Subcultures and Traditions [9.357186653223332]
インド社会におけるリトル・トラディションを認識し,正確に応答する大規模言語モデルの能力を評価する。一連のケーススタディを通じて、LLMが支配的なグレートトラディションとローカライズされたリトルトラディションの相互作用のバランスをとることができるかどうかを評価する。その結果,LLMは文化的ニュアンスを表現できる能力を示す一方で,実践的,文脈特異的なシナリオにこの理解を適用するのに苦慮していることが明らかとなった。
論文参考訳（メタデータ） (2025-01-28T06:58:25Z)
All Languages Matter: Evaluating LMMs on Culturally Diverse 100 Languages [73.93600813999306]
ALM-benchは、100言語にわたるLMMを評価するための、これまでで最大かつ最も包括的な取り組みである。様々な言語でテキストと組み合わせた文化的に多様なイメージを理解し、推論する能力をテストすることで、既存のモデルに挑戦する。このベンチマークは、真/偽、複数選択、オープンな質問など、さまざまな質問フォーマットを備えた、堅牢でニュアンスの高い評価フレームワークを提供する。
論文参考訳（メタデータ） (2024-11-25T15:44:42Z)
Survey of Cultural Awareness in Language Models: Text and Beyond [39.77033652289063]
大規模言語モデル(LLM)を様々なアプリケーションに大規模に展開するには、LCMはインクリビティを確保するために、ユーザに文化的に敏感である必要がある。文化は心理学や人類学で広く研究され、近年、LLMをより文化的に包括的にする研究が急増している。
論文参考訳（メタデータ） (2024-10-30T16:37:50Z)
Arabic Dataset for LLM Safeguard Evaluation [62.96160492994489]
本研究では,アラビア語における大言語モデル(LLM)の安全性と,その言語的・文化的複雑さについて考察する。本稿では, 直接攻撃, 間接攻撃, センシティブな単語による無害な要求を含む5,799の質問からなるアラブ地域固有の安全評価データセットを提案する。
論文参考訳（メタデータ） (2024-10-22T14:12:43Z)
Translating Across Cultures: LLMs for Intralingual Cultural Adaptation [12.5954253354303]
文化適応の課題を定義し,現代LLMの性能を評価するための評価枠組みを構築した。我々は、自動適応で起こりうる問題を解析する。本稿は, LLMの文化的理解と, 異文化のシナリオにおける創造性について, より深い知見を提供していくことを願っている。
論文参考訳（メタデータ） (2024-06-20T17:06:58Z)
Understanding the Capabilities and Limitations of Large Language Models for Cultural Commonsense [98.09670425244462]
大規模言語モデル(LLM)は、かなりの常識的理解を示している。本稿では,文化的コモンセンスタスクの文脈におけるいくつかの最先端LCMの能力と限界について検討する。
論文参考訳（メタデータ） (2024-05-07T20:28:34Z)
CULTURE-GEN: Revealing Global Cultural Perception in Language Models through Natural Language Prompting [73.94059188347582]
110か国・地域での3つのSOTAモデルの文化認識を,文化条件付き世代を通して8つの文化関連トピックについて明らかにした。文化条件付き世代は、デフォルトの文化と区別される余分な文化を区別する言語的な「マーカー」から成り立っていることが判明した。
論文参考訳（メタデータ） (2024-04-16T00:50:43Z)
Does Mapo Tofu Contain Coffee? Probing LLMs for Food-related Cultural Knowledge [47.57055368312541]
FmLAMA(FmLAMA)は、食品関連の文化的事実と食実践のバリエーションに着目した多言語データセットである。我々は,LLMを様々なアーキテクチャや構成にわたって分析し,その性能を単言語と多言語の両方で評価する。
論文参考訳（メタデータ） (2024-04-10T08:49:27Z)
CulturalTeaming: AI-Assisted Interactive Red-Teaming for Challenging LLMs' (Lack of) Multicultural Knowledge [69.82940934994333]
我々は、人間とAIのコラボレーションを活用して、挑戦的な評価データセットを構築するインタラクティブなレッドチームシステムであるCulturalTeamingを紹介する。我々の研究は、CulturalTeamingの様々なAI支援モードが、文化的な質問の作成においてアノテータを支援することを明らかにした。 CULTURALBENCH-V0.1は、ユーザのリピートの試みにより、コンパクトだが高品質な評価データセットである。
論文参考訳（メタデータ） (2024-04-10T00:25:09Z)
CDEval: A Benchmark for Measuring the Cultural Dimensions of Large Language Models [41.885600036131045]
CDEvalは、大規模言語モデルの文化的側面を評価するためのベンチマークである。 GPT-4の自動生成と人間による検証の両方を取り入れて構築され、7つの領域にわたる6つの文化的次元をカバーする。
論文参考訳（メタデータ） (2023-11-28T02:01:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。