論文の概要: LLM Alignment for the Arabs: A Homogenous Culture or Diverse Ones?
- arxiv url: http://arxiv.org/abs/2503.15003v1
- Date: Wed, 19 Mar 2025 08:52:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 15:24:13.231683
- Title: LLM Alignment for the Arabs: A Homogenous Culture or Diverse Ones?
- Title(参考訳): LLM Alignment for the Arabs: A Homogenous Culture or Diverse Ones?
- Authors: Amr Keleg,
- Abstract要約: 大きな言語モデル(LLM)は、タスクを自動化し、人間を助けるのに有用なツールである可能性がある。
これらのモデルは英語に精通しており、西洋の文化、規範、価値観と整合している。
アラブ人は時に同じ文化を共有していると仮定される。
- 参考スコア(独自算出の注目度): 2.7195102129095003
- License:
- Abstract: Large language models (LLMs) have the potential of being useful tools that can automate tasks and assist humans. However, these models are more fluent in English and more aligned with Western cultures, norms, and values. Arabic-specific LLMs are being developed to better capture the nuances of the Arabic language, as well as the views of the Arabs. Yet, Arabs are sometimes assumed to share the same culture. In this position paper, I discuss the limitations of this assumption and provide preliminary thoughts for how to build systems that can better represent the cultural diversity within the Arab world. The invalidity of the cultural homogeneity assumption might seem obvious, yet, it is widely adopted in developing multilingual and Arabic-specific LLMs. I hope that this paper will encourage the NLP community to be considerate of the cultural diversity within various communities speaking the same language.
- Abstract(参考訳): 大きな言語モデル(LLM)は、タスクを自動化し、人間を助けるのに有用なツールである可能性がある。
しかし、これらのモデルは英語に習熟しており、西洋の文化、規範、価値観と調和している。
アラビア語固有のLLMは、アラビア語のニュアンスやアラブ人の見解をよりよく捉えるために開発されている。
しかし、アラブ人は時に同じ文化を共有していると仮定される。
本稿では、この仮定の限界について論じ、アラブ世界の文化的多様性をよりよく表現できるシステムを構築するための予備的な考えを提供する。
文化的均質性の仮定の無効性は明白に思えるかもしれないが、多言語およびアラビア語固有のLLMの開発において広く採用されている。
この論文は、NLPコミュニティが、同じ言語を話す様々なコミュニティの中で、文化的多様性について考えることを奨励するものであることを願っています。
関連論文リスト
- Commonsense Reasoning in Arab Culture [6.116784716369165]
我々は,現代標準アラビア語(MSA)における常識推論データセットであるデータセットネームを導入し,メキシコ湾,レバント,北アフリカ,ナイルバレーの13カ国の文化をカバーした。
データセットは、ネイティブスピーカーがそれぞれの国で文化的に関連のある質問を書き、検証することで、ゼロから構築された。
データセット名は12の日常生活ドメインと54のきめ細かいサブトピックにまたがっており、社会規範、伝統、日々の経験の様々な側面を反映している。
論文 参考訳(メタデータ) (2025-02-18T11:49:54Z) - On The Origin of Cultural Biases in Language Models: From Pre-training Data to Linguistic Phenomena [10.263201685476492]
本稿では,言語モデル(LM)におけるエンティティ関連文化バイアスの起源を明らかにすることを目的とする。
アラビア文化や西洋文化に関連する58,086のエンティティと367の自然文脈をマスキングしたエンティティのアラビア・英語の並列ベンチマークであるCAMeL-2を紹介する。
CAMeL-2を用いた評価では、アラビア語と比較して英語で試験すると、LMによる文化間のパフォーマンスギャップが減少することがわかった。
論文 参考訳(メタデータ) (2025-01-08T18:15:47Z) - Arabic Dataset for LLM Safeguard Evaluation [62.96160492994489]
本研究では,アラビア語における大言語モデル(LLM)の安全性と,その言語的・文化的複雑さについて考察する。
本稿では, 直接攻撃, 間接攻撃, センシティブな単語による無害な要求を含む5,799の質問からなるアラブ地域固有の安全評価データセットを提案する。
論文 参考訳(メタデータ) (2024-10-22T14:12:43Z) - AraDiCE: Benchmarks for Dialectal and Cultural Capabilities in LLMs [22.121471902726892]
本稿ではアラビア方言と文化評価のベンチマークであるAraDiCEを紹介する。
湾岸地域、エジプト地域、レバント地域の文化意識を評価するために設計された最初のきめ細かいベンチマーク。
論文 参考訳(メタデータ) (2024-09-17T17:59:25Z) - See It from My Perspective: How Language Affects Cultural Bias in Image Understanding [60.70852566256668]
視覚言語モデル(VLM)は、多くの言語における画像に関するクエリに応答することができる。
画像理解におけるVLMの西洋的偏見を特徴付け,この格差の中で言語が果たす役割について検討する。
論文 参考訳(メタデータ) (2024-06-17T15:49:51Z) - Understanding the Capabilities and Limitations of Large Language Models for Cultural Commonsense [98.09670425244462]
大規模言語モデル(LLM)は、かなりの常識的理解を示している。
本稿では,文化的コモンセンスタスクの文脈におけるいくつかの最先端LCMの能力と限界について検討する。
論文 参考訳(メタデータ) (2024-05-07T20:28:34Z) - CULTURE-GEN: Revealing Global Cultural Perception in Language Models through Natural Language Prompting [73.94059188347582]
110か国・地域での3つのSOTAモデルの文化認識を,文化条件付き世代を通して8つの文化関連トピックについて明らかにした。
文化条件付き世代は、デフォルトの文化と区別される余分な文化を区別する言語的な「マーカー」から成り立っていることが判明した。
論文 参考訳(メタデータ) (2024-04-16T00:50:43Z) - Is Translation All You Need? A Study on Solving Multilingual Tasks with Large Language Models [79.46179534911019]
大規模言語モデル (LLM) は多言語機能を示しているが、トレーニングコーパスの不均衡のため、主に英語中心である。
この作業は、NLPタスクから実際のユーザクエリまで、評価を拡張します。
深い言語理解を必要とする文化関連のタスクでは、ネイティブ言語のプロンプトがより有望になる傾向があります。
論文 参考訳(メタデータ) (2024-03-15T12:47:39Z) - AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。
目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文 参考訳(メタデータ) (2023-09-21T13:20:13Z) - Having Beer after Prayer? Measuring Cultural Bias in Large Language Models [25.722262209465846]
多言語およびアラビア語のモノリンガルLMは、西洋文化に関連する実体に対して偏見を示すことを示す。
アラブ文化と西洋文化を対比する8つのタイプにまたがる628個の自然発生プロンプトと20,368個のエンティティからなる新しい資源であるCAMeLを紹介した。
CAMeLを用いて、物語生成、NER、感情分析などのタスクにおいて、16の異なるLMのアラビア語における異文化間性能について検討した。
論文 参考訳(メタデータ) (2023-05-23T18:27:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。