論文の概要: Entangled in Representations: Mechanistic Investigation of Cultural Biases in Large Language Models
- arxiv url: http://arxiv.org/abs/2508.08879v1
- Date: Tue, 12 Aug 2025 12:05:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 21:07:34.417224
- Title: Entangled in Representations: Mechanistic Investigation of Cultural Biases in Large Language Models
- Title(参考訳): 表現の絡み合い:大規模言語モデルにおける文化的バイアスの力学的検討
- Authors: Haeun Yu, Seogyeong Jeong, Siddhesh Pawar, Jisu Shin, Jiho Jin, Junho Myung, Alice Oh, Isabelle Augenstein,
- Abstract要約: 本稿では,大規模言語モデルの内部表現を探索する最初の解釈可能性に基づく手法であるCulturescopeを提案する。
本研究は,本質的な文化的偏見の尺度として,文化的平坦化スコアを導入する。
実験の結果,LLMは文化知識空間における西洋支配バイアスと文化的フラット化をエンコードしていることが明らかとなった。
- 参考スコア(独自算出の注目度): 42.367959511140036
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The growing deployment of large language models (LLMs) across diverse cultural contexts necessitates a better understanding of how the overgeneralization of less documented cultures within LLMs' representations impacts their cultural understanding. Prior work only performs extrinsic evaluation of LLMs' cultural competence, without accounting for how LLMs' internal mechanisms lead to cultural (mis)representation. To bridge this gap, we propose Culturescope, the first mechanistic interpretability-based method that probes the internal representations of LLMs to elicit the underlying cultural knowledge space. CultureScope utilizes a patching method to extract the cultural knowledge. We introduce a cultural flattening score as a measure of the intrinsic cultural biases. Additionally, we study how LLMs internalize Western-dominance bias and cultural flattening, which allows us to trace how cultural biases emerge within LLMs. Our experimental results reveal that LLMs encode Western-dominance bias and cultural flattening in their cultural knowledge space. We find that low-resource cultures are less susceptible to cultural biases, likely due to their limited training resources. Our work provides a foundation for future research on mitigating cultural biases and enhancing LLMs' cultural understanding. Our codes and data used for experiments are publicly available.
- Abstract(参考訳): 多様な文化的文脈にまたがる大規模言語モデル(LLM)の展開は、LLMの表現の中で文書化されていない文化が過度に一般化されることが、彼らの文化的理解にどのように影響するかをよりよく理解する必要がある。
以前の研究は、LLMの内部メカニズムが文化(ミス)表現にどう影響するかを考慮せずに、LLMの内部的な文化能力の評価のみを行う。
このギャップを埋めるために, LLMの内部表現を探索し, 基礎となる文化的知識空間を抽出する, 機械的解釈可能性に基づく最初の手法であるCulturescopeを提案する。
CultureScopeは、パッチ手法を使って文化知識を抽出する。
本研究は,本質的な文化的偏見の尺度として,文化的平坦化スコアを導入する。
さらに,LLMが西洋支配バイアスと文化的平坦化を内在化させる方法について検討し,LLM内での文化的偏見の出現を追跡できることを示した。
実験の結果,LLMは文化知識空間における西洋支配バイアスと文化的フラット化をエンコードしていることが明らかとなった。
低リソースの文化は、おそらくトレーニングリソースが限られているため、文化的バイアスの影響を受けにくいことが分かっています。
我々の研究は、文化バイアスの緩和とLLMの文化的理解の強化に関する今後の研究の基盤を提供する。
実験に使用されるコードとデータは公開されています。
関連論文リスト
- From Surveys to Narratives: Rethinking Cultural Value Adaptation in LLMs [57.43233760384488]
LLM(Large Language Models)における文化的価値の適応は大きな課題である。
これまでの作業は主に、World Values Survey (WVS)データを使用して、LLMをさまざまな文化的価値と整合させる。
本稿では,文化価値適応のためのWVSベースのトレーニングについて検討し,調査データのみに頼って文化規範を把握し,事実知識に干渉することを見出した。
論文 参考訳(メタデータ) (2025-05-22T09:00:01Z) - An Evaluation of Cultural Value Alignment in LLM [27.437888319382893]
20カ国の文化と言語を10のLLMで評価し,LLM文化の大規模評価を行った。
以上の結果から,全てのモデルにまたがるアウトプットは中程度の文化的中核となることが示唆された。
より深い調査は、モデルの起源、プロンプト言語、および価値次元が文化的なアウトプットに与える影響に光を当てている。
論文 参考訳(メタデータ) (2025-04-11T09:13:19Z) - Through the Prism of Culture: Evaluating LLMs' Understanding of Indian Subcultures and Traditions [9.357186653223332]
インド社会におけるリトル・トラディションを認識し,正確に応答する大規模言語モデルの能力を評価する。
一連のケーススタディを通じて、LLMが支配的なグレートトラディションとローカライズされたリトルトラディションの相互作用のバランスをとることができるかどうかを評価する。
その結果,LLMは文化的ニュアンスを表現できる能力を示す一方で,実践的,文脈特異的なシナリオにこの理解を適用するのに苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2025-01-28T06:58:25Z) - Survey of Cultural Awareness in Language Models: Text and Beyond [39.77033652289063]
大規模言語モデル(LLM)を様々なアプリケーションに大規模に展開するには、LCMはインクリビティを確保するために、ユーザに文化的に敏感である必要がある。
文化は心理学や人類学で広く研究され、近年、LLMをより文化的に包括的にする研究が急増している。
論文 参考訳(メタデータ) (2024-10-30T16:37:50Z) - Understanding the Capabilities and Limitations of Large Language Models for Cultural Commonsense [98.09670425244462]
大規模言語モデル(LLM)は、かなりの常識的理解を示している。
本稿では,文化的コモンセンスタスクの文脈におけるいくつかの最先端LCMの能力と限界について検討する。
論文 参考訳(メタデータ) (2024-05-07T20:28:34Z) - CULTURE-GEN: Revealing Global Cultural Perception in Language Models through Natural Language Prompting [73.94059188347582]
110か国・地域での3つのSOTAモデルの文化認識を,文化条件付き世代を通して8つの文化関連トピックについて明らかにした。
文化条件付き世代は、デフォルトの文化と区別される余分な文化を区別する言語的な「マーカー」から成り立っていることが判明した。
論文 参考訳(メタデータ) (2024-04-16T00:50:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。