論文の概要: Risks of Cultural Erasure in Large Language Models
- arxiv url: http://arxiv.org/abs/2501.01056v1
- Date: Thu, 02 Jan 2025 04:57:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 17:16:45.563156
- Title: Risks of Cultural Erasure in Large Language Models
- Title(参考訳): 大規模言語モデルにおける文化的消去のリスク
- Authors: Rida Qadri, Aida M. Davani, Kevin Robinson, Vinodkumar Prabhakaran,
- Abstract要約: 我々は,歴史的権力不平等を疑問視し,考慮する言語技術の量化可能な評価の必要性を論じる。
我々は、言語モデルがこれらの文脈を記述するよう依頼されたとき、世界中の様々な場所で生成する表現を探索する。
言語モデルアプリケーションを用いて,旅行レコメンデーションに表される文化を分析した。
- 参考スコア(独自算出の注目度): 4.613949381428196
- License:
- Abstract: Large language models are increasingly being integrated into applications that shape the production and discovery of societal knowledge such as search, online education, and travel planning. As a result, language models will shape how people learn about, perceive and interact with global cultures making it important to consider whose knowledge systems and perspectives are represented in models. Recognizing this importance, increasingly work in Machine Learning and NLP has focused on evaluating gaps in global cultural representational distribution within outputs. However, more work is needed on developing benchmarks for cross-cultural impacts of language models that stem from a nuanced sociologically-aware conceptualization of cultural impact or harm. We join this line of work arguing for the need of metricizable evaluations of language technologies that interrogate and account for historical power inequities and differential impacts of representation on global cultures, particularly for cultures already under-represented in the digital corpora. We look at two concepts of erasure: omission: where cultures are not represented at all and simplification i.e. when cultural complexity is erased by presenting one-dimensional views of a rich culture. The former focuses on whether something is represented, and the latter on how it is represented. We focus our analysis on two task contexts with the potential to influence global cultural production. First, we probe representations that a language model produces about different places around the world when asked to describe these contexts. Second, we analyze the cultures represented in the travel recommendations produced by a set of language model applications. Our study shows ways in which the NLP community and application developers can begin to operationalize complex socio-cultural considerations into standard evaluations and benchmarks.
- Abstract(参考訳): 大規模な言語モデルは、検索、オンライン教育、旅行計画といった社会的知識の生産と発見を形作るアプリケーションにますます統合されている。
結果として、言語モデルは、人々が世界文化について学び、知覚し、相互作用する方法を形成し、どの知識システムと視点がモデルで表現されているかを考えることが重要である。
この重要性を認識して、マシンラーニングとNLPでの作業は、アウトプット内のグローバルな文化的表現のギャップを評価することに重点を置いている。
しかし、文化的な影響や害を社会学的に意識した概念化から生まれた言語モデルの異文化間影響のベンチマークの開発には、さらなる作業が必要である。
我々は,グローバルな文化,特にデジタルコーパスですでに表現されていない文化に対して,歴史的権力の不平等や表現の差を問う,言語技術の量化可能な評価の必要性について論じる。
排除:文化が全く表現されない場合、つまり、豊かな文化の1次元の視点を提示することによって、文化の複雑さが消去される場合、という2つの概念を考察する。
前者は何かが表現されているか、後者はどのように表現されているかに焦点を当てる。
我々は,グローバルな文化生産に影響を与える可能性を秘めた2つの課題文脈に着目した分析を行う。
まず、これらの文脈を記述するよう依頼されたとき、言語モデルが世界中の様々な場所で生成する表現を探索する。
次に,一組の言語モデルアプリケーションによって生成された旅行勧告に表される文化を解析する。
本研究は、NLPコミュニティとアプリケーション開発者が、複雑な社会文化的考察を標準評価やベンチマークに運用し始める方法を示す。
関連論文リスト
- Navigating the Cultural Kaleidoscope: A Hitchhiker's Guide to Sensitivity in Large Language Models [4.771099208181585]
LLMはますますグローバルなアプリケーションにデプロイされ、さまざまなバックグラウンドを持つユーザが尊敬され、理解されることが保証される。
文化的な害は、これらのモデルが特定の文化的規範と一致しないときに起こり、文化的な価値観の誤った表現や違反をもたらす。
潜在的な文化的不感を露呈するシナリオを通じて、異なる文化的文脈におけるモデルアウトプットを評価するために作成された文化的調和テストデータセットと、多様なアノテータからのフィードバックに基づいた微調整による文化的感受性の回復を目的とした、文化的に整合した選好データセットである。
論文 参考訳(メタデータ) (2024-10-15T18:13:10Z) - From Local Concepts to Universals: Evaluating the Multicultural Understanding of Vision-Language Models [10.121734731147376]
視覚言語モデルの性能は、西欧文化のイメージに最適以下である。
様々なベンチマークが、モデルの文化的傾向をテストするために提案されているが、それらは限られた範囲の文化をカバーしている。
我々はGlobalRGベンチマークを導入し、普遍性を越えた検索と文化的な視覚的接地という2つの課題からなる。
論文 参考訳(メタデータ) (2024-06-28T23:28:28Z) - Extrinsic Evaluation of Cultural Competence in Large Language Models [53.626808086522985]
本稿では,2つのテキスト生成タスクにおける文化能力の評価に焦点をあてる。
我々は,文化,特に国籍の明示的なキューが,そのプロンプトに乱入している場合のモデル出力を評価する。
異なる国におけるアウトプットのテキスト類似性とこれらの国の文化的価値との間には弱い相関関係がある。
論文 参考訳(メタデータ) (2024-06-17T14:03:27Z) - CulturePark: Boosting Cross-cultural Understanding in Large Language Models [63.452948673344395]
本稿では,LLMを利用した文化データ収集のためのマルチエージェント通信フレームワークであるCultureParkを紹介する。
人間の信念、規範、習慣をカプセル化した高品質な異文化対話を生成する。
我々はこれらのモデルを,コンテンツモデレーション,文化的アライメント,文化教育という3つの下流課題にまたがって評価する。
論文 参考訳(メタデータ) (2024-05-24T01:49:02Z) - What You Use is What You Get: Unforced Errors in Studying Cultural Aspects in Agile Software Development [2.9418191027447906]
文化的特徴の影響を調べることは、多面的な文化概念のために困難である。
文化的・社会的側面は、実際にの使用が成功する上で非常に重要である。
論文 参考訳(メタデータ) (2024-04-25T20:08:37Z) - CULTURE-GEN: Revealing Global Cultural Perception in Language Models through Natural Language Prompting [73.94059188347582]
110か国・地域での3つのSOTAモデルの文化認識を,文化条件付き世代を通して8つの文化関連トピックについて明らかにした。
文化条件付き世代は、デフォルトの文化と区別される余分な文化を区別する言語的な「マーカー」から成り立っていることが判明した。
論文 参考訳(メタデータ) (2024-04-16T00:50:43Z) - Massively Multi-Cultural Knowledge Acquisition & LM Benchmarking [48.21982147529661]
本稿では,多文化知識獲得のための新しいアプローチを提案する。
本手法は,文化トピックに関するウィキペディア文書からリンクページの広範囲なネットワークへ戦略的にナビゲートする。
私たちの仕事は、AIにおける文化的格差のギャップを深く理解し、橋渡しするための重要なステップです。
論文 参考訳(メタデータ) (2024-02-14T18:16:54Z) - Not All Countries Celebrate Thanksgiving: On the Cultural Dominance in
Large Language Models [89.94270049334479]
本稿では,大規模言語モデル(LLM)における文化的優位性について述べる。
LLMは、ユーザーが非英語で尋ねるときに期待する文化とは無関係な、不適切な英語文化関連の回答を提供することが多い。
論文 参考訳(メタデータ) (2023-10-19T05:38:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。