論文の概要: Attributing Culture-Conditioned Generations to Pretraining Corpora
- arxiv url: http://arxiv.org/abs/2412.20760v1
- Date: Mon, 30 Dec 2024 07:09:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-31 16:07:27.697622
- Title: Attributing Culture-Conditioned Generations to Pretraining Corpora
- Title(参考訳): コーパスの事前学習への文化規定世代への貢献
- Authors: Huihan Li, Arnav Goel, Keyu He, Xiang Ren,
- Abstract要約: 我々は、事前学習データパターンに基づいて、モデルがエンティティと文化を関連付ける方法を分析する。
プレトレーニングデータの高周波カルチャーは記憶されたシンボルでより多くの世代を産み出すのに対し、低周波カルチャーの中には何も生まないものもある。
- 参考スコア(独自算出の注目度): 26.992883552982335
- License:
- Abstract: In open-ended generative tasks like narrative writing or dialogue, large language models often exhibit cultural biases, showing limited knowledge and generating templated outputs for less prevalent cultures. Recent works show that these biases may stem from uneven cultural representation in pretraining corpora. This work investigates how pretraining leads to biased culture-conditioned generations by analyzing how models associate entities with cultures based on pretraining data patterns. We propose the MEMOed framework (MEMOrization from pretraining document) to determine whether a generation for a culture arises from memorization. Using MEMOed on culture-conditioned generations about food and clothing for 110 cultures, we find that high-frequency cultures in pretraining data yield more generations with memorized symbols, while some low-frequency cultures produce none. Additionally, the model favors generating entities with extraordinarily high frequency regardless of the conditioned culture, reflecting biases toward frequent pretraining terms irrespective of relevance. We hope that the MEMOed framework and our insights will inspire more works on attributing model performance on pretraining data.
- Abstract(参考訳): 物語の書き方や対話のようなオープンな生成タスクでは、大きな言語モデルはしばしば文化的バイアスを示し、限られた知識を示し、あまり普及しない文化のためにテンプレート化されたアウトプットを生成する。
近年の研究では、これらのバイアスは、プレトレーニングコーパスにおける不均一な文化的表現に由来する可能性があることが示されている。
本研究では、事前学習データパターンに基づいて、モデルがエンティティと文化を関連付ける方法を分析することにより、事前学習が文化条件付き世代に偏りをもたらすかを検討する。
本稿では,文化の世代が記憶から生じるかどうかを判断するために,MEMOedフレームワーク(事前学習文書からのMEMOrization)を提案する。
MEMOed on culture-conditioned generations about food and clothing for 110 cultures, we found that high- frequency cultures in pretraining data yield more generation with memorized symbols, while some low- frequency cultures produce no。
さらに、このモデルは、条件付き文化によらず極端に高い周波数のエンティティを生成し、関連性に関係なく、頻繁な事前学習条件に偏りを反映する。
MEMOedフレームワークと私たちの洞察が、事前学習データに対するモデルパフォーマンスの貢献により多くの成果をもたらすことを期待しています。
関連論文リスト
- CultureVLM: Characterizing and Improving Cultural Understanding of Vision-Language Models for over 100 Countries [63.00147630084146]
視覚言語モデル(VLM)は高度な人間とAIの相互作用を持つが、文化的な理解に苦慮している。
CultureVerseは大規模なマルチモーダルベンチマークで、682の文化的概念、188の国/地域、15の文化的概念、3の質問タイプをカバーしている。
本稿では,文化理解の大幅な向上を実現するために,我々のデータセットを微調整したVLMのシリーズであるCultureVLMを提案する。
論文 参考訳(メタデータ) (2025-01-02T14:42:37Z) - Extrinsic Evaluation of Cultural Competence in Large Language Models [53.626808086522985]
本稿では,2つのテキスト生成タスクにおける文化能力の評価に焦点をあてる。
我々は,文化,特に国籍の明示的なキューが,そのプロンプトに乱入している場合のモデル出力を評価する。
異なる国におけるアウトプットのテキスト類似性とこれらの国の文化的価値との間には弱い相関関係がある。
論文 参考訳(メタデータ) (2024-06-17T14:03:27Z) - CulturePark: Boosting Cross-cultural Understanding in Large Language Models [63.452948673344395]
本稿では,LLMを利用した文化データ収集のためのマルチエージェント通信フレームワークであるCultureParkを紹介する。
人間の信念、規範、習慣をカプセル化した高品質な異文化対話を生成する。
我々はこれらのモデルを,コンテンツモデレーション,文化的アライメント,文化教育という3つの下流課題にまたがって評価する。
論文 参考訳(メタデータ) (2024-05-24T01:49:02Z) - CULTURE-GEN: Revealing Global Cultural Perception in Language Models through Natural Language Prompting [73.94059188347582]
110か国・地域での3つのSOTAモデルの文化認識を,文化条件付き世代を通して8つの文化関連トピックについて明らかにした。
文化条件付き世代は、デフォルトの文化と区別される余分な文化を区別する言語的な「マーカー」から成り立っていることが判明した。
論文 参考訳(メタデータ) (2024-04-16T00:50:43Z) - Investigating Cultural Alignment of Large Language Models [10.738300803676655]
LLM(Large Language Models)は,異なる文化で採用されている多様な知識を真にカプセル化していることを示す。
社会学的調査をシミュレートし、実際の調査参加者のモデル応答を参考として、文化的アライメントの定量化を行う。
本稿では,人類学的推論を活用し,文化的アライメントを高める新しい手法である人類学的プロンプティングを紹介する。
論文 参考訳(メタデータ) (2024-02-20T18:47:28Z) - Massively Multi-Cultural Knowledge Acquisition & LM Benchmarking [48.21982147529661]
本稿では,多文化知識獲得のための新しいアプローチを提案する。
本手法は,文化トピックに関するウィキペディア文書からリンクページの広範囲なネットワークへ戦略的にナビゲートする。
私たちの仕事は、AIにおける文化的格差のギャップを深く理解し、橋渡しするための重要なステップです。
論文 参考訳(メタデータ) (2024-02-14T18:16:54Z) - Cultural Bias and Cultural Alignment of Large Language Models [0.9374652839580183]
広く使われている5つの大言語モデルに対して,文化的偏見の分散評価を行う。
全てのモデルは、英語とプロテスタントのヨーロッパ諸国に似た文化的価値を示す。
生成AIの出力における文化的バイアスを軽減するために,文化的なプロンプトと継続的な評価を用いることを提案する。
論文 参考訳(メタデータ) (2023-11-23T16:45:56Z) - Not All Countries Celebrate Thanksgiving: On the Cultural Dominance in
Large Language Models [89.94270049334479]
本稿では,大規模言語モデル(LLM)における文化的優位性について述べる。
LLMは、ユーザーが非英語で尋ねるときに期待する文化とは無関係な、不適切な英語文化関連の回答を提供することが多い。
論文 参考訳(メタデータ) (2023-10-19T05:38:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。