論文の概要: Cultural Conditioning or Placebo? On the Effectiveness of Socio-Demographic Prompting
- arxiv url: http://arxiv.org/abs/2406.11661v2
- Date: Thu, 20 Jun 2024 08:25:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-22 00:57:29.923126
- Title: Cultural Conditioning or Placebo? On the Effectiveness of Socio-Demographic Prompting
- Title(参考訳): 文化条件とプラセボ : ソシオデモグラフィー・プロンプティングの有効性について
- Authors: Sagnik Mukherjee, Muhammad Farid Adilazuarda, Sunayana Sitaram, Kalika Bali, Alham Fikri Aji, Monojit Choudhury,
- Abstract要約: 文化に敏感で非敏感な手がかりを条件とした4つのLPMを探索する。
GPT-4を除く全てのモデルが、両方の種類のデータセットに対して、応答に有意なばらつきを示すことが観察された。
この作品はまた、「プラセボ効果」からの反応の文化的条件を区別するための制御実験設計の再考を呼び掛けている。
- 参考スコア(独自算出の注目度): 28.050634707996565
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Socio-demographic prompting is a commonly employed approach to study cultural biases in LLMs as well as for aligning models to certain cultures. In this paper, we systematically probe four LLMs (Llama 3, Mistral v0.2, GPT-3.5 Turbo and GPT-4) with prompts that are conditioned on culturally sensitive and non-sensitive cues, on datasets that are supposed to be culturally sensitive (EtiCor and CALI) or neutral (MMLU and ETHICS). We observe that all models except GPT-4 show significant variations in their responses on both kinds of datasets for both kinds of prompts, casting doubt on the robustness of the culturally-conditioned prompting as a method for eliciting cultural bias in models or as an alignment strategy. The work also calls rethinking the control experiment design to tease apart the cultural conditioning of responses from "placebo effect", i.e., random perturbations of model responses due to arbitrary tokens in the prompt.
- Abstract(参考訳): ソシオデデデノグラフィーのプロンプトは、LLMにおける文化的バイアスの研究や、特定の文化にモデルを合わせるために一般的に用いられるアプローチである。
本稿では,文化に敏感で非敏感な手がかりとして,文化に敏感なデータセット (EtiCor, CALI) や中立なデータセット (MMLU, ETHICS) を用いて,4つのLCM (Llama 3, Mistral v0.2, GPT-3.5 Turbo, GPT-4) を系統的に探索する。
GPT-4以外の全てのモデルは、両方の種類のプロンプトに対する両方のデータセットに対する応答に有意なばらつきを示し、モデルやアライメント戦略として、文化的に条件付けられたプロンプトの堅牢性に疑問を呈している。
この作品はまた、制御実験の設計を再考し、「プラセボ効果」から応答の文化的条件、すなわちプロンプト内の任意のトークンによるモデル応答のランダムな摂動を区別する。
関連論文リスト
- CulturePark: Boosting Cross-cultural Understanding in Large Language Models [63.452948673344395]
本稿では,LLMを利用した文化データ収集のためのマルチエージェント通信フレームワークであるCultureParkを紹介する。
人間の信念、規範、習慣をカプセル化した高品質な異文化対話を生成する。
我々はこれらのモデルを,コンテンツモデレーション,文化的アライメント,文化教育という3つの下流課題にまたがって評価する。
論文 参考訳(メタデータ) (2024-05-24T01:49:02Z) - Cultural Bias and Cultural Alignment of Large Language Models [0.9374652839580183]
広く使われている5つの大言語モデルに対して,文化的偏見の分散評価を行う。
全てのモデルは、英語とプロテスタントのヨーロッパ諸国に似た文化的価値を示す。
生成AIの出力における文化的バイアスを軽減するために,文化的なプロンプトと継続的な評価を用いることを提案する。
論文 参考訳(メタデータ) (2023-11-23T16:45:56Z) - Holistic Analysis of Hallucination in GPT-4V(ision): Bias and
Interference Challenges [54.42256219010956]
このベンチマークは、視覚言語モデルにおける2つの一般的な幻覚、すなわちバイアスと干渉を評価するために設計されている。
偏見はモデルがある種の反応を幻覚させる傾向を示すもので、おそらくはトレーニングデータの不均衡によるものである。
干渉とは、テキストプロンプトのフレーズ化や入力画像の表示方法によって、GPT-4V(ision)の判定が破壊されるシナリオである。
論文 参考訳(メタデータ) (2023-11-06T17:26:59Z) - Not All Countries Celebrate Thanksgiving: On the Cultural Dominance in
Large Language Models [89.94270049334479]
本稿では,大規模言語モデル(LLM)における文化的優位性について述べる。
LLMは、ユーザーが非英語で尋ねるときに期待する文化とは無関係な、不適切な英語文化関連の回答を提供することが多い。
論文 参考訳(メタデータ) (2023-10-19T05:38:23Z) - How FaR Are Large Language Models From Agents with Theory-of-Mind? [69.41586417697732]
大規模言語モデル(LLM)に対する新たな評価パラダイムを提案する。
T4Dは、他者の精神状態に関する推論を社会的シナリオにおける行動に結びつけるモデルを必要とする。
ゼロショットプロンプトフレームワークであるフォアシー・アンド・リフレクション(FaR)を導入し,LCMが今後の課題を予測できるように推論構造を提供する。
論文 参考訳(メタデータ) (2023-10-04T06:47:58Z) - Cultural Alignment in Large Language Models: An Explanatory Analysis Based on Hofstede's Cultural Dimensions [10.415002561977655]
本研究は,ホフステデの文化次元の枠組みを用いて文化的アライメントを定量化する文化アライメントテスト (Hoftede's CAT) を提案する。
我々は、米国、中国、アラブ諸国といった地域の文化的側面に対して、大規模言語モデル(LLM)を定量的に評価する。
その結果, LLMの文化的アライメントを定量化し, 説明的文化的次元におけるLCMの差異を明らかにすることができた。
論文 参考訳(メタデータ) (2023-08-25T14:50:13Z) - On the Cultural Gap in Text-to-Image Generation [75.69755281031951]
テキスト・トゥ・イメージ(T2I)生成における課題のひとつは、トレーニングデータに存在する文化ギャップの意図しない反映である。
クロスカルチャー画像を生成するT2Iモデルの能力を体系的に評価するベンチマークは存在しない。
本稿では,モデルが対象文化にどの程度適しているかを評価するため,包括的評価基準付きChallenging Cross-Cultural (C3)ベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-06T13:17:55Z) - Probing Pre-Trained Language Models for Cross-Cultural Differences in
Values [42.45033681054207]
我々は、事前学習言語モデルにどの文化にわたってどの価値が埋め込まれているかを調査するためにプローブを導入する。
PTLMは文化全体における価値の差異を捉えているが、確立した価値調査と弱く一致しているだけである。
論文 参考訳(メタデータ) (2022-03-25T15:45:49Z) - Revisiting Rashomon: A Comment on "The Two Cultures" [95.81740983484471]
Breiman氏は「Rashomon Effect」と呼び、予測精度基準を等しく満たす多くのモデルが存在するが、情報を実質的に異なる方法で処理する状況について説明した。
この現象は、データに適合するモデルに基づいて結論を導き出すか、意思決定を自動化することを困難にします。
私は、この問題の意義を探求する機械学習文学における最近の研究と関係しています。
論文 参考訳(メタデータ) (2021-04-05T20:51:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。