Fugu-MT 論文翻訳(概要): Cultural Conditioning or Placebo? On the Effectiveness of Socio-Demographic Prompting

論文の概要: Cultural Conditioning or Placebo? On the Effectiveness of Socio-Demographic Prompting

arxiv url: http://arxiv.org/abs/2406.11661v2
Date: Thu, 20 Jun 2024 08:25:08 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-22 00:57:29.923126
Title: Cultural Conditioning or Placebo? On the Effectiveness of Socio-Demographic Prompting
Title（参考訳）: 文化条件とプラセボ : ソシオデモグラフィー・プロンプティングの有効性について
Authors: Sagnik Mukherjee, Muhammad Farid Adilazuarda, Sunayana Sitaram, Kalika Bali, Alham Fikri Aji, Monojit Choudhury,
Abstract要約: 文化に敏感で非敏感な手がかりを条件とした4つのLPMを探索する。 GPT-4を除く全てのモデルが、両方の種類のデータセットに対して、応答に有意なばらつきを示すことが観察された。この作品はまた、「プラセボ効果」からの反応の文化的条件を区別するための制御実験設計の再考を呼び掛けている。
参考スコア（独自算出の注目度）: 28.050634707996565
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Socio-demographic prompting is a commonly employed approach to study cultural biases in LLMs as well as for aligning models to certain cultures. In this paper, we systematically probe four LLMs (Llama 3, Mistral v0.2, GPT-3.5 Turbo and GPT-4) with prompts that are conditioned on culturally sensitive and non-sensitive cues, on datasets that are supposed to be culturally sensitive (EtiCor and CALI) or neutral (MMLU and ETHICS). We observe that all models except GPT-4 show significant variations in their responses on both kinds of datasets for both kinds of prompts, casting doubt on the robustness of the culturally-conditioned prompting as a method for eliciting cultural bias in models or as an alignment strategy. The work also calls rethinking the control experiment design to tease apart the cultural conditioning of responses from "placebo effect", i.e., random perturbations of model responses due to arbitrary tokens in the prompt.
Abstract（参考訳）: ソシオデデデノグラフィーのプロンプトは、LLMにおける文化的バイアスの研究や、特定の文化にモデルを合わせるために一般的に用いられるアプローチである。本稿では,文化に敏感で非敏感な手がかりとして,文化に敏感なデータセット (EtiCor, CALI) や中立なデータセット (MMLU, ETHICS) を用いて,4つのLCM (Llama 3, Mistral v0.2, GPT-3.5 Turbo, GPT-4) を系統的に探索する。 GPT-4以外の全てのモデルは、両方の種類のプロンプトに対する両方のデータセットに対する応答に有意なばらつきを示し、モデルやアライメント戦略として、文化的に条件付けられたプロンプトの堅牢性に疑問を呈している。この作品はまた、制御実験の設計を再考し、「プラセボ効果」から応答の文化的条件、すなわちプロンプト内の任意のトークンによるモデル応答のランダムな摂動を区別する。

関連論文リスト

Exploring Cultural Variations in Moral Judgments with Large Language Models [0.5356944479760104]
対数確率に基づく道徳的正当性スコアを用いて、各モデルのアウトプットを、幅広い倫理的トピックをカバーする調査データと相関付けする。以上の結果から, 早期モデルや小型モデルでは, 人的判断とほぼゼロに近い相関や負の相関が生じることが示唆された。高度な命令調整モデル(GPT-4oやGPT-4o-miniを含む)は、かなり高い正の相関を達成し、現実世界の道徳的態度をよりよく反映している。
論文参考訳（メタデータ） (2025-06-14T10:16:48Z)
From Surveys to Narratives: Rethinking Cultural Value Adaptation in LLMs [57.43233760384488]
LLM(Large Language Models)における文化的価値の適応は大きな課題である。これまでの作業は主に、World Values Survey (WVS)データを使用して、LLMをさまざまな文化的価値と整合させる。本稿では,文化価値適応のためのWVSベースのトレーニングについて検討し,調査データのみに頼って文化規範を把握し,事実知識に干渉することを見出した。
論文参考訳（メタデータ） (2025-05-22T09:00:01Z)
Multimodal Cultural Safety: Evaluation Frameworks and Alignment Strategies [58.88053690412802]
大規模視覚言語モデル(LVLM)は、観光アシスタントのようなグローバルに分散したアプリケーションにますます導入されている。 CROSSは、LVLMの文化的安全性推論能力を評価するために設計されたベンチマークである。実験モデルと推論モデルを含む21種類のLVLMを評価した。
論文参考訳（メタデータ） (2025-05-20T23:20:38Z)
CAReDiO: Cultural Alignment of LLM via Representativeness and Distinctiveness Guided Data Optimization [50.90288681622152]
大規模言語モデル(LLM)は、より深く様々な地域における人間の生活に統合される。既存のアプローチは、文化固有のコーパスを微調整することで、文化的に整合したLCMを開発する。本稿では,新しい文化データ構築フレームワークであるCAReDiOを紹介する。
論文参考訳（メタデータ） (2025-04-09T13:40:13Z)
Randomness, Not Representation: The Unreliability of Evaluating Cultural Alignment in LLMs [7.802103248428407]
我々は,現在の調査に基づく評価手法の背景にある3つの仮定を特定し,検証する。提示形式間の不安定性,評価された文化次元と保持された文化的次元間の不整合性,即時操舵時の不整合性などについて検討した。
論文参考訳（メタデータ） (2025-03-11T17:59:53Z)
CulturalBench: a Robust, Diverse and Challenging Benchmark on Measuring the (Lack of) Cultural Knowledge of LLMs [75.82306181299153]
文化ベンチについて紹介する: 文化的知識を評価するための1,227の人文的・人文的な質問である。同じ質問を共有しながら異なる質問をするCulturalBench-EasyとCulturalBench-Hardの2つの設定でモデルを評価する。人間のパフォーマンス(92.6%の精度)と比較して、カルチャーベンチ・ハードは、最もパフォーマンスの良いモデル(GPT-4o)が61.5%、最悪のモデル(Llama3-8b)が21.4%であるフロンティアのLLMにとってより難しい。
論文参考訳（メタデータ） (2024-10-03T17:04:31Z)
Evaluating Cultural Adaptability of a Large Language Model via Simulation of Synthetic Personas [4.0937229334408185]
我々は、GPT-3.5を用いて、15カ国7,286人の参加者の説得的ニュース記事に対する反応を再現する。対象者の居住国を特定することで,GPT-3.5の対応性の向上が期待できる。対照的に、ネイティブ言語プロンプトを使用すると、全体的なアライメントを大幅に削減するシフトが発生する。
論文参考訳（メタデータ） (2024-08-13T14:32:43Z)
CulturePark: Boosting Cross-cultural Understanding in Large Language Models [63.452948673344395]
本稿では,LLMを利用した文化データ収集のためのマルチエージェント通信フレームワークであるCultureParkを紹介する。人間の信念、規範、習慣をカプセル化した高品質な異文化対話を生成する。我々はこれらのモデルを,コンテンツモデレーション,文化的アライメント,文化教育という3つの下流課題にまたがって評価する。
論文参考訳（メタデータ） (2024-05-24T01:49:02Z)
Cultural Bias and Cultural Alignment of Large Language Models [0.9374652839580183]
広く使われている5つの大言語モデルに対して,文化的偏見の分散評価を行う。全てのモデルは、英語とプロテスタントのヨーロッパ諸国に似た文化的価値を示す。生成AIの出力における文化的バイアスを軽減するために,文化的なプロンプトと継続的な評価を用いることを提案する。
論文参考訳（メタデータ） (2023-11-23T16:45:56Z)
Holistic Analysis of Hallucination in GPT-4V(ision): Bias and Interference Challenges [54.42256219010956]
このベンチマークは、視覚言語モデルにおける2つの一般的な幻覚、すなわちバイアスと干渉を評価するために設計されている。偏見はモデルがある種の反応を幻覚させる傾向を示すもので、おそらくはトレーニングデータの不均衡によるものである。干渉とは、テキストプロンプトのフレーズ化や入力画像の表示方法によって、GPT-4V(ision)の判定が破壊されるシナリオである。
論文参考訳（メタデータ） (2023-11-06T17:26:59Z)
Not All Countries Celebrate Thanksgiving: On the Cultural Dominance in Large Language Models [89.94270049334479]
本稿では,大規模言語モデル(LLM)における文化的優位性について述べる。 LLMは、ユーザーが非英語で尋ねるときに期待する文化とは無関係な、不適切な英語文化関連の回答を提供することが多い。
論文参考訳（メタデータ） (2023-10-19T05:38:23Z)
How FaR Are Large Language Models From Agents with Theory-of-Mind? [69.41586417697732]
大規模言語モデル(LLM)に対する新たな評価パラダイムを提案する。 T4Dは、他者の精神状態に関する推論を社会的シナリオにおける行動に結びつけるモデルを必要とする。ゼロショットプロンプトフレームワークであるフォアシー・アンド・リフレクション(FaR)を導入し,LCMが今後の課題を予測できるように推論構造を提供する。
論文参考訳（メタデータ） (2023-10-04T06:47:58Z)
Cultural Alignment in Large Language Models: An Explanatory Analysis Based on Hofstede's Cultural Dimensions [10.415002561977655]
本研究は,ホフステデの文化次元の枠組みを用いて文化的アライメントを定量化する文化アライメントテスト (Hoftede's CAT) を提案する。我々は、米国、中国、アラブ諸国といった地域の文化的側面に対して、大規模言語モデル(LLM)を定量的に評価する。その結果, LLMの文化的アライメントを定量化し, 説明的文化的次元におけるLCMの差異を明らかにすることができた。
論文参考訳（メタデータ） (2023-08-25T14:50:13Z)
Revisiting Rashomon: A Comment on "The Two Cultures" [95.81740983484471]
Breiman氏は「Rashomon Effect」と呼び、予測精度基準を等しく満たす多くのモデルが存在するが、情報を実質的に異なる方法で処理する状況について説明した。この現象は、データに適合するモデルに基づいて結論を導き出すか、意思決定を自動化することを困難にします。私は、この問題の意義を探求する機械学習文学における最近の研究と関係しています。
論文参考訳（メタデータ） (2021-04-05T20:51:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。