Fugu-MT 論文翻訳(概要): Can Persona-Prompted LLMs Emulate Subgroup Values? An Empirical Analysis of Generalisability and Fairness in Cultural Alignment

論文の概要: Can Persona-Prompted LLMs Emulate Subgroup Values? An Empirical Analysis of Generalisability and Fairness in Cultural Alignment

arxiv url: http://arxiv.org/abs/2604.12851v1
Date: Tue, 14 Apr 2026 15:06:13 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-15 19:11:32.525477
Title: Can Persona-Prompted LLMs Emulate Subgroup Values? An Empirical Analysis of Generalisability and Fairness in Cultural Alignment
Title（参考訳）: ペルソナプロップLDMはサブグループ価値をエミュレートできるか? : 文化的アライメントにおける一般化可能性と公正性の実証分析
Authors: Bryan Chen Zhengyu Tan, Zhengyuan Liu, Xiaoyuan Yi, Jing Yao, Xing Xie, Nancy F. Chen, Roy Ka-Wei Lee,
Abstract要約: GPT-4.1のような最先端モデルでさえ、モーダル選好を予測する精度は57.4%に過ぎなかった。モデルでは、若者、男性、中国人、キリスト教のペルソナをよりうまくエミュレートする。
参考スコア（独自算出の注目度）: 75.88231994139132
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Despite their global prevalence, many Large Language Models (LLMs) are aligned to a monolithic, often Western-centric set of values. This paper investigates the more challenging task of fine-grained value alignment: examining whether LLMs can emulate the distinct cultural values of demographic subgroups. Using Singapore as a case study and the World Values Survey (WVS), we examine the value landscape and show that even state-of-the-art models like GPT-4.1 achieve only 57.4% accuracy in predicting subgroup modal preferences. We construct a dataset of over 20,000 samples to train and evaluate a range of models. We demonstrate that simple fine-tuning on structured numerical preferences yields substantial gains, improving accuracy on unseen, out-of-distribution subgroups by an average of 17.4%. These gains partially transfer to open-ended generation. However, we find significant pre-existing performance biases, where models better emulate young, male, Chinese, and Christian personas. Furthermore, while fine-tuning improves average performance, it widens the disparity between subgroups when measured by distance-aware metrics. Our work offers insights into the limits and fairness implications of subgroup-level cultural alignment.
Abstract（参考訳）: グローバルな普及にもかかわらず、多くのLarge Language Model (LLM) はモノリシックで、しばしば西洋中心の値のセットに整列している。本稿では, LLMが人口集団の異なる文化的価値をエミュレートできるかどうかを, よりきめ細かな値アライメントの課題として検討する。シンガポールのケーススタディと世界価値調査(WVS)を用いて、価値ランドスケープを調査し、GPT-4.1のような最先端のモデルでさえ、サブグループの選好を予測する上で、57.4%の精度しか達成していないことを示す。モデルの範囲をトレーニングし、評価するために、20,000以上のサンプルのデータセットを構築します。構造化された数値的選好の単純な微調整は、顕著な利得をもたらし、目に見えない分布外のサブグループの精度を平均17.4%向上させることを示した。これらの利得は部分的にオープンエンド世代に移行する。しかし、モデルが若者、男性、中国人、キリスト教のペルソナをよりうまくエミュレートする、既存のパフォーマンスバイアスがかなりある。さらに、微調整により平均性能が向上する一方、距離認識メトリクスによる測定では、サブグループ間の格差が拡大する。我々の研究は、サブグループレベルの文化的アライメントの限界と公平性に関する洞察を提供する。

関連論文リスト

Distributional Open-Ended Evaluation of LLM Cultural Value Alignment Based on Value Codebook [50.10594064510559]
DOVEは、人文テキストとLLM出力を直接比較する分散評価フレームワークである。 DOVEは, ダウンストリームタスクと31.56%の相関を達成し, 高い信頼性を保ちながら, 文化ごとのサンプル500点程度の信頼性を維持した。
論文参考訳（メタデータ） (2026-03-16T08:33:10Z)
Us-vs-Them bias in Large Language Models [0.569978892646475]
基礎的大言語モデル間で、一貫した内集団陽性および外集団陰性な関連を見いだす。調査対象者は,保守的ペルソナは対人関係が強く,リベラルなペルソナは対人関係が強かった。
論文参考訳（メタデータ） (2025-12-03T07:11:22Z)
Culture Affordance Atlas: Reconciling Object Diversity Through Functional Mapping [38.345727498425]
VL(Vision-Language)データセットは、文化的な偏見を示し、高い所得、西洋の文脈を不均等に好んでいる。本稿では, 多様な文化的・経済的文脈にまたがって, 対象物が果たす機能によって分類する, 機能中心の枠組みを提案する。
論文参考訳（メタデータ） (2025-12-02T19:16:39Z)
Mind the Gaps: Auditing and Reducing Group Inequity in Large-Scale Mobility Prediction [9.369284351516358]
次のロケーション予測は、モビリティ、小売、公衆衛生のアプリケーションの増加を支えている。本稿では,大規模データセット上で訓練された最先端のモビリティ予測モデルを評価する。基礎となるデータセットから生じる系統的な差異が示され、位置とユーザグループに基づいて精度に大きな違いが生じる。
論文参考訳（メタデータ） (2025-10-30T18:54:33Z)
Exploring Cultural Variations in Moral Judgments with Large Language Models [0.5356944479760104]
対数確率に基づく道徳的正当性スコアを用いて、各モデルのアウトプットを、幅広い倫理的トピックをカバーする調査データと相関付けする。以上の結果から, 早期モデルや小型モデルでは, 人的判断とほぼゼロに近い相関や負の相関が生じることが示唆された。高度な命令調整モデル(GPT-4oやGPT-4o-miniを含む)は、かなり高い正の相関を達成し、現実世界の道徳的態度をよりよく反映している。
論文参考訳（メタデータ） (2025-06-14T10:16:48Z)
WorldPM: Scaling Human Preference Modeling [130.23230492612214]
我々は、このスケーリングの可能性を強調するために、World Preference Modeling$ (WorldPM)を提案する。多様なユーザコミュニティをカバーする公開フォーラムから選好データを収集する。 1.5Bから72Bパラメータの範囲で15Mスケールのデータを用いて広範囲なトレーニングを行う。
論文参考訳（メタデータ） (2025-05-15T17:38:37Z)
Towards Large Language Models that Benefit for All: Benchmarking Group Fairness in Reward Models [16.977176752570617]
大規模言語モデル(LLM)は、ますます強力で、人間のユーザにとってアクセスしやすくなっている。多様な人口集団、すなわちグループフェアネスの公平性を保証することは、批判的な倫理的関心事である。この研究は、学習した報酬モデルのグループフェアネスをベンチマークする。
論文参考訳（メタデータ） (2025-03-10T19:39:39Z)
On the steerability of large language models toward data-driven personas [98.9138902560793]
大規模言語モデル(LLM)は、特定のグループや集団の意見が不足している偏りのある応答を生成することが知られている。本稿では, LLM を用いて特定の視点の制御可能な生成を実現するための新しい手法を提案する。
論文参考訳（メタデータ） (2023-11-08T19:01:13Z)
Bias and Fairness in Large Language Models: A Survey [73.87651986156006]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文参考訳（メタデータ） (2023-09-02T00:32:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。