論文の概要: Training-Free Cultural Alignment of Large Language Models via Persona Disagreement
- arxiv url: http://arxiv.org/abs/2605.10843v2
- Date: Mon, 18 May 2026 13:29:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 23:51:08.262556
- Title: Training-Free Cultural Alignment of Large Language Models via Persona Disagreement
- Title(参考訳): ペルソナ分類による大規模言語モデルの学習自由な文化的アライメント
- Authors: Huynh Trung Kiet, Dao Sy Duy Minh, Tuan Nguyen, Chi-Nguyen Tran, Phu-Hoa Pham, Nguyen Lam Phu Quy, The Anh Han, Long Tran-Thanh,
- Abstract要約: 本研究では、各国を世界価値サーベイグラウンドのペルソナエージェントのパネルとしてインスタンス化し、その不一致をバウンド・ロス・アバースロジット補正に変換する推論時手法であるdisCAを紹介する。
以上の結果から,推論時キャリブレーションは,グローバルな道徳的嗜好の長い尾を提供するための微調整に代わるスケーラブルな代替手段であることが示唆された。
- 参考スコア(独自算出の注目度): 7.507356092823674
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models increasingly mediate decisions that turn on moral judgement, yet a growing body of evidence shows that their implicit preferences are not culturally neutral. Existing cultural alignment methods either require per-country preference data and fine-tuning budgets or assume white-box access to model internals that commercial APIs do not expose. In this work, we focus on this realistic black-box, public-data-only regime and observe that within-country sociodemographic disagreement, not consensus, is the primary steering signal. We introduce DISCA (Disagreement-Informed Steering for Cultural Alignment), an inference-time method that instantiates each country as a panel of World-Values-Survey-grounded persona agents and converts their disagreement into a bounded, loss-averse logit correction. Across 20 countries and 7 open-weight backbones (2B--70B), DISCA reduces cultural misalignment on MultiTP by 10--24% on the six backbones >=3.8B, and 2--7% on open-ended scenarios, without changing any weights. Our results suggest that inference-time calibration is a scalable alternative to fine-tuning for serving the long tail of global moral preferences.
- Abstract(参考訳): 大きな言語モデルは、道徳的判断を導く決定を仲介する傾向にあるが、その暗黙の好みが文化的に中立ではないことを示す証拠が増えている。
既存の文化的アライメント手法では、国ごとの嗜好データと微調整の予算を必要とするか、商用APIが公開していないモデル内部へのホワイトボックスアクセスを仮定する。
本研究では、この現実的なブラックボックス、パブリックデータのみの体制に注目し、コンセンサスではなく、国内における社会デマログラフィーの不一致が主要な操縦信号であることを観察する。
本研究では,disCA(Disagreement-Informed Steering for Cultural Alignment)を導入し,各国をWorld-Values-Survey-grounded Personaエージェントのパネルとしてインスタンス化し,その不一致を境界付きロスアバースロジット補正に変換する。
20か国と7つのオープンウェイトバックボーン(2B--70B)で、DICAはMultiTPの文化的不整合を6つのバックボーン >=3.8B で10~24%減らし、オープンエンドシナリオでは2~7%減らしている。
以上の結果から,推論時キャリブレーションは,グローバルな道徳的嗜好の長い尾を提供するための微調整に代わるスケーラブルな代替手段であることが示唆された。
関連論文リスト
- Can Persona-Prompted LLMs Emulate Subgroup Values? An Empirical Analysis of Generalisability and Fairness in Cultural Alignment [75.88231994139132]
GPT-4.1のような最先端モデルでさえ、モーダル選好を予測する精度は57.4%に過ぎなかった。
モデルでは、若者、男性、中国人、キリスト教のペルソナをよりうまくエミュレートする。
論文 参考訳(メタデータ) (2026-04-14T15:06:13Z) - Does Claude's Constitution Have a Culture? [0.0]
我々は,6つの価値領域にまたがる高い異文化性を示す55の世界価値調査項目について,Claude Sonnetの評価を行った。
クロードの価値プロファイルは、北欧や英語圏のものと最もよく似ている。
本研究は, このリスクの複合性と, グローバルに代表される憲法制定プロセスの必要性について論じる。
論文 参考訳(メタデータ) (2026-03-30T07:38:46Z) - CCD-Bench: Probing Cultural Conflict in Large Language Model Decision-Making [0.9310318514564272]
大きな言語モデルは、合法的に異なる文化的価値システム間の明示的な衝突をナビゲートすることができる。
CCD-Benchは、文化的価値の対立の下で意思決定を評価するベンチマークである。
CCD-Benchは、孤立バイアス検出以上の評価を多元的意思決定にシフトする。
論文 参考訳(メタデータ) (2025-10-03T22:55:37Z) - ALIGN: Word Association Learning for Cross-Cultural Generalization in Large Language Models [0.8999666725996975]
文化的な知識が限られているため、文化をモデル化し、調整することは依然として課題である。
本稿では,母語話者の自由な単語連想規範をパラメータ効率で微調整する手法を提案する。
私たちの研究は、数百万の文化に根ざした協会が、コストのかかる再トレーニングなしに価値アライメントを組み込むことができることを示している。
論文 参考訳(メタデータ) (2025-08-19T00:55:20Z) - The Cultural Gene of Large Language Models: A Study on the Impact of Cross-Corpus Training on Model Values and Biases [0.0]
大規模言語モデル(LLM)は世界中に展開されているが、その根底にある文化的・倫理的な前提は未解明のままである。
西洋中心モデル (GPT-4) と東洋中心モデル (ERNIE Bot) を比較した。
人間のアノテーションは両次元に有意かつ一貫した相違を示す。
論文 参考訳(メタデータ) (2025-08-17T15:54:14Z) - CAIRe: Cultural Attribution of Images by Retrieval-Augmented Evaluation [61.130639734982395]
本稿では,画像の文化的関連度を評価する新しい評価指標であるCAIReを紹介する。
本フレームワークは,イメージ内の実体と概念を知識ベースに基盤として,実情報を用いて各文化ラベルに対して独立した評価を行う。
論文 参考訳(メタデータ) (2025-06-10T17:16:23Z) - WorldPM: Scaling Human Preference Modeling [130.23230492612214]
我々は、このスケーリングの可能性を強調するために、World Preference Modeling$ (WorldPM)を提案する。
多様なユーザコミュニティをカバーする公開フォーラムから選好データを収集する。
1.5Bから72Bパラメータの範囲で15Mスケールのデータを用いて広範囲なトレーニングを行う。
論文 参考訳(メタデータ) (2025-05-15T17:38:37Z) - Not All Countries Celebrate Thanksgiving: On the Cultural Dominance in
Large Language Models [89.94270049334479]
本稿では,大規模言語モデル(LLM)における文化的優位性について述べる。
LLMは、ユーザーが非英語で尋ねるときに期待する文化とは無関係な、不適切な英語文化関連の回答を提供することが多い。
論文 参考訳(メタデータ) (2023-10-19T05:38:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。