論文の概要: It's the humans, not the data: Geopolitical bias in LLMs originates in post-training, amplified by the language of the prompt
- arxiv url: http://arxiv.org/abs/2605.23825v1
- Date: Fri, 22 May 2026 16:29:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.429948
- Title: It's the humans, not the data: Geopolitical bias in LLMs originates in post-training, amplified by the language of the prompt
- Title(参考訳): LLMの地政学的偏見は訓練後から始まり、プロンプトの言語によって増幅される。
- Authors: Stuart Bladon, Brinnae Bent,
- Abstract要約: 言語モデルにおける地政学的バイアスは、事前学習フェーズで使用されるトレーニングデータに由来すると一般的に推測されている。
英語,フランス語,中国語の28国対以上で,7つの実験室から,ベースモデル(事前訓練のみ)とチャットモデル(事前訓練と後訓練)の7つのオープンウェイトLLMペアをテストした。
地政学的偏見は,事前学習よりもポストトレーニングに起因していることがわかった。
- 参考スコア(独自算出の注目度): 0.19336815376402716
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: It has generally been assumed that geopolitical bias in language models originates from the training data used during the pre-training phase. We tested seven open-weight LLM pairs consisting of the base model (pre-training only) and the chat model (pre-training and post-training) from seven labs on a paired-scenario forced-choice probe over 28 country pairs in English, French, and Chinese, and found that geopolitical bias originates in post-training rather than in pre-training. Across seven AI labs, six showed shifts in the direction associated with the country or region of the model developer after post-training. This shift is strongest in Alibaba's Qwen 2.5: while the base is neutral on China-favourability (-0.15 log-odds, p=0.15), the post-trained chat variant is at +2.91 (p<10^-4), an 18x shift in odds. We also observe shifts in biases toward other countries across all models. Additionally, the magnitude of this shift depends on the language used to prompt the model: the French-made Mistral becomes pro-France only under French prompting (FR-EN shift +1.91, p<10^-4). These findings suggest that geopolitical preferences in language models are not simply inherited from large-scale internet data but are actively shaped during post-training, highlighting the need for greater transparency, auditing, and oversight of alignment processes that influence how models represent nations, cultures, and political perspectives.
- Abstract(参考訳): 言語モデルにおける地政学的バイアスは、事前学習フェーズで使用されるトレーニングデータに由来すると一般的に推測されている。
英語,フランス語,中国語の28対以上の国語対を対象に,基本モデル(事前訓練のみ)とチャットモデル(事前訓練と後訓練)からなるオープンウェイトLLMペアを7つのラボでテストしたところ,地政学的偏差は事前訓練ではなく,ポストトレーニングに起因していることが判明した。
7つのAIラボで、6つがポストトレーニング後のモデル開発者の国または地域に関連する方向のシフトを示した。
このシフトはアリババのQwen 2.5で最強であり、中国市場ではベースが中立だが(-0.15 log-odds, p=0.15)、後にトレーニングされたチャットの変種は+2.91(p<10^-4)であり、18倍の確率でシフトしている。
また、あらゆるモデルにわたる他国への偏見の変化も観察する。
さらに、このシフトの大きさは、フランス製ミストラルがフランス製プロンプト(FR-EN shift +1.91, p<10^-4)の下でのみプロフランスとなるという、モデルを促進するために使われる言語に依存する。
これらの結果は、言語モデルの地政学的嗜好は、単に大規模なインターネットデータから受け継がれるのではなく、ポストトレーニング中に活発に形成され、モデルが国家、文化、政治的視点をどのように表現するかに影響を与える、より透明性、監査、アライメントプロセスの監督の必要性を強調していることを示唆している。
関連論文リスト
- Language as a Latent Variable for Reasoning Optimization [45.35129925776798]
LLMは英語中心のバイアスを減らすので、驚くべき傾向が現れます。
モデルの内部推論経路を構造的に修飾する潜在変数として機能する言語を仮定する。
言語変化を暗黙的な探索信号として扱うRLフレームワークであるpolyGRPOを提案する。
論文 参考訳(メタデータ) (2026-04-23T12:19:14Z) - Fluent Alignment with Disfluent Judges: Post-training for Lower-resource Languages [16.671158083515373]
対象言語における命令調整を伴わない言語モデルを構築した。
当社のアプローチでは,2つの一般的なアプローチと比較したオンライン学習手法を用いている。
ノルウェーのBokmlに関するケーススタディを行い,母国語話者による評価を通して流布度を評価する。
論文 参考訳(メタデータ) (2025-12-09T16:31:48Z) - Beyond Early-Token Bias: Model-Specific and Language-Specific Position Effects in Multilingual LLMs [50.07451351559251]
我々は,5言語(英語,ロシア語,ドイツ語,ヒンディー語,ベトナム語)にまたがる調査を行った。
位置バイアスが即時戦略とどのように相互作用し、出力エントロピーに影響を及ぼすかを検討する。
論文 参考訳(メタデータ) (2025-05-22T02:23:00Z) - SLAM: Towards Efficient Multilingual Reasoning via Selective Language Alignment [78.4550589538805]
本稿では,多言語性を扱うレイヤを正確に識別し,微調整する,効率的な多言語推論アライメント手法を提案する。
実験の結果, SLAM法は7Bおよび13BLLMのパラメータの6.5-8%を含む6層のフィードフォワードサブ層のみをチューニングできることがわかった。
論文 参考訳(メタデータ) (2025-01-07T10:29:43Z) - A Trip Towards Fairness: Bias and De-Biasing in Large Language Models [1.987426401990999]
安価なトレーニングを備えたCtB-LLM(Cheap-to-Build Very Large-Language Model)が、自然言語処理と理解における次の大きな革命として現れている。
本稿では,CtB-LLMの3家系の偏りを大規模に調査した。
脱バイアス技術は有効であり,有効であることを示す。
論文 参考訳(メタデータ) (2023-05-23T09:35:37Z) - Language-Agnostic Bias Detection in Language Models with Bias Probing [22.695872707061078]
プレトレーニング言語モデル(PLM)はNLPの主要な構成要素であるが、強い社会的バイアスを含んでいる。
本研究では,PAMにおける社会的バイアスを頑健かつ言語に依存しない方法で評価するための,LABDetと呼ばれるバイアス探索手法を提案する。
歴史的・政治的文脈に整合した6つの言語において,一貫した民族性バイアスパターンがモノリンガル PLM にまたがっていることがわかった。
論文 参考訳(メタデータ) (2023-05-22T17:58:01Z) - Language Contamination Explains the Cross-lingual Capabilities of
English Pretrained Models [79.38278330678965]
一般的な英語事前学習コーパスには、かなりの量の非英語テキストが含まれていることが判明した。
これにより、大規模なデータセットで数十億の外国語トークンが生成される。
そして、これらの少数の非英語データでさえ、それらに基づいて訓練されたモデルの言語間移動を促進することを実証する。
論文 参考訳(メタデータ) (2022-04-17T23:56:54Z) - Bridging the Data Gap between Training and Inference for Unsupervised
Neural Machine Translation [49.916963624249355]
UNMTモデルは、翻訳されたソースと推論中の自然言語で擬似並列データに基づいて訓練される。
トレーニングと推論のソース差はUNMTモデルの翻訳性能を妨げている。
本稿では、擬似並列データ自然言語を同時に用いたオンライン自己学習手法を提案する。
論文 参考訳(メタデータ) (2022-03-16T04:50:27Z) - Quantifying Gender Bias Towards Politicians in Cross-Lingual Language
Models [104.41668491794974]
代名詞として政治家の名前を取り巻く言語モデルによって生成される形容詞と動詞の用法を定量化する。
死者や指定された言葉が男女の政治家と関連しているのに対し、美人や離婚といった特定の言葉が主に女性政治家に関係していることが判明した。
論文 参考訳(メタデータ) (2021-04-15T15:03:26Z) - Emergent Communication Pretraining for Few-Shot Machine Translation [66.48990742411033]
我々は、参照ゲームからの創発的コミュニケーションを介してニューラルネットワークを事前訓練する。
私たちの重要な前提は、実世界の環境の粗悪な近似として、画像に基づくコミュニケーションを基盤にすることで、帰納的に自然言語学習のモデルに偏りが生じる、ということです。
論文 参考訳(メタデータ) (2020-11-02T10:57:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。