論文の概要: Social Policy of Large Language Models: How GPT, Claude, DeepSeek and Grok Allocate Social Budgets in Spain and Germany
- arxiv url: http://arxiv.org/abs/2605.10234v1
- Date: Mon, 11 May 2026 09:10:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.676845
- Title: Social Policy of Large Language Models: How GPT, Claude, DeepSeek and Grok Allocate Social Budgets in Spain and Germany
- Title(参考訳): 大規模言語モデルの社会政策 : GPT, Claude, DeepSeek, Grokがスペインとドイツの社会予算をどうアロケートするか
- Authors: Claudia Benavides Cantos, Eduardo C. Garrido-Merchán,
- Abstract要約: 我々は,Claude,GPT-4o,DeepSeek,Grokの4つの大規模言語モデルを用いて,スペインとドイツという2つの欧州の状況下で,固定的な国家社会予算を分配する方法について検討した。
我々は、地政学的偏見、住宅のアンダーアロケーション、構造的収束、国家的文脈への感受性、政治的に敏感なカテゴリーのアンダー表現に関する5つの仮説を定式化する。
その結果、すべての4つのモデルが、実際のヨーロッパの支出構造から分岐する、体系的な暗黙の社会政策を共有していることがわかった。
- 参考スコア(独自算出の注目度): 1.3320917259299652
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study how four widely used large language models, namely Claude, GPT-4o, DeepSeek and Grok, distribute a fixed national social budget across twelve macro-areas of public expenditure under two European national contexts, Spain and Germany. Each combination of model and country is queried six times under identical prompts and generation parameters, producing forty-eight independent allocations that are compared against approximate Organisation for Economic Co-operation and Development (OECD) reference budgets and against each other. We formalise five hypotheses regarding geopolitical bias, housing under-allocation, structural convergence, sensitivity to national context, and under-representation of politically sensitive categories. The differences between models are then validated through Kruskal-Wallis tests on each macro-area, with post-hoc Mann-Whitney U comparisons under Bonferroni correction, and complemented by an analysis of pairwise Pearson correlations and a lexical examination of the textual justifications produced by each model. The results show that all four models share a systematic implicit social policy that diverges from real European spending structures: pensions are under-allocated by a factor close to three, while housing and employment are over-allocated by factors of four and two respectively. The principal axis of differentiation between models is not geopolitical, since Claude and DeepSeek are the most correlated pair across both countries, but rather a contrast between concentration and dispersion of the budget. Only Claude exhibits substantive sensitivity to the national context. The conclusions delimit the conditions under which language models may responsibly support, but not replace, expert deliberation in public budgeting.
- Abstract(参考訳): 我々は、スペインとドイツという2つの欧州の状況下で、広く使われている4つの大きな言語モデル、すなわちClaude、GPT-4o、DeepSeek、Grokが、12の公共支出のマクロ領域に固定された国家的社会予算を分配する方法について検討した。
モデルと国の組み合わせはそれぞれ、同一のプロンプトと生成パラメータの下で6回クエリされ、経済協力開発機構(OECD)の基準予算と対等に比較される48の独立したアロケーションが作成される。
我々は、地政学的偏見、住宅のアンダーアロケーション、構造的収束、国家的文脈への感受性、政治的に敏感なカテゴリーのアンダー表現に関する5つの仮説を定式化する。
モデル間の差異は、各マクロ領域におけるKruskal-Wallisテスト、ボンフェロニ補正の下でのポストホックのMann-Whitney U比較によって検証され、ペアワイズピアソン相関の解析と各モデルによって生成されたテキストの正当性に関する語彙的検証によって補完される。
その結果、すべての4つのモデルが、実際の欧州の支出構造から切り離された体系的な暗黙の社会政策を共有していることが明らかとなった。
クロードとディープシークは両国で最も相関が深いため、モデル間の分化の主軸は地政学的ではなく、むしろ予算の集中と分散の対比である。
クロードだけが国家の文脈に実質的な感受性を示す。
結論は、言語モデルが責任を持って支持できるが、公共予算における専門家の審議を置き換えない条件を除外する。
関連論文リスト
- Unsupervised Machine Learning for Detecting Structural Anomalies in European Regional Statistics [0.0]
本稿では,ヨーロッパにおける構造的非典型的地域プロファイルを,公開可能なユーロスタットデータを用いて識別するための教師なし機械学習フレームワークを提案する。
我々は,国民一人当たりGDP,失業率,第三次教育達成率,人口密度の4つの指標を網羅したNUTS2領域の横断データセット(2022年)を構築した。
我々は,5つの異常検出手法,マハラノビス距離,孤立林,局所アウトリア因子,ワンクラスSVMを適用・比較し,少なくとも3つの手法でフラグ付けされた場合,その領域を構造的異常として分類する。
論文 参考訳(メタデータ) (2026-05-04T17:54:36Z) - The production of meaning in the processing of natural language [0.0]
あいまいな表現の解釈における文脈性実験におけるベルの不等式について検討した。
我々は、$|S|$分布の四元数範囲が全ての外部ベンチマークと完全に直交していることを発見した。
我々は,真の文脈性がインジェクション防衛に課す情報理論的制約について論じる。
論文 参考訳(メタデータ) (2026-03-20T18:00:19Z) - Distributional Clarity: The Hidden Driver of RL-Friendliness in Large Language Models [50.99097734404912]
RLフレンドリなモデルでは, クラス内コンパクト性やクラス間分離が, 正誤応答に対する確率割当に現れることを示す。
6つの数学ベンチマークによる実験では、すべてのモデルファミリで一貫した改善が見られ、AIME24では5.9ポイントまで向上した。
論文 参考訳(メタデータ) (2026-01-11T13:34:44Z) - CCD-Bench: Probing Cultural Conflict in Large Language Model Decision-Making [0.9310318514564272]
大きな言語モデルは、合法的に異なる文化的価値システム間の明示的な衝突をナビゲートすることができる。
CCD-Benchは、文化的価値の対立の下で意思決定を評価するベンチマークである。
CCD-Benchは、孤立バイアス検出以上の評価を多元的意思決定にシフトする。
論文 参考訳(メタデータ) (2025-10-03T22:55:37Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - When Dialects Collide: How Socioeconomic Mixing Affects Language Use [0.4249842620609683]
より異なる社会経済階級が混在するほど、標準文法からの離脱頻度と収入の相互依存度は低下する。
本稿では,データに見られる観察結果を生成するメカニズムに光を当てる,言語多様性導入のエージェントベースモデルを提案する。
論文 参考訳(メタデータ) (2023-07-19T14:55:50Z) - Relational Proxies: Emergent Relationships as Fine-Grained
Discriminators [52.17542855760418]
本稿では,オブジェクトのグローバル部分とローカル部分の間の情報を利用してラベルを符号化する手法を提案する。
我々は、理論的な結果に基づいてプロキシを設計し、7つの挑戦的なきめ細かいベンチマークデータセットに基づいて評価する。
また、この理論を実験的に検証し、複数のベンチマークで一貫した結果を得る。
論文 参考訳(メタデータ) (2022-10-05T11:08:04Z) - Hybrid Spectrogram and Waveform Source Separation [91.3755431537592]
エンド・ツー・エンドのハイブリッド・ソース分離を行う方法を示し、各ソースに適したドメインをモデルで決定する。
提案されたDemucsアーキテクチャのハイブリッドバージョンは、ソニーが主催したMusic Demixing Challenge 2021で優勝した。
論文 参考訳(メタデータ) (2021-11-05T16:37:45Z) - Linguistic dependencies and statistical dependence [76.89273585568084]
文脈における単語の確率を推定するために,事前学習した言語モデルを用いる。
最大CPMI木は非文脈PMI推定値から抽出した木よりも言語的依存関係によく対応していることがわかった。
論文 参考訳(メタデータ) (2021-04-18T02:43:37Z) - When and How to Lift the Lockdown? Global COVID-19 Scenario Analysis and
Policy Assessment using Compartmental Gaussian Processes [111.69190108272133]
新型コロナウイルス(COVID-19)の世界的な感染拡大を受け、多くの国が前例のないロックダウン措置を講じている。
さまざまなロックダウンポリシーシナリオの下で、新型コロナウイルスの死亡率を予測するデータ駆動モデルが不可欠だ。
本稿では,グローバルな状況下での新型コロナウイルスロックダウンポリシーの効果を予測するためのベイズモデルを開発する。
論文 参考訳(メタデータ) (2020-05-13T18:21:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。