論文の概要: Testing Conviction: An Argumentative Framework for Measuring LLM Political Stability
- arxiv url: http://arxiv.org/abs/2504.17052v2
- Date: Fri, 29 Aug 2025 10:47:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-01 15:42:25.847015
- Title: Testing Conviction: An Argumentative Framework for Measuring LLM Political Stability
- Title(参考訳): テストの信念: LLMの政治的安定性を測定するための議論的なフレームワーク
- Authors: Shariar Kabir, Kevin Esterling, Yue Dong,
- Abstract要約: 大規模言語モデルは政治的議論を形成するが、挑戦された時に矛盾する反応を示す。
反応を安定的あるいは実演的なイデオロギー的位置決めとして分類する。
我々は、イデオロギーの安定性がトピック依存であることを示し、モノリシックなLCMイデオロギーの概念に挑戦する。
- 参考スコア(独自算出の注目度): 3.84754844062131
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) increasingly shape political discourse, yet exhibit inconsistent responses when challenged. While prior research categorizes LLMs as left- or right-leaning based on single-prompt responses, a critical question remains: Do these classifications reflect stable ideologies or superficial mimicry? Existing methods cannot distinguish between genuine ideological alignment and performative text generation. To address this, we propose a framework for evaluating ideological depth through (1) argumentative consistency and (2) uncertainty quantification. Testing 12 LLMs on 19 economic policies from the Political Compass Test, we classify responses as stable or performative ideological positioning. Results show 95% of left-leaning models and 89% of right-leaning models demonstrate behavior consistent with our classifications across different experimental conditions. Furthermore, semantic entropy strongly validates our classifications (AUROC=0.78), revealing uncertainty's relationship to ideological consistency. Our findings demonstrate that ideological stability is topic-dependent and challenge the notion of monolithic LLM ideologies, and offer a robust way to distinguish genuine alignment from performative behavior.
- Abstract(参考訳): 大規模言語モデル(LLM)は、政治的議論をますます形作るが、挑戦されると矛盾する反応を示す。
従来の研究では、LSMをシングルプロンプト応答に基づく左または右リーンに分類していたが、重要な疑問が残る: これらの分類は安定したイデオロギーや表面的な模倣を反映しているか?
既存の方法は、真のイデオロギー的アライメントとパフォーマンス的テキスト生成を区別できない。
そこで本研究では,(1)議論的一貫性と(2)不確実性定量化によるイデオロギー的深度評価フレームワークを提案する。
政治コンパステストから19の経済政策を12 LLMで検証し、反応を安定的または実行的イデオロギー的位置づけに分類する。
その結果、左利きモデルの95%、右利きモデルの89%は、異なる実験条件の分類と一致した振る舞いを示した。
さらに、セマンティックエントロピーは我々の分類(AUROC=0.78)を強く検証し、イデオロギーの一貫性に対する不確実性を明らかにする。
以上の結果から,イデオロギーの安定性はトピック依存であり,モノリシックなLCMイデオロギーの概念に挑戦することが示唆された。
関連論文リスト
- On the Inevitability of Left-Leaning Political Bias in Aligned Language Models [0.0]
大型言語モデル(LLM)が左派政治的偏見を示すという懸念がある。
私は、無害で正直に訓練されたインテリジェントなシステムは、必ずしも左翼の政治的偏見を示さなければならないと論じます。
論文 参考訳(メタデータ) (2025-07-21T07:37:28Z) - Democratic or Authoritarian? Probing a New Dimension of Political Biases in Large Language Models [72.89977583150748]
本研究では,大規模言語モデルとより広い地政学的価値システムとの整合性を評価する新しい手法を提案する。
LLMは一般的に民主的価値観や指導者を好んでいるが、マンダリンでの権威主義的人物に対する好意が増している。
論文 参考訳(メタデータ) (2025-06-15T07:52:07Z) - Better Aligned with Survey Respondents or Training Data? Unveiling Political Leanings of LLMs on U.S. Supreme Court Cases [24.622980403581018]
トレーニングコーパス形状モデルに埋め込まれた値とバイアスがどのように出力するかを実証的に検討する。
ケーススタディとして、米国最高裁判所32件のLLMの政治的傾向を調査することに焦点をあてる。
論文 参考訳(メタデータ) (2025-02-25T15:16:17Z) - Adversarial Alignment for LLMs Requires Simpler, Reproducible, and More Measurable Objectives [52.863024096759816]
相反する研究目的は、過去10年間に敵対的堅牢性研究の進展を妨げてきた。
我々は、対立するアライメントの有意義な進展には、リアライメントの目的が必要であると論じる。
論文 参考訳(メタデータ) (2025-02-17T15:28:40Z) - Examining Alignment of Large Language Models through Representative Heuristics: The Case of Political Stereotypes [20.407518082067437]
本研究では,大規模言語モデル(LLM)と人的価値との整合性を検討した。
政治問題に関する実証的な立場からLLMの逸脱に寄与する要因を分析した。
LLMは特定の政党の立場を模倣できるが、人間の調査回答者よりもこれらの立場を誇張することが多い。
論文 参考訳(メタデータ) (2025-01-24T07:24:23Z) - Value Compass Leaderboard: A Platform for Fundamental and Validated Evaluation of LLMs Values [76.70893269183684]
大きな言語モデル(LLM)は目覚ましいブレークスルーを達成し、その価値を人間と一致させることが必須になっている。
既存の評価は、バイアスや毒性といった安全性のリスクに焦点を絞っている。
既存のベンチマークはデータ汚染の傾向があります。
個人や文化にまたがる人的価値の多元的性質は、LLM値アライメントの測定において無視される。
論文 参考訳(メタデータ) (2025-01-13T05:53:56Z) - Aligning Large Language Models for Faithful Integrity Against Opposing Argument [71.33552795870544]
大規模言語モデル(LLM)は複雑な推論タスクにおいて印象的な機能を示している。
原文が正しい場合でも、会話中に不誠実な議論によって容易に誤解される。
本稿では,信頼度と信頼度を両立させる新しい枠組みを提案する。
論文 参考訳(メタデータ) (2025-01-02T16:38:21Z) - Belief in the Machine: Investigating Epistemological Blind Spots of Language Models [51.63547465454027]
言語モデル(LM)は、医療、法律、ジャーナリズムといった分野において、信頼できる意思決定に不可欠である。
本研究は,新しいデータセットであるKaBLEを用いて,GPT-4,Claude-3,Llama-3を含む現代のLMの能力を体系的に評価する。
まず、LMは事実シナリオで86%の精度を達成するが、その性能は偽シナリオで著しく低下する。
第二に、特にこれらの信念が事実データと矛盾する場合、LMは個人的信念を認識し、肯定するのに苦労する。
論文 参考訳(メタデータ) (2024-10-28T16:38:20Z) - Whose Side Are You On? Investigating the Political Stance of Large Language Models [56.883423489203786]
大規模言語モデル(LLM)の政治的指向性について,8つのトピックのスペクトルにわたって検討する。
我々の調査は、中絶からLGBTQ問題まで8つのトピックにまたがるLLMの政治的整合性について考察している。
この結果から,ユーザはクエリ作成時に留意すべきであり,中立的なプロンプト言語を選択する際には注意が必要であることが示唆された。
論文 参考訳(メタデータ) (2024-03-15T04:02:24Z) - Beyond prompt brittleness: Evaluating the reliability and consistency of political worldviews in LLMs [13.036825846417006]
政治声明に対する大規模言語モデルの姿勢の信頼性と整合性を評価するための一連のテストを提案する。
本研究では, 7B から 70B までの大きさのモデルについて検討し, パラメータ数によって信頼性が向上することを確認した。
より大きなモデルは、左派政党との全体的な整合性を示すが、政策プログラムによって異なる。
論文 参考訳(メタデータ) (2024-02-27T16:19:37Z) - Political Compass or Spinning Arrow? Towards More Meaningful Evaluations for Values and Opinions in Large Language Models [61.45529177682614]
我々は,大規模言語モデルにおける価値と意見の制約評価パラダイムに挑戦する。
強制されない場合、モデルが実質的に異なる答えを与えることを示す。
我々はこれらの知見をLLMの価値と意見を評価するための推奨とオープンな課題に抽出する。
論文 参考訳(メタデータ) (2024-02-26T18:00:49Z) - Inducing Political Bias Allows Language Models Anticipate Partisan
Reactions to Controversies [5.958974943807783]
本研究では,Large Language Models (LLMs) を用いたデジタル談話における政治的偏見の理解の課題に対処する。
本稿では,Partisan Bias Divergence AssessmentとPartisan Class Tendency Predictionからなる包括的分析フレームワークを提案する。
以上の結果から,感情的・道徳的ニュアンスを捉えたモデルの有効性が明らかとなった。
論文 参考訳(メタデータ) (2023-11-16T08:57:53Z) - Exploring the Jungle of Bias: Political Bias Attribution in Language Models via Dependency Analysis [86.49858739347412]
大規模言語モデル(LLM)は、これらのモデルにおけるバイアスの頻度とその緩和に関する激しい議論を引き起こしている。
本稿では,意思決定プロセスに寄与する属性の抽出と仲介を行うためのプロンプトベースの手法を提案する。
観察された異なる治療は、少なくとも部分的には、属性の相違とモデルの相違によるものであることが判明した。
論文 参考訳(メタデータ) (2023-11-15T00:02:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。