論文の概要: Do Words Reflect Beliefs? Evaluating Belief Depth in Large Language Models
- arxiv url: http://arxiv.org/abs/2504.17052v1
- Date: Wed, 23 Apr 2025 19:00:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.145234
- Title: Do Words Reflect Beliefs? Evaluating Belief Depth in Large Language Models
- Title(参考訳): 単語は信念を反映しているか? 大規模言語モデルにおける信念深さの評価
- Authors: Shariar Kabir, Kevin Esterling, Yue Dong,
- Abstract要約: 大規模言語モデル(LLM)は政治的議論をますます形作っているが、その反応は精査を受けると矛盾することが多い。
これらの反応は、本物の内的信念を反映しているか、あるいは単にトレーニングデータと表面的なアライメントを反映しているのか?
本稿では,議論的一貫性と(2)不確実性定量化を分析し,信念の深さを評価する新しい枠組みを提案する。
- 参考スコア(独自算出の注目度): 3.4280925987535786
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are increasingly shaping political discourse, yet their responses often display inconsistency when subjected to scrutiny. While prior research has primarily categorized LLM outputs as left- or right-leaning to assess their political stances, a critical question remains: Do these responses reflect genuine internal beliefs or merely surface-level alignment with training data? To address this, we propose a novel framework for evaluating belief depth by analyzing (1) argumentative consistency and (2) uncertainty quantification. We evaluate 12 LLMs on 19 economic policies from the Political Compass Test, challenging their belief stability with both supportive and opposing arguments. Our analysis reveals that LLMs exhibit topic-specific belief stability rather than a uniform ideological stance. Notably, up to 95% of left-leaning models' responses and 89% of right-leaning models' responses remain consistent under the challenge, enabling semantic entropy to achieve high accuracy (AUROC=0.78), effectively distinguishing between surface-level alignment from genuine belief. These findings call into question the assumption that LLMs maintain stable, human-like political ideologies, emphasizing the importance of conducting topic-specific reliability assessments for real-world applications.
- Abstract(参考訳): 大規模言語モデル(LLM)は政治的議論をますます形作っているが、その反応は精査を受けると矛盾することが多い。
これまでの研究では、LLMのアウトプットを政治的スタンスを評価するために左ないし右派に分類していたが、重要な疑問が残る。
そこで本研究では,(1)議論的一貫性と(2)不確実性定量化を分析し,信念の深さを評価する新しい枠組みを提案する。
我々は、政治コンパステストから19の経済政策について12のLCMを評価し、支持的・反対的な議論で彼らの信念の安定に挑戦する。
分析の結果,LLMは一様イデオロギー的スタンスではなく,トピック特有の信念の安定性を示すことが明らかとなった。
特に、左利きモデルの応答の95%と右利きモデルの応答の89%は、課題の下で一貫しており、セマンティックエントロピーが高い精度を達成することができる(AUROC=0.78)。
これらの結果は、LLMが安定的で人間的な政治的イデオロギーを維持しているという仮定を疑問視し、現実世界のアプリケーションに対してトピック固有の信頼性評価を行うことの重要性を強調している。
関連論文リスト
- Better Aligned with Survey Respondents or Training Data? Unveiling Political Leanings of LLMs on U.S. Supreme Court Cases [24.622980403581018]
トレーニングコーパス形状モデルに埋め込まれた値とバイアスがどのように出力するかを実証的に検討する。
ケーススタディとして、米国最高裁判所32件のLLMの政治的傾向を調査することに焦点をあてる。
論文 参考訳(メタデータ) (2025-02-25T15:16:17Z) - Adversarial Alignment for LLMs Requires Simpler, Reproducible, and More Measurable Objectives [52.863024096759816]
相反する研究目的は、過去10年間に敵対的堅牢性研究の進展を妨げてきた。
我々は、対立するアライメントの有意義な進展には、リアライメントの目的が必要であると論じる。
論文 参考訳(メタデータ) (2025-02-17T15:28:40Z) - Examining Alignment of Large Language Models through Representative Heuristics: The Case of Political Stereotypes [20.407518082067437]
本研究では,大規模言語モデル(LLM)と人的価値との整合性を検討した。
政治問題に関する実証的な立場からLLMの逸脱に寄与する要因を分析した。
LLMは特定の政党の立場を模倣できるが、人間の調査回答者よりもこれらの立場を誇張することが多い。
論文 参考訳(メタデータ) (2025-01-24T07:24:23Z) - Value Compass Leaderboard: A Platform for Fundamental and Validated Evaluation of LLMs Values [76.70893269183684]
大きな言語モデル(LLM)は目覚ましいブレークスルーを達成し、その価値を人間と一致させることが必須になっている。
既存の評価は、バイアスや毒性といった安全性のリスクに焦点を絞っている。
既存のベンチマークはデータ汚染の傾向があります。
個人や文化にまたがる人的価値の多元的性質は、LLM値アライメントの測定において無視される。
論文 参考訳(メタデータ) (2025-01-13T05:53:56Z) - Aligning Large Language Models for Faithful Integrity Against Opposing Argument [71.33552795870544]
大規模言語モデル(LLM)は複雑な推論タスクにおいて印象的な機能を示している。
原文が正しい場合でも、会話中に不誠実な議論によって容易に誤解される。
本稿では,信頼度と信頼度を両立させる新しい枠組みを提案する。
論文 参考訳(メタデータ) (2025-01-02T16:38:21Z) - Belief in the Machine: Investigating Epistemological Blind Spots of Language Models [51.63547465454027]
言語モデル(LM)は、医療、法律、ジャーナリズムといった分野において、信頼できる意思決定に不可欠である。
本研究は,新しいデータセットであるKaBLEを用いて,GPT-4,Claude-3,Llama-3を含む現代のLMの能力を体系的に評価する。
まず、LMは事実シナリオで86%の精度を達成するが、その性能は偽シナリオで著しく低下する。
第二に、特にこれらの信念が事実データと矛盾する場合、LMは個人的信念を認識し、肯定するのに苦労する。
論文 参考訳(メタデータ) (2024-10-28T16:38:20Z) - Whose Side Are You On? Investigating the Political Stance of Large Language Models [56.883423489203786]
大規模言語モデル(LLM)の政治的指向性について,8つのトピックのスペクトルにわたって検討する。
我々の調査は、中絶からLGBTQ問題まで8つのトピックにまたがるLLMの政治的整合性について考察している。
この結果から,ユーザはクエリ作成時に留意すべきであり,中立的なプロンプト言語を選択する際には注意が必要であることが示唆された。
論文 参考訳(メタデータ) (2024-03-15T04:02:24Z) - Beyond prompt brittleness: Evaluating the reliability and consistency of political worldviews in LLMs [13.036825846417006]
政治声明に対する大規模言語モデルの姿勢の信頼性と整合性を評価するための一連のテストを提案する。
本研究では, 7B から 70B までの大きさのモデルについて検討し, パラメータ数によって信頼性が向上することを確認した。
より大きなモデルは、左派政党との全体的な整合性を示すが、政策プログラムによって異なる。
論文 参考訳(メタデータ) (2024-02-27T16:19:37Z) - Political Compass or Spinning Arrow? Towards More Meaningful Evaluations for Values and Opinions in Large Language Models [61.45529177682614]
我々は,大規模言語モデルにおける価値と意見の制約評価パラダイムに挑戦する。
強制されない場合、モデルが実質的に異なる答えを与えることを示す。
我々はこれらの知見をLLMの価値と意見を評価するための推奨とオープンな課題に抽出する。
論文 参考訳(メタデータ) (2024-02-26T18:00:49Z) - Inducing Political Bias Allows Language Models Anticipate Partisan
Reactions to Controversies [5.958974943807783]
本研究では,Large Language Models (LLMs) を用いたデジタル談話における政治的偏見の理解の課題に対処する。
本稿では,Partisan Bias Divergence AssessmentとPartisan Class Tendency Predictionからなる包括的分析フレームワークを提案する。
以上の結果から,感情的・道徳的ニュアンスを捉えたモデルの有効性が明らかとなった。
論文 参考訳(メタデータ) (2023-11-16T08:57:53Z) - Exploring the Jungle of Bias: Political Bias Attribution in Language Models via Dependency Analysis [86.49858739347412]
大規模言語モデル(LLM)は、これらのモデルにおけるバイアスの頻度とその緩和に関する激しい議論を引き起こしている。
本稿では,意思決定プロセスに寄与する属性の抽出と仲介を行うためのプロンプトベースの手法を提案する。
観察された異なる治療は、少なくとも部分的には、属性の相違とモデルの相違によるものであることが判明した。
論文 参考訳(メタデータ) (2023-11-15T00:02:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。