論文の概要: GermanPartiesQA: Benchmarking Commercial Large Language Models for Political Bias and Sycophancy
- arxiv url: http://arxiv.org/abs/2407.18008v1
- Date: Thu, 25 Jul 2024 13:04:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-26 14:08:56.322570
- Title: GermanPartiesQA: Benchmarking Commercial Large Language Models for Political Bias and Sycophancy
- Title(参考訳): GermanPartiesQA: 政治的バイアスとシコファンシーのための商用大規模言語モデルのベンチマーク
- Authors: Jan Batzner, Volker Stocker, Stefan Schmid, Gjergji Kasneci,
- Abstract要約: 我々は,OpenAI, Anthropic, Cohereの6つのLDMのアライメントをドイツ政党の立場と比較した。
我々は、主要なドイツの国会議員のベンチマークデータと社会デマグラフィーデータを用いて、迅速な実験を行う。
- 参考スコア(独自算出の注目度): 20.06753067241866
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLMs are changing the way humans create and interact with content, potentially affecting citizens' political opinions and voting decisions. As LLMs increasingly shape our digital information ecosystems, auditing to evaluate biases, sycophancy, or steerability has emerged as an active field of research. In this paper, we evaluate and compare the alignment of six LLMs by OpenAI, Anthropic, and Cohere with German party positions and evaluate sycophancy based on a prompt experiment. We contribute to evaluating political bias and sycophancy in multi-party systems across major commercial LLMs. First, we develop the benchmark dataset GermanPartiesQA based on the Voting Advice Application Wahl-o-Mat covering 10 state and 1 national elections between 2021 and 2023. In our study, we find a left-green tendency across all examined LLMs. We then conduct our prompt experiment for which we use the benchmark and sociodemographic data of leading German parliamentarians to evaluate changes in LLMs responses. To differentiate between sycophancy and steerabilty, we use 'I am [politician X], ...' and 'You are [politician X], ...' prompts. Against our expectations, we do not observe notable differences between prompting 'I am' and 'You are'. While our findings underscore that LLM responses can be ideologically steered with political personas, they suggest that observed changes in LLM outputs could be better described as personalization to the given context rather than sycophancy.
- Abstract(参考訳): LLMは、人間がコンテンツを作成し、対話する方法を変えており、市民の政治的意見や投票決定に影響を与える可能性がある。
LLMが私たちのデジタル情報エコシステムをますます形成していくにつれて、バイアス、薬効、または操縦性を評価する監査が研究の活発な分野として現れています。
本論文では,OpenAI, Anthropic, Cohere による6つの LLM とドイツ政党の位置のアライメントを評価し, 即時実験に基づいて薬効評価を行う。
我々は,大手商業LLMにおける多党制における政治的偏見と梅毒症の評価に貢献する。
まず,2021年から2023年にかけての10の州と1の国民選挙を対象とする投票支援アプリケーションWahl-o-Matに基づくベンチマークデータセット GermanPartiesQA を開発した。
本研究は,全LLMの左緑化傾向について検討した。
次に,ドイツの国会議員のベンチマークデータと社会デマトグラフィーデータを用いて,LSMの反応の変化を評価する。
「私は(政治X)、あなたは(政治X)...」と「あなたは(政治X)...」のプロンプトを使う。
期待に反して、我々は「私」と「あなた」との顕著な相違を観察しない。
その結果, LLMの反応は政治的ペルソナによってイデオロギー的に評価できることが示されたが, LLMのアウトプットの変化は, 梅毒ではなく, 与えられた文脈に対するパーソナライズとして説明できる可能性が示唆された。
関連論文リスト
- Large Language Models Reflect the Ideology of their Creators [73.25935570218375]
大規模言語モデル(LLM)は、自然言語を生成するために大量のデータに基づいて訓練される。
異なるLLMや言語にまたがるイデオロギー的姿勢の顕著な多様性を明らかにする。
論文 参考訳(メタデータ) (2024-10-24T04:02:30Z) - United in Diversity? Contextual Biases in LLM-Based Predictions of the 2024 European Parliament Elections [45.84205238554709]
大規模言語モデル(LLM)は、社会科学研究に革命をもたらす可能性があると認識されている。
本研究では,LLMに基づく世論の予測が文脈依存バイアスを示す程度について検討した。
我々は2024年の欧州議会選挙における投票行動について、最先端のLDMを用いて予測する。
論文 参考訳(メタデータ) (2024-08-29T16:01:06Z) - Vox Populi, Vox AI? Using Language Models to Estimate German Public Opinion [45.84205238554709]
我々は,2017年ドイツ縦断選挙研究の回答者の個人特性と一致するペルソナの合成サンプルを生成した。
我々は,LSM GPT-3.5に対して,各回答者の投票選択を予測し,これらの予測を調査に基づく推定と比較する。
GPT-3.5は市民の投票選択を正確に予測せず、緑の党と左派に偏見を呈している。
論文 参考訳(メタデータ) (2024-07-11T14:52:18Z) - Assessing Political Bias in Large Language Models [0.624709220163167]
我々は、ドイツの有権者の視点から、欧州連合(EU)内の政治問題に関するオープンソースのLarge Language Models(LLMs)の政治的バイアスを評価する。
Llama3-70Bのような大型モデルは、左派政党とより緊密に連携する傾向にあるが、小さなモデルは中立であることが多い。
論文 参考訳(メタデータ) (2024-05-17T15:30:18Z) - Whose Side Are You On? Investigating the Political Stance of Large Language Models [56.883423489203786]
大規模言語モデル(LLM)の政治的指向性について,8つのトピックのスペクトルにわたって検討する。
我々の調査は、中絶からLGBTQ問題まで8つのトピックにまたがるLLMの政治的整合性について考察している。
この結果から,ユーザはクエリ作成時に留意すべきであり,中立的なプロンプト言語を選択する際には注意が必要であることが示唆された。
論文 参考訳(メタデータ) (2024-03-15T04:02:24Z) - Political Compass or Spinning Arrow? Towards More Meaningful Evaluations for Values and Opinions in Large Language Models [61.45529177682614]
我々は,大規模言語モデルにおける価値と意見の制約評価パラダイムに挑戦する。
強制されない場合、モデルが実質的に異なる答えを与えることを示す。
我々はこれらの知見をLLMの価値と意見を評価するための推奨とオープンな課題に抽出する。
論文 参考訳(メタデータ) (2024-02-26T18:00:49Z) - The Political Preferences of LLMs [0.0]
私は、テストテイカーの政治的嗜好を特定するために、11の政治的指向テストを実行し、24の最先端の会話型LLMを実行します。
ほとんどの会話型LLMは、ほとんどの政治的テスト機器によって、中心の視点の好みを示すものとして認識される応答を生成する。
LLMは、スーパービジョンファインチューニングを通じて、政治スペクトルの特定の場所に向けて操れることを実証します。
論文 参考訳(メタデータ) (2024-02-02T02:43:10Z) - LLM Voting: Human Choices and AI Collective Decision Making [0.0]
本稿では,大規模言語モデル (LLM) の投票行動,特に GPT-4 と LLaMA-2 について検討する。
投票方法の選択と提示順序がLLM投票結果に影響を及ぼすことがわかった。
さまざまな人格がこれらのバイアスの一部を減らし、人間の選択との整合性を高めることができることがわかった。
論文 参考訳(メタデータ) (2024-01-31T14:52:02Z) - Whose Opinions Do Language Models Reflect? [88.35520051971538]
質の高い世論調査と関連する人的反応を利用して,言語モデル(LM)に反映された意見を検討する。
我々は、現在のLMが反映している見解と、アメリカの人口集団の見解の間にかなりの不一致を見出した。
我々の分析は、人間のフィードバック調整されたLMの左利き傾向に関する事前の観察を裏付けるものである。
論文 参考訳(メタデータ) (2023-03-30T17:17:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。