Fugu-MT 論文翻訳(概要): Political Compass or Spinning Arrow? Towards More Meaningful Evaluations for Values and Opinions in Large Language Models

論文の概要: Political Compass or Spinning Arrow? Towards More Meaningful Evaluations for Values and Opinions in Large Language Models

arxiv url: http://arxiv.org/abs/2402.16786v2
Date: Wed, 5 Jun 2024 10:17:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-07 01:01:43.428289
Title: Political Compass or Spinning Arrow? Towards More Meaningful Evaluations for Values and Opinions in Large Language Models
Title（参考訳）: 政治コンパス」か「スピニング・アロー」か? 大規模言語モデルにおける価値と意見のより意味のある評価に向けて
Authors: Paul Röttger, Valentin Hofmann, Valentina Pyatkin, Musashi Hinck, Hannah Rose Kirk, Hinrich Schütze, Dirk Hovy,
Abstract要約: 我々は,大規模言語モデルにおける価値と意見の制約評価パラダイムに挑戦する。強制されない場合、モデルが実質的に異なる答えを与えることを示す。我々はこれらの知見をLLMの価値と意見を評価するための推奨とオープンな課題に抽出する。
参考スコア（独自算出の注目度）: 61.45529177682614
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Much recent work seeks to evaluate values and opinions in large language models (LLMs) using multiple-choice surveys and questionnaires. Most of this work is motivated by concerns around real-world LLM applications. For example, politically-biased LLMs may subtly influence society when they are used by millions of people. Such real-world concerns, however, stand in stark contrast to the artificiality of current evaluations: real users do not typically ask LLMs survey questions. Motivated by this discrepancy, we challenge the prevailing constrained evaluation paradigm for values and opinions in LLMs and explore more realistic unconstrained evaluations. As a case study, we focus on the popular Political Compass Test (PCT). In a systematic review, we find that most prior work using the PCT forces models to comply with the PCT's multiple-choice format. We show that models give substantively different answers when not forced; that answers change depending on how models are forced; and that answers lack paraphrase robustness. Then, we demonstrate that models give different answers yet again in a more realistic open-ended answer setting. We distill these findings into recommendations and open challenges in evaluating values and opinions in LLMs.
Abstract（参考訳）: 近年の研究では, 大規模言語モデル (LLM) の価値と意見を, 複数項目のアンケートとアンケートを用いて評価することを目指している。この研究の多くは、現実世界のLLMアプリケーションに関する懸念から動機づけられている。例えば、政治的バイアスのLLMは、何百万人もの人々が使っているときに社会に微妙に影響を及ぼす可能性がある。しかし、このような現実的な懸念は、現在の評価の人工性とは対照的である。本研究は,LLMにおける価値観と意見の制約評価パラダイムに挑戦し,より現実的な非制約評価を探求する。ケーススタディでは、人気のある政治コンパステスト(PCT)に焦点を当てる。体系的なレビューでは、PCTを用いた以前の作業のほとんどは、PCTの多重選択フォーマットに従わざるを得ない。モデルが強制されない場合、その答えは、モデルがどのように強制されているかによって変わること、そして、パラフレーズの堅牢性が欠如していることを示します。そして、より現実的なオープンエンドの回答設定において、モデルがさらに異なる回答を与えることを示す。我々はこれらの知見をLLMの価値と意見を評価するための推奨とオープンな課題に抽出する。

関連論文リスト

Revisiting LLM Value Probing Strategies: Are They Robust and Expressive? [81.49470136653665]
広範に利用されている3つの探索戦略における値表現の頑健さと表現性を評価する。人口統計学的文脈は自由テキスト生成にはほとんど影響を与えず、モデルの値は値に基づく行動の好みと弱い相関しか示さない。
論文参考訳（メタデータ） (2025-07-17T18:56:41Z)
Leveraging In-Context Learning for Political Bias Testing of LLMs [44.269860094943354]
本稿では,人間の調査データをコンテキスト内例として用いた質問応答モデリング(QM)を提案する。そこで本研究では,QMが質問ベースのバイアス評価の安定性を向上し,命令調整モデルとベースバージョンの比較に使用できることを示す。
論文参考訳（メタデータ） (2025-06-27T13:49:37Z)
Deep Binding of Language Model Virtual Personas: a Study on Approximating Political Partisan Misperceptions [4.234771450043289]
大規模言語モデル(LLM)は、人間の振る舞いをシミュレートする能力が高まっている。本稿では, マルチターンインタビュー文として, 合成ユーザバックストリーを用いた仮想ペルソナ構築手法を提案する。我々の生成したバックストリーはより長く、細部が豊富で、特定の個人を記述するのに一貫性がある。
論文参考訳（メタデータ） (2025-04-16T00:10:34Z)
What does AI consider praiseworthy? [0.0]
大規模言語モデルの暗黙的・明示的な道徳観を考察する。信頼感はイデオロギーよりも賞賛と批判の強い原動力であることが分かっています。我々は、AIシステムが社会に統合されるにつれて、その賞賛、批判、中立性のパターンを注意深く監視する必要があると結論付けている。
論文参考訳（メタデータ） (2024-11-27T15:46:54Z)
Large Language Models Reflect the Ideology of their Creators [71.65505524599888]
大規模言語モデル(LLM)は、自然言語を生成するために大量のデータに基づいて訓練される。本稿では, LLMのイデオロギー的姿勢が創造者の世界観を反映していることを示す。
論文参考訳（メタデータ） (2024-10-24T04:02:30Z)
Diverging Preferences: When do Annotators Disagree and do Models Know? [92.24651142187989]
我々は,4つのハイレベルクラスにまたがる10のカテゴリにまたがる相違点の分類法を開発した。意見の相違の大部分は、標準的な報酬モデリングアプローチに反対している。本研究は,選好の変化を識別し,評価とトレーニングへの影響を緩和する手法を開発する。
論文参考訳（メタデータ） (2024-10-18T17:32:22Z)
Bias in the Mirror: Are LLMs opinions robust to their own adversarial attacks ? [22.0383367888756]
大規模言語モデル(LLM)は、トレーニングデータとアライメントプロセスからバイアスを受け継ぎ、微妙な方法で応答に影響を与える。 LLMの2つのインスタンスが自己議論を行う新しいアプローチを導入し、反対の視点でモデルの中立バージョンを説得する。我々は、モデルがどのようにしっかりとバイアスを保ち、誤った情報を強化するか、有害な視点に移行するかを評価する。
論文参考訳（メタデータ） (2024-10-17T13:06:02Z)
DebateQA: Evaluating Question Answering on Debatable Knowledge [13.199937786970027]
我々は2,941質問のデータセットであるDebateQAを紹介する。私たちは、パースペクティブ多様性と論争意識の2つの指標を開発します。 DebateQAを2つのメトリクスで使用し、12の人気のある大規模言語モデルを評価します。
論文参考訳（メタデータ） (2024-08-02T17:54:34Z)
GermanPartiesQA: Benchmarking Commercial Large Language Models for Political Bias and Sycophancy [20.06753067241866]
我々は,OpenAI, Anthropic, Cohereの6つのLDMのアライメントをドイツ政党の立場と比較した。我々は、主要なドイツの国会議員のベンチマークデータと社会デマグラフィーデータを用いて、迅速な実験を行う。
論文参考訳（メタデータ） (2024-07-25T13:04:25Z)
Vox Populi, Vox AI? Using Language Models to Estimate German Public Opinion [45.84205238554709]
我々は,2017年ドイツ縦断選挙研究の回答者の個人特性と一致するペルソナの合成サンプルを生成した。我々は,LSM GPT-3.5に対して,各回答者の投票選択を予測し,これらの予測を調査に基づく推定と比較する。 GPT-3.5は市民の投票選択を正確に予測せず、緑の党と左派に偏見を呈している。
論文参考訳（メタデータ） (2024-07-11T14:52:18Z)
Language Model Council: Democratically Benchmarking Foundation Models on Highly Subjective Tasks [3.58262772907022]
言語モデル協議会(LMC: Language Model Council)では、LLMのグループが協力してテストを作成し、それに反応し、相互の反応を評価して、民主的な方法でランキングを作成する。感情的インテリジェンスに関する詳細なケーススタディでは、対人対立に対するオープン・エンド・レスポンスにおいて、20の最近のLCMを相互にランク付けするために配置する。以上の結果から, LMCは, より分離性が高く, より堅牢なランキングを作成でき, ユーザスタディにより, 個々のLCM審査員よりも人的評価に整合性があることが示唆された。
論文参考訳（メタデータ） (2024-06-12T19:05:43Z)
Whose Side Are You On? Investigating the Political Stance of Large Language Models [56.883423489203786]
大規模言語モデル(LLM)の政治的指向性について,8つのトピックのスペクトルにわたって検討する。我々の調査は、中絶からLGBTQ問題まで8つのトピックにまたがるLLMの政治的整合性について考察している。この結果から,ユーザはクエリ作成時に留意すべきであり,中立的なプロンプト言語を選択する際には注意が必要であることが示唆された。
論文参考訳（メタデータ） (2024-03-15T04:02:24Z)
Exploring Value Biases: How LLMs Deviate Towards the Ideal [57.99044181599786]
LLM(Large-Language-Models)は幅広いアプリケーションにデプロイされ、その応答は社会的影響を増大させる。価値バイアスは、人間の研究結果と同様、異なるカテゴリにわたるLSMにおいて強いことが示される。
論文参考訳（メタデータ） (2024-02-16T18:28:43Z)
Do LLMs exhibit human-like response biases? A case study in survey design [66.1850490474361]
大規模言語モデル(LLM)が人間の反応バイアスをどの程度反映しているかについて検討する。アンケート調査では, LLMが人間のような応答バイアスを示すかどうかを評価するためのデータセットとフレームワークを設計した。 9つのモデルに対する総合的な評価は、一般のオープンかつ商用のLCMは、一般的に人間のような振る舞いを反映しないことを示している。
論文参考訳（メタデータ） (2023-11-07T15:40:43Z)
PRD: Peer Rank and Discussion Improve Large Language Model based Evaluations [10.709365940160685]
現代の大規模言語モデル(LLM)は、自動評価と比較が難しい。本稿では,全ての解答対に対するLLMのペアワイズ選好を考慮に入れたピアランク(PR)アルゴリズムを提案する。我々のアプローチは高い精度を実現し、人間の判断とよく一致していることがわかりました。
論文参考訳（メタデータ） (2023-07-06T04:05:44Z)
Whose Opinions Do Language Models Reflect? [88.35520051971538]
質の高い世論調査と関連する人的反応を利用して,言語モデル(LM)に反映された意見を検討する。我々は、現在のLMが反映している見解と、アメリカの人口集団の見解の間にかなりの不一致を見出した。我々の分析は、人間のフィードバック調整されたLMの左利き傾向に関する事前の観察を裏付けるものである。
論文参考訳（メタデータ） (2023-03-30T17:17:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。