論文の概要: Political Compass or Spinning Arrow? Towards More Meaningful Evaluations for Values and Opinions in Large Language Models
- arxiv url: http://arxiv.org/abs/2402.16786v2
- Date: Wed, 5 Jun 2024 10:17:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 01:01:43.428289
- Title: Political Compass or Spinning Arrow? Towards More Meaningful Evaluations for Values and Opinions in Large Language Models
- Title(参考訳): 政治コンパス」か「スピニング・アロー」か? 大規模言語モデルにおける価値と意見のより意味のある評価に向けて
- Authors: Paul Röttger, Valentin Hofmann, Valentina Pyatkin, Musashi Hinck, Hannah Rose Kirk, Hinrich Schütze, Dirk Hovy,
- Abstract要約: 我々は,大規模言語モデルにおける価値と意見の制約評価パラダイムに挑戦する。
強制されない場合、モデルが実質的に異なる答えを与えることを示す。
我々はこれらの知見をLLMの価値と意見を評価するための推奨とオープンな課題に抽出する。
- 参考スコア(独自算出の注目度): 61.45529177682614
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Much recent work seeks to evaluate values and opinions in large language models (LLMs) using multiple-choice surveys and questionnaires. Most of this work is motivated by concerns around real-world LLM applications. For example, politically-biased LLMs may subtly influence society when they are used by millions of people. Such real-world concerns, however, stand in stark contrast to the artificiality of current evaluations: real users do not typically ask LLMs survey questions. Motivated by this discrepancy, we challenge the prevailing constrained evaluation paradigm for values and opinions in LLMs and explore more realistic unconstrained evaluations. As a case study, we focus on the popular Political Compass Test (PCT). In a systematic review, we find that most prior work using the PCT forces models to comply with the PCT's multiple-choice format. We show that models give substantively different answers when not forced; that answers change depending on how models are forced; and that answers lack paraphrase robustness. Then, we demonstrate that models give different answers yet again in a more realistic open-ended answer setting. We distill these findings into recommendations and open challenges in evaluating values and opinions in LLMs.
- Abstract(参考訳): 近年の研究では, 大規模言語モデル (LLM) の価値と意見を, 複数項目のアンケートとアンケートを用いて評価することを目指している。
この研究の多くは、現実世界のLLMアプリケーションに関する懸念から動機づけられている。
例えば、政治的バイアスのLLMは、何百万人もの人々が使っているときに社会に微妙に影響を及ぼす可能性がある。
しかし、このような現実的な懸念は、現在の評価の人工性とは対照的である。
本研究は,LLMにおける価値観と意見の制約評価パラダイムに挑戦し,より現実的な非制約評価を探求する。
ケーススタディでは、人気のある政治コンパステスト(PCT)に焦点を当てる。
体系的なレビューでは、PCTを用いた以前の作業のほとんどは、PCTの多重選択フォーマットに従わざるを得ない。
モデルが強制されない場合、その答えは、モデルがどのように強制されているかによって変わること、そして、パラフレーズの堅牢性が欠如していることを示します。
そして、より現実的なオープンエンドの回答設定において、モデルがさらに異なる回答を与えることを示す。
我々はこれらの知見をLLMの価値と意見を評価するための推奨とオープンな課題に抽出する。
関連論文リスト
- Diverging Preferences: When do Annotators Disagree and do Models Know? [92.24651142187989]
我々は,4つのハイレベルクラスにまたがる10のカテゴリにまたがる相違点の分類法を開発した。
意見の相違の大部分は、標準的な報酬モデリングアプローチに反対している。
本研究は,選好の変化を識別し,評価とトレーニングへの影響を緩和する手法を開発する。
論文 参考訳(メタデータ) (2024-10-18T17:32:22Z) - Bias in the Mirror: Are LLMs opinions robust to their own adversarial attacks ? [22.0383367888756]
大規模言語モデル(LLM)は、トレーニングデータとアライメントプロセスからバイアスを受け継ぎ、微妙な方法で応答に影響を与える。
LLMの2つのインスタンスが自己議論を行う新しいアプローチを導入し、反対の視点でモデルの中立バージョンを説得する。
我々は、モデルがどのようにしっかりとバイアスを保ち、誤った情報を強化するか、有害な視点に移行するかを評価する。
論文 参考訳(メタデータ) (2024-10-17T13:06:02Z) - DebateQA: Evaluating Question Answering on Debatable Knowledge [13.199937786970027]
我々は2,941質問のデータセットであるDebateQAを紹介する。
私たちは、パースペクティブ多様性と論争意識の2つの指標を開発します。
DebateQAを2つのメトリクスで使用し、12の人気のある大規模言語モデルを評価します。
論文 参考訳(メタデータ) (2024-08-02T17:54:34Z) - GermanPartiesQA: Benchmarking Commercial Large Language Models for Political Bias and Sycophancy [20.06753067241866]
我々は,OpenAI, Anthropic, Cohereの6つのLDMのアライメントをドイツ政党の立場と比較した。
我々は、主要なドイツの国会議員のベンチマークデータと社会デマグラフィーデータを用いて、迅速な実験を行う。
論文 参考訳(メタデータ) (2024-07-25T13:04:25Z) - Vox Populi, Vox AI? Using Language Models to Estimate German Public Opinion [45.84205238554709]
我々は,2017年ドイツ縦断選挙研究の回答者の個人特性と一致するペルソナの合成サンプルを生成した。
我々は,LSM GPT-3.5に対して,各回答者の投票選択を予測し,これらの予測を調査に基づく推定と比較する。
GPT-3.5は市民の投票選択を正確に予測せず、緑の党と左派に偏見を呈している。
論文 参考訳(メタデータ) (2024-07-11T14:52:18Z) - Whose Side Are You On? Investigating the Political Stance of Large Language Models [56.883423489203786]
大規模言語モデル(LLM)の政治的指向性について,8つのトピックのスペクトルにわたって検討する。
我々の調査は、中絶からLGBTQ問題まで8つのトピックにまたがるLLMの政治的整合性について考察している。
この結果から,ユーザはクエリ作成時に留意すべきであり,中立的なプロンプト言語を選択する際には注意が必要であることが示唆された。
論文 参考訳(メタデータ) (2024-03-15T04:02:24Z) - Exploring Value Biases: How LLMs Deviate Towards the Ideal [57.99044181599786]
LLM(Large-Language-Models)は幅広いアプリケーションにデプロイされ、その応答は社会的影響を増大させる。
価値バイアスは、人間の研究結果と同様、異なるカテゴリにわたるLSMにおいて強いことが示される。
論文 参考訳(メタデータ) (2024-02-16T18:28:43Z) - Do LLMs exhibit human-like response biases? A case study in survey
design [66.1850490474361]
大規模言語モデル(LLM)が人間の反応バイアスをどの程度反映しているかについて検討する。
アンケート調査では, LLMが人間のような応答バイアスを示すかどうかを評価するためのデータセットとフレームワークを設計した。
9つのモデルに対する総合的な評価は、一般のオープンかつ商用のLCMは、一般的に人間のような振る舞いを反映しないことを示している。
論文 参考訳(メタデータ) (2023-11-07T15:40:43Z) - PRD: Peer Rank and Discussion Improve Large Language Model based Evaluations [10.709365940160685]
現代の大規模言語モデル(LLM)は、自動評価と比較が難しい。
本稿では,全ての解答対に対するLLMのペアワイズ選好を考慮に入れたピアランク(PR)アルゴリズムを提案する。
我々のアプローチは高い精度を実現し、人間の判断とよく一致していることがわかりました。
論文 参考訳(メタデータ) (2023-07-06T04:05:44Z) - Whose Opinions Do Language Models Reflect? [88.35520051971538]
質の高い世論調査と関連する人的反応を利用して,言語モデル(LM)に反映された意見を検討する。
我々は、現在のLMが反映している見解と、アメリカの人口集団の見解の間にかなりの不一致を見出した。
我々の分析は、人間のフィードバック調整されたLMの左利き傾向に関する事前の観察を裏付けるものである。
論文 参考訳(メタデータ) (2023-03-30T17:17:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。