論文の概要: Evaluating Large Language Model Biases in Persona-Steered Generation
- arxiv url: http://arxiv.org/abs/2405.20253v1
- Date: Thu, 30 May 2024 17:06:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-31 13:19:40.085332
- Title: Evaluating Large Language Model Biases in Persona-Steered Generation
- Title(参考訳): ペルソナステア世代における大規模言語モデルバイアスの評価
- Authors: Andy Liu, Mona Diab, Daniel Fried,
- Abstract要約: 大規模な言語モデル (LLM) は、不連続な人格に対して、連続した人格よりも9.7%少ないことが示される。
強化学習(Reinforcement Learning from Human Feedback, RLHF)により微調整されたモデルは、特に政治的リベラル派や女性に関連するスタンスに対して、より安定している。
- 参考スコア(独自算出の注目度): 26.92498998306013
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The task of persona-steered text generation requires large language models (LLMs) to generate text that reflects the distribution of views that an individual fitting a persona could have. People have multifaceted personas, but prior work on bias in LLM-generated opinions has only explored multiple-choice settings or one-dimensional personas. We define an incongruous persona as a persona with multiple traits where one trait makes its other traits less likely in human survey data, e.g. political liberals who support increased military spending. We find that LLMs are 9.7% less steerable towards incongruous personas than congruous ones, sometimes generating the stereotypical stance associated with its demographic rather than the target stance. Models that we evaluate that are fine-tuned with Reinforcement Learning from Human Feedback (RLHF) are more steerable, especially towards stances associated with political liberals and women, but present significantly less diverse views of personas. We also find variance in LLM steerability that cannot be predicted from multiple-choice opinion evaluation. Our results show the importance of evaluating models in open-ended text generation, as it can surface new LLM opinion biases. Moreover, such a setup can shed light on our ability to steer models toward a richer and more diverse range of viewpoints.
- Abstract(参考訳): ペルソナステアリングされたテキスト生成のタスクは、ペルソナに適合する個人が持つ可能性のあるビューの分布を反映したテキストを生成するために、大きな言語モデル(LLM)を必要とする。
人々は多面的ペルソナを持っているが、LCM生成の意見の偏見に関する先行研究は、複数の選択設定や1次元ペルソナのみを探索している。
我々は、不連続なペルソナを複数の特徴を持つペルソナとして定義し、例えば軍事支出の増加を支持する政治的自由主義者など、人間の調査データにおいて、その特徴が他の特徴の可能性が低いようにしている。
LLMは、不連続な人格に対して、不連続な人格に対して、不連続な人格に対して9.7%低いことが判明した。
RLHF(Reinforcement Learning from Human Feedback)により微調整されたモデルの方が、特に政治的リベラル派や女性にかかわるスタンスに対して、より安定的に評価できるが、ペルソナの多様性は著しく低い。
また,複数意見評価では予測できないLCMの聴力のばらつきも見いだす。
この結果から,オープンエンドテキスト生成におけるモデル評価の重要性が示唆された。
さらに、このようなセットアップは、よりリッチで多様な視点に向けてモデルを操る能力に光を当てることができます。
関連論文リスト
- Scaling Data Diversity for Fine-Tuning Language Models in Human Alignment [84.32768080422349]
人間の好みの調整は、大きな言語モデルが誤解を招くか有害なコンテンツを生成するのを防ぐ。
本研究では, 微調整後のLLMの最終性能と線形相関を示唆し, 即時多様性の新たな定式化を提案する。
論文 参考訳(メタデータ) (2024-03-17T07:08:55Z) - Political Compass or Spinning Arrow? Towards More Meaningful Evaluations for Values and Opinions in Large Language Models [61.45529177682614]
我々は,大規模言語モデルにおける価値と意見の制約評価パラダイムに挑戦する。
強制されない場合、モデルが実質的に異なる答えを与えることを示す。
我々はこれらの知見をLLMの価値と意見を評価するための推奨とオープンな課題に抽出する。
論文 参考訳(メタデータ) (2024-02-26T18:00:49Z) - Quantifying the Persona Effect in LLM Simulations [25.367927300697424]
大規模言語モデル(LLM)は、人間の言語と振る舞いをシミュレートする際、顕著な可能性を示してきた。
本研究では,パーソナ変数のデコグラフィ,社会的,行動的要因の統合がLLMの多様な視点をシミュレートする能力にどのように影響するかを検討する。
既存の主観的NLPデータセットにおけるアノテーションの10%のばらつきをペルソナ変数が説明できることがわかった。
論文 参考訳(メタデータ) (2024-02-16T16:35:35Z) - Aligning Large Language Models with Human Opinions through Persona Selection and Value--Belief--Norm Reasoning [67.33899440998175]
Chain-of-Opinion (COO)は、単純な4段階のソリューションモデリングであり、ペルソナによる推論方法である。
COOは明示的な人格(デモグラフィーとイデオロギー)と暗黙的な人格(歴史学的な意見)を区別する
COOは、推論コールを5回だけ促すことで、新しい最先端の意見予測を効率的に達成し、以前のテクニックを最大4%改善する。
論文 参考訳(メタデータ) (2023-11-14T18:48:27Z) - On the steerability of large language models toward data-driven personas [98.9138902560793]
大規模言語モデル(LLM)は、特定のグループや集団の意見が不足している偏りのある応答を生成することが知られている。
本稿では, LLM を用いて特定の視点の制御可能な生成を実現するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T19:01:13Z) - Do LLMs exhibit human-like response biases? A case study in survey
design [66.1850490474361]
大規模言語モデル(LLM)が人間の反応バイアスをどの程度反映しているかについて検討する。
アンケート調査では, LLMが人間のような応答バイアスを示すかどうかを評価するためのデータセットとフレームワークを設計した。
9つのモデルに対する総合的な評価は、一般のオープンかつ商用のLCMは、一般的に人間のような振る舞いを反映しないことを示している。
論文 参考訳(メタデータ) (2023-11-07T15:40:43Z) - Verbosity Bias in Preference Labeling by Large Language Models [10.242500241407466]
大規模言語モデル(LLM)の評価に伴うバイアスについて検討する。
冗長性バイアス( verbosity bias) -- LLM では,たとえ同じような品質を持つとしても,より冗長な回答を好む場合があります。
論文 参考訳(メタデータ) (2023-10-16T05:19:02Z) - Investigating Subtler Biases in LLMs: Ageism, Beauty, Institutional, and Nationality Bias in Generative Models [0.0]
本稿では, 年齢や美しさなど, 研究の少ない, 連続的な, 次元に沿ったバイアスについて検討する。
実験心理学において, LLMは, 特定の社会集団に対して, 肯定的, 否定的感情の偏見を広く抱いているか, あるいは「美しいものは良い」バイアスと類似しているかを問う。
論文 参考訳(メタデータ) (2023-09-16T07:07:04Z) - Whose Opinions Do Language Models Reflect? [88.35520051971538]
質の高い世論調査と関連する人的反応を利用して,言語モデル(LM)に反映された意見を検討する。
我々は、現在のLMが反映している見解と、アメリカの人口集団の見解の間にかなりの不一致を見出した。
我々の分析は、人間のフィードバック調整されたLMの左利き傾向に関する事前の観察を裏付けるものである。
論文 参考訳(メタデータ) (2023-03-30T17:17:08Z) - Fine-tuning language models to find agreement among humans with diverse
preferences [7.702628192754256]
大規模言語モデリング(LLM)における最近の研究は、出力をプロトタイプユーザの好みに合わせるために微調整を用いている。
ここでは、多様な視点を持つ人々が合意を見つけるのに、マシンがどのように役立つかを検討する。
我々は、潜在的に多様な意見を持つ人々のグループの期待された承認を最大化するステートメントを生成するために、700億のパラメータLSMを微調整する。
グループメンバーのサブセットのみからの合意文を静かに構築すると、除外されたメンバーは反対する傾向にあった。
論文 参考訳(メタデータ) (2022-11-28T02:24:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。