論文の概要: On the steerability of large language models toward data-driven personas
- arxiv url: http://arxiv.org/abs/2311.04978v2
- Date: Tue, 2 Apr 2024 18:29:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 22:56:57.429586
- Title: On the steerability of large language models toward data-driven personas
- Title(参考訳): データ駆動型ペルソナに向けた大規模言語モデルの操縦性について
- Authors: Junyi Li, Ninareh Mehrabi, Charith Peris, Palash Goyal, Kai-Wei Chang, Aram Galstyan, Richard Zemel, Rahul Gupta,
- Abstract要約: 大規模言語モデル(LLM)は、特定のグループや集団の意見が不足している偏りのある応答を生成することが知られている。
本稿では, LLM を用いて特定の視点の制御可能な生成を実現するための新しい手法を提案する。
- 参考スコア(独自算出の注目度): 98.9138902560793
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are known to generate biased responses where the opinions of certain groups and populations are underrepresented. Here, we present a novel approach to achieve controllable generation of specific viewpoints using LLMs, that can be leveraged to produce multiple perspectives and to reflect the diverse opinions. Moving beyond the traditional reliance on demographics like age, gender, or party affiliation, we introduce a data-driven notion of persona grounded in collaborative filtering, which is defined as either a single individual or a cohort of individuals manifesting similar views across specific inquiries. As individuals in the same demographic group may have different personas, our data-driven persona definition allows for a more nuanced understanding of different (latent) social groups present in the population. In addition to this, we also explore an efficient method to steer LLMs toward the personas that we define. We show that our data-driven personas significantly enhance model steerability, with improvements of between $57\%-77\%$ over our best performing baselines.
- Abstract(参考訳): 大規模言語モデル(LLM)は、特定のグループや集団の意見が不足している偏りのある応答を生成することが知られている。
そこで本研究では,複数の視点を創出し,多様な視点を反映するLLMを用いて,制御可能な視点生成を実現するための新しいアプローチを提案する。
年齢、性別、政党関係といった伝統的な人口動態への依存を超えて、協調フィルタリングに基礎を置くデータ駆動のペルソナの概念を導入し、特定の質問にまたがって同様の見解を示す個人の個人またはコホートとして定義する。
同じ人口集団の個人が異なるペルソナを持つ可能性があるため、我々のデータ駆動型ペルソナの定義は、人口に存在している異なる(最近)社会的グループをより微妙に理解することを可能にする。
さらに,LLMを,定義するペルソナに向けて効率的に操る手法についても検討する。
データ駆動型ペルソナは、最高のパフォーマンスベースラインよりも、モデルステアビリティを著しく向上し、5,7 %-77 % の改善を実現しています。
関連論文リスト
- ComPO: Community Preferences for Language Model Personalization [122.54846260663922]
ComPOは、言語モデルにおける好みの最適化をパーソナライズする手法である。
ComPRedはRedditからコミュニティレベルの好みを持った質問応答データセットです。
論文 参考訳(メタデータ) (2024-10-21T14:02:40Z) - Enriching Datasets with Demographics through Large Language Models: What's in a Name? [5.871504332441324]
LLM(Large Language Models)は、特殊なデータに基づいてトレーニングされた振る舞いモデルだけでなく、パフォーマンスも向上する。
香港の認可された金融専門家の実際のデータセットを含む、さまざまなデータセットにこれらのLCMを適用します。
論文 参考訳(メタデータ) (2024-09-17T18:40:49Z) - A Survey on Human Preference Learning for Large Language Models [81.41868485811625]
近年の多目的大言語モデル(LLM)の急激な増加は、より有能な基礎モデルと人間の意図を優先学習によって整合させることに大きく依存している。
本調査では、選好フィードバックのソースとフォーマット、選好信号のモデリングと使用、および、整列 LLM の評価について述べる。
論文 参考訳(メタデータ) (2024-06-17T03:52:51Z) - Evaluating Large Language Model Biases in Persona-Steered Generation [26.92498998306013]
大規模な言語モデル (LLM) は、不連続な人格に対して、連続した人格よりも9.7%少ないことが示される。
強化学習(Reinforcement Learning from Human Feedback, RLHF)により微調整されたモデルは、特に政治的リベラル派や女性に関連するスタンスに対して、より安定している。
論文 参考訳(メタデータ) (2024-05-30T17:06:03Z) - Scaling Data Diversity for Fine-Tuning Language Models in Human Alignment [84.32768080422349]
人間の好みの調整は、大きな言語モデルが誤解を招くか有害なコンテンツを生成するのを防ぐ。
本研究では, 微調整後のLLMの最終性能と線形相関を示唆し, 即時多様性の新たな定式化を提案する。
論文 参考訳(メタデータ) (2024-03-17T07:08:55Z) - MaxMin-RLHF: Towards Equitable Alignment of Large Language Models with
Diverse Human Preferences [101.57443597426374]
Reinforcement Learning from Human Feedback (RLHF) は、言語モデルと人間の嗜好を一致させる。
予測最大化アルゴリズムを用いて嗜好分布の混合を学習し、人間の嗜好をよりよく表現する。
従来のRLHFアルゴリズムよりも16%以上の勝利率向上を実現している。
論文 参考訳(メタデータ) (2024-02-14T03:56:27Z) - Aligning with Whom? Large Language Models Have Gender and Racial Biases
in Subjective NLP Tasks [15.015148115215315]
我々は4つのポピュラーな大言語モデル(LLM)の実験を行い、集団差と潜在的なバイアスを理解する能力について、丁寧さと不快さの予測について検討する。
どちらのタスクでも、モデル予測は白人と女性の参加者のラベルに近いことが分かりました。
より具体的には、"ブラック"と"アジア"個人の観点から反応するよう促された場合、モデルは、対応するグループからのスコアだけでなく、全体的なスコアを予測する際のパフォーマンスを低下させる。
論文 参考訳(メタデータ) (2023-11-16T10:02:24Z) - Improving Diversity of Demographic Representation in Large Language
Models via Collective-Critiques and Self-Voting [19.79214899011072]
本稿では,生成的大言語モデルにおける表現の多様性を形式化する。
評価データセットを提示し、人や文化軸に沿って生成された反応の多様性を測定する指標を提案する。
LLMは多様性の概念を理解し、その目標に対して自身の反応を推論し、批判することができる。
論文 参考訳(メタデータ) (2023-10-25T10:17:17Z) - Toward responsible face datasets: modeling the distribution of a
disentangled latent space for sampling face images from demographic groups [0.0]
近年、一部の現代の顔認識システムが特定の人口集団を識別できることが明らかにされている。
そこで我々は,StyleGANラテント空間の非交叉射影をモデル化し,サンプリングするための簡単な手法を提案する。
実験の結果、人口集団の組み合わせを効果的に合成できることが示され、同一性は元のトレーニングデータセットと異なることがわかった。
論文 参考訳(メタデータ) (2023-09-15T14:42:04Z) - Balancing Biases and Preserving Privacy on Balanced Faces in the Wild [50.915684171879036]
現在の顔認識(FR)モデルには、人口統計バイアスが存在する。
さまざまな民族と性別のサブグループにまたがる偏見を測定するために、我々のバランス・フェイススをWildデータセットに導入します。
真偽と偽のサンプルペアを区別するために1点のスコアしきい値に依存すると、最適以下の結果が得られます。
本稿では,最先端ニューラルネットワークから抽出した顔特徴を用いたドメイン適応学習手法を提案する。
論文 参考訳(メタデータ) (2021-03-16T15:05:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。