論文の概要: On the steerability of large language models toward data-driven personas
- arxiv url: http://arxiv.org/abs/2311.04978v1
- Date: Wed, 8 Nov 2023 19:01:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-10 16:56:24.550660
- Title: On the steerability of large language models toward data-driven personas
- Title(参考訳): データ駆動型ペルソナに向けた大規模言語モデルの操縦性について
- Authors: Junyi Li, Ninareh Mehrabi, Charith Peris, Palash Goyal, Kai-Wei Chang,
Aram Galstyan, Richard Zemel, Rahul Gupta
- Abstract要約: 協調フィルタリングに基づくデータ駆動型ペルソナ定義手法を提案する。
ユーザの連続表現を仮想トークンのシーケンスにマッピングするために,ソフトプロンプトモデルを学ぶ。
以上の結果から,本アルゴリズムはベースラインの収集よりも性能が優れていることがわかった。
- 参考スコア(独自算出の注目度): 103.17413190093366
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The recent surge in Large Language Model (LLM) related applications has led
to a concurrent escalation in expectations for LLMs to accommodate a myriad of
personas and encompass a broad spectrum of perspectives. An important first
step towards addressing this demand is to align language models with specific
personas, be it groups of users or individuals. Towards this goal, we first
present a new conceptualization of a persona. Moving beyond the traditional
reliance on demographics like age, gender, or political party affiliation, we
introduce a data-driven persona definition methodology built on
collaborative-filtering. In this methodology, users are embedded into a
continuous vector space based on their opinions and clustered into cohorts that
manifest coherent views across specific inquiries. This methodology allows for
a more nuanced understanding of different latent social groups present in the
overall population (as opposed to simply using demographic groups) and enhances
the applicability of model steerability. Finally, we present an efficient
method to steer LLMs towards a particular persona. We learn a soft-prompting
model to map the continuous representation of users into sequences of virtual
tokens which, when prepended to the LLM input, enables the LLM to produce
responses aligned with a given user. Our results show that our steerability
algorithm is superior in performance compared to a collection of baselines.
- Abstract(参考訳): 近年のLarge Language Model (LLM) 関連アプリケーションの増加により、LLMがペルソナを多用し、幅広い視点を包含するという期待が同時にエスカレーションされている。
この需要に対応するための重要な第一歩は、言語モデルを特定のペルソナ、例えばユーザや個人のグループと整合させることです。
この目的に向けて,まずペルソナの新たな概念化を提示する。
年齢、性別、政党関係といった伝統的な人口動態への依存を超えて、協調フィルタリングに基づくデータ駆動型ペルソナ定義手法を導入する。
この手法では,ユーザは意見に基づいて連続ベクトル空間に埋め込まれ,コホートにクラスタ化され,特定の質問に対して一貫性のある視点を示す。
この手法により、(単に人口統計グループを使うのではなく)人口全体に存在する異なる潜在社会集団をより微妙に理解することができ、モデルステアビリティの適用性を高めることができる。
最後に,LLMを特定のペルソナに対して効率的に操る手法を提案する。
ユーザの連続表現を仮想トークンのシーケンスにマッピングするソフトプロンプトモデルを学習し、LLM入力に先立ってLLMが所定のユーザに対応する応答を生成することを可能にする。
その結果,本アルゴリズムはベースライン群に比べて性能が優れていることがわかった。
関連論文リスト
- ComPO: Community Preferences for Language Model Personalization [122.54846260663922]
ComPOは、言語モデルにおける好みの最適化をパーソナライズする手法である。
ComPRedはRedditからコミュニティレベルの好みを持った質問応答データセットです。
論文 参考訳(メタデータ) (2024-10-21T14:02:40Z) - Enriching Datasets with Demographics through Large Language Models: What's in a Name? [5.871504332441324]
LLM(Large Language Models)は、特殊なデータに基づいてトレーニングされた振る舞いモデルだけでなく、パフォーマンスも向上する。
香港の認可された金融専門家の実際のデータセットを含む、さまざまなデータセットにこれらのLCMを適用します。
論文 参考訳(メタデータ) (2024-09-17T18:40:49Z) - A Survey on Human Preference Learning for Large Language Models [81.41868485811625]
近年の多目的大言語モデル(LLM)の急激な増加は、より有能な基礎モデルと人間の意図を優先学習によって整合させることに大きく依存している。
本調査では、選好フィードバックのソースとフォーマット、選好信号のモデリングと使用、および、整列 LLM の評価について述べる。
論文 参考訳(メタデータ) (2024-06-17T03:52:51Z) - Evaluating Large Language Model Biases in Persona-Steered Generation [26.92498998306013]
大規模な言語モデル (LLM) は、不連続な人格に対して、連続した人格よりも9.7%少ないことが示される。
強化学習(Reinforcement Learning from Human Feedback, RLHF)により微調整されたモデルは、特に政治的リベラル派や女性に関連するスタンスに対して、より安定している。
論文 参考訳(メタデータ) (2024-05-30T17:06:03Z) - Scaling Data Diversity for Fine-Tuning Language Models in Human Alignment [84.32768080422349]
人間の好みの調整は、大きな言語モデルが誤解を招くか有害なコンテンツを生成するのを防ぐ。
本研究では, 微調整後のLLMの最終性能と線形相関を示唆し, 即時多様性の新たな定式化を提案する。
論文 参考訳(メタデータ) (2024-03-17T07:08:55Z) - MaxMin-RLHF: Towards Equitable Alignment of Large Language Models with
Diverse Human Preferences [101.57443597426374]
Reinforcement Learning from Human Feedback (RLHF) は、言語モデルと人間の嗜好を一致させる。
予測最大化アルゴリズムを用いて嗜好分布の混合を学習し、人間の嗜好をよりよく表現する。
従来のRLHFアルゴリズムよりも16%以上の勝利率向上を実現している。
論文 参考訳(メタデータ) (2024-02-14T03:56:27Z) - Aligning with Whom? Large Language Models Have Gender and Racial Biases
in Subjective NLP Tasks [15.015148115215315]
我々は4つのポピュラーな大言語モデル(LLM)の実験を行い、集団差と潜在的なバイアスを理解する能力について、丁寧さと不快さの予測について検討する。
どちらのタスクでも、モデル予測は白人と女性の参加者のラベルに近いことが分かりました。
より具体的には、"ブラック"と"アジア"個人の観点から反応するよう促された場合、モデルは、対応するグループからのスコアだけでなく、全体的なスコアを予測する際のパフォーマンスを低下させる。
論文 参考訳(メタデータ) (2023-11-16T10:02:24Z) - Improving Diversity of Demographic Representation in Large Language
Models via Collective-Critiques and Self-Voting [19.79214899011072]
本稿では,生成的大言語モデルにおける表現の多様性を形式化する。
評価データセットを提示し、人や文化軸に沿って生成された反応の多様性を測定する指標を提案する。
LLMは多様性の概念を理解し、その目標に対して自身の反応を推論し、批判することができる。
論文 参考訳(メタデータ) (2023-10-25T10:17:17Z) - Toward responsible face datasets: modeling the distribution of a
disentangled latent space for sampling face images from demographic groups [0.0]
近年、一部の現代の顔認識システムが特定の人口集団を識別できることが明らかにされている。
そこで我々は,StyleGANラテント空間の非交叉射影をモデル化し,サンプリングするための簡単な手法を提案する。
実験の結果、人口集団の組み合わせを効果的に合成できることが示され、同一性は元のトレーニングデータセットと異なることがわかった。
論文 参考訳(メタデータ) (2023-09-15T14:42:04Z) - Balancing Biases and Preserving Privacy on Balanced Faces in the Wild [50.915684171879036]
現在の顔認識(FR)モデルには、人口統計バイアスが存在する。
さまざまな民族と性別のサブグループにまたがる偏見を測定するために、我々のバランス・フェイススをWildデータセットに導入します。
真偽と偽のサンプルペアを区別するために1点のスコアしきい値に依存すると、最適以下の結果が得られます。
本稿では,最先端ニューラルネットワークから抽出した顔特徴を用いたドメイン適応学習手法を提案する。
論文 参考訳(メタデータ) (2021-03-16T15:05:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。