論文の概要: Fine-tuning language models to find agreement among humans with diverse
preferences
- arxiv url: http://arxiv.org/abs/2211.15006v1
- Date: Mon, 28 Nov 2022 02:24:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 15:21:21.733041
- Title: Fine-tuning language models to find agreement among humans with diverse
preferences
- Title(参考訳): 多様な嗜好を持つヒトの合意を見つけるための微調整言語モデル
- Authors: Michiel A. Bakker and Martin J. Chadwick and Hannah R. Sheahan and
Michael Henry Tessler and Lucy Campbell-Gillingham and Jan Balaguer and Nat
McAleese and Amelia Glaese and John Aslanides and Matthew M. Botvinick and
Christopher Summerfield
- Abstract要約: 大規模言語モデリング(LLM)における最近の研究は、出力をプロトタイプユーザの好みに合わせるために微調整を用いている。
ここでは、多様な視点を持つ人々が合意を見つけるのに、マシンがどのように役立つかを検討する。
我々は、潜在的に多様な意見を持つ人々のグループの期待された承認を最大化するステートメントを生成するために、700億のパラメータLSMを微調整する。
グループメンバーのサブセットのみからの合意文を静かに構築すると、除外されたメンバーは反対する傾向にあった。
- 参考スコア(独自算出の注目度): 7.702628192754256
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work in large language modeling (LLMs) has used fine-tuning to align
outputs with the preferences of a prototypical user. This work assumes that
human preferences are static and homogeneous across individuals, so that
aligning to a a single "generic" user will confer more general alignment. Here,
we embrace the heterogeneity of human preferences to consider a different
challenge: how might a machine help people with diverse views find agreement?
We fine-tune a 70 billion parameter LLM to generate statements that maximize
the expected approval for a group of people with potentially diverse opinions.
Human participants provide written opinions on thousands of questions touching
on moral and political issues (e.g., "should we raise taxes on the rich?"), and
rate the LLM's generated candidate consensus statements for agreement and
quality. A reward model is then trained to predict individual preferences,
enabling it to quantify and rank consensus statements in terms of their appeal
to the overall group, defined according to different aggregation (social
welfare) functions. The model produces consensus statements that are preferred
by human users over those from prompted LLMs (>70%) and significantly
outperforms a tight fine-tuned baseline that lacks the final ranking step.
Further, our best model's consensus statements are preferred over the best
human-generated opinions (>65%). We find that when we silently constructed
consensus statements from only a subset of group members, those who were
excluded were more likely to dissent, revealing the sensitivity of the
consensus to individual contributions. These results highlight the potential to
use LLMs to help groups of humans align their values with one another.
- Abstract(参考訳): 大規模言語モデリング(LLM)における最近の研究は、出力をプロトタイプユーザの好みに合わせるために微調整を用いている。
この研究は、人間の嗜好が個人間で静的で均質であると仮定し、単一の"ジェネリック"なユーザーとの整合がより一般的な整合性を与える。
ここでは、人間の嗜好の不均一性を受け入れて、異なる課題を考える: 多様な視点を持つ人々が合意を見つけるのに、マシンはどのように役立つのか?
我々は700億のパラメータllmを微調整し、多様な意見を持つグループに対して、期待される承認を最大化する声明を生成する。
人間の参加者は、道徳的問題や政治的問題(例えば、「富裕層に税金を課すべきか?」など)に関する数千の質問について意見書を提出し、LLMが生成した合意と品質に関する合意書を評価する。
次に、報酬モデルは個々の選好を予測するために訓練され、異なる集約(社会福祉)機能に従って定義されたグループ全体へのアピールの観点からコンセンサスステートメントを定量化しランク付けすることができる。
このモデルでは, LLM(>70%)よりも人間の方が好まれるコンセンサス文を生成し, 最終ランク付けステップに欠ける厳密な微調整ベースラインを著しく上回っている。
さらに、ベストモデルのコンセンサスステートメントは、最高の人間生成の意見(>65%)よりも好まれます。
グループメンバーのサブセットからのみ合意文を静かに構築すると、除外されたメンバは反対する傾向があり、個々のコントリビューションに対する合意の感受性が明らかになる。
これらの結果は、人間のグループ同士の価値観の整合を支援するためにLLMを使うことの可能性を強調している。
関連論文リスト
- ComPO: Community Preferences for Language Model Personalization [122.54846260663922]
ComPOは、言語モデルにおける好みの最適化をパーソナライズする手法である。
ComPRedはRedditからコミュニティレベルの好みを持った質問応答データセットです。
論文 参考訳(メタデータ) (2024-10-21T14:02:40Z) - Diverging Preferences: When do Annotators Disagree and do Models Know? [92.24651142187989]
我々は,4つのハイレベルクラスにまたがる10のカテゴリにまたがる相違点の分類法を開発した。
意見の相違の大部分は、標準的な報酬モデリングアプローチに反対している。
本研究は,選好の変化を識別し,評価とトレーニングへの影響を緩和する手法を開発する。
論文 参考訳(メタデータ) (2024-10-18T17:32:22Z) - Intuitions of Compromise: Utilitarianism vs. Contractualism [42.3322948655612]
我々は、社会的な意思決定の文脈において、グループ間での嗜好を集約するためにアルゴリズムを適用するパラダイムを使用している。
現在まで、バリューアグリゲーションに対する支配的なアプローチは実用的だが、私たちは契約者アルゴリズムが推奨するアグリゲーションを強く好んでいることに気付きました。
論文 参考訳(メタデータ) (2024-10-07T21:05:57Z) - Evaluating Large Language Model Biases in Persona-Steered Generation [26.92498998306013]
大規模な言語モデル (LLM) は、不連続な人格に対して、連続した人格よりも9.7%少ないことが示される。
強化学習(Reinforcement Learning from Human Feedback, RLHF)により微調整されたモデルは、特に政治的リベラル派や女性に関連するスタンスに対して、より安定している。
論文 参考訳(メタデータ) (2024-05-30T17:06:03Z) - Scaling Data Diversity for Fine-Tuning Language Models in Human Alignment [84.32768080422349]
人間の好みの調整は、大きな言語モデルが誤解を招くか有害なコンテンツを生成するのを防ぐ。
本研究では, 微調整後のLLMの最終性能と線形相関を示唆し, 即時多様性の新たな定式化を提案する。
論文 参考訳(メタデータ) (2024-03-17T07:08:55Z) - MaxMin-RLHF: Towards Equitable Alignment of Large Language Models with
Diverse Human Preferences [101.57443597426374]
Reinforcement Learning from Human Feedback (RLHF) は、言語モデルと人間の嗜好を一致させる。
予測最大化アルゴリズムを用いて嗜好分布の混合を学習し、人間の嗜好をよりよく表現する。
従来のRLHFアルゴリズムよりも16%以上の勝利率向上を実現している。
論文 参考訳(メタデータ) (2024-02-14T03:56:27Z) - On the steerability of large language models toward data-driven personas [98.9138902560793]
大規模言語モデル(LLM)は、特定のグループや集団の意見が不足している偏りのある応答を生成することが知られている。
本稿では, LLM を用いて特定の視点の制御可能な生成を実現するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T19:01:13Z) - Value Kaleidoscope: Engaging AI with Pluralistic Human Values, Rights, and Duties [68.66719970507273]
価値多元性とは、複数の正しい値が互いに緊張して保持されるという考え方である。
統計的学習者として、AIシステムはデフォルトで平均に適合する。
ValuePrismは、218kの値、権利、義務の大規模なデータセットで、31kの人間が記述した状況に関連付けられています。
論文 参考訳(メタデータ) (2023-09-02T01:24:59Z) - Aligning Language Models to User Opinions [10.953326025836475]
ユーザの意見や人口統計やイデオロギーが相互予測者ではないことが判明した。
ユーザの意見とユーザ人口、イデオロギーの両方をモデル化することで、LCMを整合させる。
人口統計学とイデオロギーを併用したLCMの典型的なアプローチに加えて,個人ユーザからの最も関連性の高い過去の意見を活用すれば,より正確なユーザ意見の予測が可能になることが判明した。
論文 参考訳(メタデータ) (2023-05-24T09:11:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。