論文の概要: Fine-tuning language models to find agreement among humans with diverse
preferences
- arxiv url: http://arxiv.org/abs/2211.15006v1
- Date: Mon, 28 Nov 2022 02:24:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 15:21:21.733041
- Title: Fine-tuning language models to find agreement among humans with diverse
preferences
- Title(参考訳): 多様な嗜好を持つヒトの合意を見つけるための微調整言語モデル
- Authors: Michiel A. Bakker and Martin J. Chadwick and Hannah R. Sheahan and
Michael Henry Tessler and Lucy Campbell-Gillingham and Jan Balaguer and Nat
McAleese and Amelia Glaese and John Aslanides and Matthew M. Botvinick and
Christopher Summerfield
- Abstract要約: 大規模言語モデリング(LLM)における最近の研究は、出力をプロトタイプユーザの好みに合わせるために微調整を用いている。
ここでは、多様な視点を持つ人々が合意を見つけるのに、マシンがどのように役立つかを検討する。
我々は、潜在的に多様な意見を持つ人々のグループの期待された承認を最大化するステートメントを生成するために、700億のパラメータLSMを微調整する。
グループメンバーのサブセットのみからの合意文を静かに構築すると、除外されたメンバーは反対する傾向にあった。
- 参考スコア(独自算出の注目度): 7.702628192754256
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work in large language modeling (LLMs) has used fine-tuning to align
outputs with the preferences of a prototypical user. This work assumes that
human preferences are static and homogeneous across individuals, so that
aligning to a a single "generic" user will confer more general alignment. Here,
we embrace the heterogeneity of human preferences to consider a different
challenge: how might a machine help people with diverse views find agreement?
We fine-tune a 70 billion parameter LLM to generate statements that maximize
the expected approval for a group of people with potentially diverse opinions.
Human participants provide written opinions on thousands of questions touching
on moral and political issues (e.g., "should we raise taxes on the rich?"), and
rate the LLM's generated candidate consensus statements for agreement and
quality. A reward model is then trained to predict individual preferences,
enabling it to quantify and rank consensus statements in terms of their appeal
to the overall group, defined according to different aggregation (social
welfare) functions. The model produces consensus statements that are preferred
by human users over those from prompted LLMs (>70%) and significantly
outperforms a tight fine-tuned baseline that lacks the final ranking step.
Further, our best model's consensus statements are preferred over the best
human-generated opinions (>65%). We find that when we silently constructed
consensus statements from only a subset of group members, those who were
excluded were more likely to dissent, revealing the sensitivity of the
consensus to individual contributions. These results highlight the potential to
use LLMs to help groups of humans align their values with one another.
- Abstract(参考訳): 大規模言語モデリング(LLM)における最近の研究は、出力をプロトタイプユーザの好みに合わせるために微調整を用いている。
この研究は、人間の嗜好が個人間で静的で均質であると仮定し、単一の"ジェネリック"なユーザーとの整合がより一般的な整合性を与える。
ここでは、人間の嗜好の不均一性を受け入れて、異なる課題を考える: 多様な視点を持つ人々が合意を見つけるのに、マシンはどのように役立つのか?
我々は700億のパラメータllmを微調整し、多様な意見を持つグループに対して、期待される承認を最大化する声明を生成する。
人間の参加者は、道徳的問題や政治的問題(例えば、「富裕層に税金を課すべきか?」など)に関する数千の質問について意見書を提出し、LLMが生成した合意と品質に関する合意書を評価する。
次に、報酬モデルは個々の選好を予測するために訓練され、異なる集約(社会福祉)機能に従って定義されたグループ全体へのアピールの観点からコンセンサスステートメントを定量化しランク付けすることができる。
このモデルでは, LLM(>70%)よりも人間の方が好まれるコンセンサス文を生成し, 最終ランク付けステップに欠ける厳密な微調整ベースラインを著しく上回っている。
さらに、ベストモデルのコンセンサスステートメントは、最高の人間生成の意見(>65%)よりも好まれます。
グループメンバーのサブセットからのみ合意文を静かに構築すると、除外されたメンバは反対する傾向があり、個々のコントリビューションに対する合意の感受性が明らかになる。
これらの結果は、人間のグループ同士の価値観の整合を支援するためにLLMを使うことの可能性を強調している。
関連論文リスト
- Dissecting Human and LLM Preferences [80.55271307662365]
人間は誤りに敏感ではなく、自分の姿勢を支持する反応を好んでおり、モデルが限界を認めている場合、明確な嫌悪を示します。
GPT-4-Turboのような先進的なLCMは、より正確さ、明快さ、無害さを強調している。
嗜好に基づく評価は意図的に操作可能であることを示す。
論文 参考訳(メタデータ) (2024-02-17T14:34:31Z) - MaxMin-RLHF: Towards Equitable Alignment of Large Language Models with
Diverse Human Preferences [101.57443597426374]
Reinforcement Learning from Human Feedback (RLHF) は、言語モデルと人間の嗜好を一致させる。
予測最大化アルゴリズムを用いて嗜好分布の混合を学習し、人間の嗜好をよりよく表現する。
従来のRLHFアルゴリズムよりも16%以上の勝利率向上を実現している。
論文 参考訳(メタデータ) (2024-02-14T03:56:27Z) - What Do Llamas Really Think? Revealing Preference Biases in Language
Model Representations [62.91799637259657]
大規模言語モデル(LLMs)は、応答を辞退しても、社会的な偏見を示すか?
本研究は,文脈的埋め込みを探索し,このバイアスが潜在表現にエンコードされているかどうかを探索することによって検討する。
単語の隠れベクトルからLLMの単語ペア選好を予測するロジスティックなBradley-Terryプローブを提案する。
論文 参考訳(メタデータ) (2023-11-30T18:53:13Z) - On the steerability of large language models toward data-driven personas [103.17413190093366]
協調フィルタリングに基づくデータ駆動型ペルソナ定義手法を提案する。
ユーザの連続表現を仮想トークンのシーケンスにマッピングするために,ソフトプロンプトモデルを学ぶ。
以上の結果から,本アルゴリズムはベースラインの収集よりも性能が優れていることがわかった。
論文 参考訳(メタデータ) (2023-11-08T19:01:13Z) - Personalized Soups: Personalized Large Language Model Alignment via
Post-hoc Parameter Merging [148.77027765872006]
パーソナライズされたヒューマンフィードバック(RLPHF)問題からの強化学習について検討する。
LLMは、多目的強化学習(MORL)問題としてアライメントをモデル化することで、複数の好みに整列する。
我々は、好みを複数の次元に分解することで、パーソナライズされたアライメントを実現することができることを示す。
論文 参考訳(メタデータ) (2023-10-17T20:22:13Z) - Investigating Subtler Biases in LLMs: Ageism, Beauty, Institutional, and
Nationality Bias in Generative Models [0.0]
本稿では, 年齢や美しさなど, 研究の少ない, 連続的な, 次元に沿ったバイアスについて検討する。
実験心理学において, LLMは, 特定の社会集団に対して, 肯定的あるいは否定的な感情の偏見を広く保持するか否かを問う。
論文 参考訳(メタデータ) (2023-09-16T07:07:04Z) - Value Kaleidoscope: Engaging AI with Pluralistic Human Values, Rights,
and Duties [70.20460442039375]
価値多元性とは、複数の正しい値が互いに緊張して保持されるという考え方である。
統計的学習者として、AIシステムはデフォルトで平均に適合する。
ValuePrismは、218kの値、権利、義務の大規模なデータセットで、31kの人間が記述した状況に関連付けられています。
論文 参考訳(メタデータ) (2023-09-02T01:24:59Z) - Aligning Language Models to User Opinions [10.953326025836475]
ユーザの意見や人口統計やイデオロギーが相互予測者ではないことが判明した。
ユーザの意見とユーザ人口、イデオロギーの両方をモデル化することで、LCMを整合させる。
人口統計学とイデオロギーを併用したLCMの典型的なアプローチに加えて,個人ユーザからの最も関連性の高い過去の意見を活用すれば,より正確なユーザ意見の予測が可能になることが判明した。
論文 参考訳(メタデータ) (2023-05-24T09:11:11Z) - Self-Agreement: A Framework for Fine-tuning Language Models to Find
Agreement among Diverse Opinions [1.6752182911522517]
自己集約(Self-Agreement)は、合意を自律的に見つけるための、大規模言語モデルを微調整するための新しいフレームワークである。
提案手法では,生成事前学習型トランスフォーマー3を用いて,質問データセットの各質問に対して複数の意見を生成する。
変換器ベースモデル(BERT)からの双方向エンコーダ表現は、一致スコアが最も高いものを選択する。
注目すべきは、我々のSelf-Agreementフレームワークによって微調整された事前学習LLMは、パラメータの1/25しか持たないGPT-3に匹敵する性能を達成することである。
論文 参考訳(メタデータ) (2023-05-19T06:27:16Z) - Personalisation within bounds: A risk taxonomy and policy framework for
the alignment of large language models with personalised feedback [11.895749982167375]
大規模言語モデル(LLM)は、幅広いタスクのコンテンツを生成するために使用され、今後数年でより多くの聴衆にリーチするように設定されている。
これにより、モデルが人間の好みと一致し、安全でない、不正確な、有害なアウトプットを発生させないことを保証する必要性が強まる。
マイクロレベルの嗜好学習プロセスを通じてLLMをパーソナライズすると、各ユーザとの整合性が良くなるモデルが得られる。
論文 参考訳(メタデータ) (2023-03-09T17:52:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。