論文の概要: Personalisation within bounds: A risk taxonomy and policy framework for
the alignment of large language models with personalised feedback
- arxiv url: http://arxiv.org/abs/2303.05453v1
- Date: Thu, 9 Mar 2023 17:52:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-10 13:45:57.540228
- Title: Personalisation within bounds: A risk taxonomy and policy framework for
the alignment of large language models with personalised feedback
- Title(参考訳): 境界内のパーソナライゼーション:大規模言語モデルとパーソナライズされたフィードバックのアライメントのためのリスク分類と政策枠組み
- Authors: Hannah Rose Kirk, Bertie Vidgen, Paul R\"ottger, Scott A. Hale
- Abstract要約: 大規模言語モデル(LLM)は、幅広いタスクのコンテンツを生成するために使用され、今後数年でより多くの聴衆にリーチするように設定されている。
これにより、モデルが人間の好みと一致し、安全でない、不正確な、有害なアウトプットを発生させないことを保証する必要性が強まる。
マイクロレベルの嗜好学習プロセスを通じてLLMをパーソナライズすると、各ユーザとの整合性が良くなるモデルが得られる。
- 参考スコア(独自算出の注目度): 11.895749982167375
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are used to generate content for a wide range of
tasks, and are set to reach a growing audience in coming years due to
integration in product interfaces like ChatGPT or search engines like Bing.
This intensifies the need to ensure that models are aligned with human
preferences and do not produce unsafe, inaccurate or toxic outputs. While
alignment techniques like reinforcement learning with human feedback (RLHF) and
red-teaming can mitigate some safety concerns and improve model capabilities,
it is unlikely that an aggregate fine-tuning process can adequately represent
the full range of users' preferences and values. Different people may
legitimately disagree on their preferences for language and conversational
norms, as well as on values or ideologies which guide their communication.
Personalising LLMs through micro-level preference learning processes may result
in models that are better aligned with each user. However, there are several
normative challenges in defining the bounds of a societally-acceptable and safe
degree of personalisation. In this paper, we ask how, and in what ways, LLMs
should be personalised. First, we review literature on current paradigms for
aligning LLMs with human feedback, and identify issues including (i) a lack of
clarity regarding what alignment means; (ii) a tendency of technology providers
to prescribe definitions of inherently subjective preferences and values; and
(iii) a 'tyranny of the crowdworker', exacerbated by a lack of documentation in
who we are really aligning to. Second, we present a taxonomy of benefits and
risks associated with personalised LLMs, for individuals and society at large.
Finally, we propose a three-tiered policy framework that allows users to
experience the benefits of personalised alignment, while restraining unsafe and
undesirable LLM-behaviours within (supra-)national and organisational bounds.
- Abstract(参考訳): 大規模な言語モデル(llm)は、幅広いタスク用のコンテンツを生成するために使われており、chatgptのような製品インターフェースやbingのような検索エンジンとの統合により、今後数年間で利用者が増加するだろう。
これにより、モデルが人間の好みと一致し、安全で不正確な、有害なアウトプットを生成しないことを保証する必要性が高まる。
強化学習と人的フィードバック(rlhf)やレッドチーム化のようなアライメント技術は、いくつかの安全性の懸念を緩和し、モデル能力を向上させることができるが、総合的な微調整プロセスがユーザーの好みと価値の全範囲を適切に表現できる可能性は低い。
異なる人々は、言語や会話規範に対する好みや、コミュニケーションを導く価値やイデオロギーについて、正当な意見を異にすることがある。
マイクロレベルの嗜好学習プロセスを通じてLLMをパーソナライズすると、各ユーザとの整合性がよいモデルが得られる。
しかし、社会的に受け入れられ、安全なパーソナライゼーションの限界を定義するための規範的な課題はいくつかある。
本稿では,LLMをどうパーソナライズするか,どのようにしてパーソナライズすべきかを問う。
まず,llmと人的フィードバックを連携させる現在のパラダイムに関する文献をレビューし,その問題点について考察する。
(i)アライメントの意味に関する明快さの欠如
二 技術提供者が本質的に主観的嗜好及び価値観の定義を規定する傾向
(三)「クラウドワーカーの暴行」は、私たちが本当に同調しているドキュメントの欠如によって悪化します。
第2に、個人化されたLSMに関連する利益とリスクの分類を、個人や社会全体に対して提示する。
最後に,ユーザが個人化されたアライメントのメリットを享受できるとともに,国家的および組織的境界内で,安全で望ましくないllm-behavioursを抑制する3層ポリシフレームワークを提案する。
関連論文リスト
- Tuning-Free Accountable Intervention for LLM Deployment -- A
Metacognitive Approach [55.613461060997004]
大規模言語モデル(LLM)は、自然言語処理タスクの幅広い領域にわたる変換的進歩を触媒している。
我々は,自己認識型誤り識別と訂正機能を備えたLLMを実現するために,textbfCLEARと呼ばれる革新的なテキストメタ認知手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T19:18:53Z) - DeAL: Decoding-time Alignment for Large Language Models [59.63643988872571]
大規模言語モデル(LLM)は、現在、人間の好みに沿ったコンテンツを生成することが期待されている。
本稿では,報酬関数をカスタマイズ可能なフレームワークであるDeALを提案し,LLMのDetime Alignmentを可能にする。
実験の結果,粒度の細かいトレードオフでDeALを実現できること,アライメント目標への適合性の向上,LLMの残差の解消が可能であることがわかった。
論文 参考訳(メタデータ) (2024-02-05T06:12:29Z) - Fortifying Ethical Boundaries in AI: Advanced Strategies for Enhancing
Security in Large Language Models [3.9490749767170636]
大規模言語モデル(LLM)は、テキスト生成、翻訳、質問応答タスクに革命をもたらした。
広く使われているにもかかわらず、LLMはモデルに不適切な反応を強いられる場合の倫理的ジレンマのような課題を提示している。
本稿では,1)ユーザ入力からセンシティブな語彙をフィルタリングして非倫理的応答を防ぐ,2)"プライソンブレイク"シナリオにつながる可能性のあるインタラクションを停止するロールプレイングを検出する,4)マルチモデル大規模言語モデル(MLLM)のような様々なLLM派生語に拡張する,という課題に対処する。
論文 参考訳(メタデータ) (2024-01-27T08:09:33Z) - Linear Alignment: A Closed-form Solution for Aligning Human Preferences
without Tuning and Feedback [72.21755067005049]
リニアアライメントは、言語モデルと人間の好みを1つの推論ステップで整列する新しいアルゴリズムである。
一般的な選好データセットとパーソナライズされた選好データセットの実験により、線形アライメントはLLMアライメントの性能と効率を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-01-21T10:46:23Z) - On the steerability of large language models toward data-driven personas [103.17413190093366]
協調フィルタリングに基づくデータ駆動型ペルソナ定義手法を提案する。
ユーザの連続表現を仮想トークンのシーケンスにマッピングするために,ソフトプロンプトモデルを学ぶ。
以上の結果から,本アルゴリズムはベースラインの収集よりも性能が優れていることがわかった。
論文 参考訳(メタデータ) (2023-11-08T19:01:13Z) - Personalized Soups: Personalized Large Language Model Alignment via
Post-hoc Parameter Merging [148.77027765872006]
パーソナライズされたヒューマンフィードバック(RLPHF)問題からの強化学習について検討する。
LLMは、多目的強化学習(MORL)問題としてアライメントをモデル化することで、複数の好みに整列する。
我々は、好みを複数の次元に分解することで、パーソナライズされたアライメントを実現することができることを示す。
論文 参考訳(メタデータ) (2023-10-17T20:22:13Z) - Bias and Fairness in Large Language Models: A Survey [76.65471160523444]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。
まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。
次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文 参考訳(メタデータ) (2023-09-02T00:32:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。