論文の概要: Personalisation within bounds: A risk taxonomy and policy framework for
the alignment of large language models with personalised feedback
- arxiv url: http://arxiv.org/abs/2303.05453v1
- Date: Thu, 9 Mar 2023 17:52:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-10 13:45:57.540228
- Title: Personalisation within bounds: A risk taxonomy and policy framework for
the alignment of large language models with personalised feedback
- Title(参考訳): 境界内のパーソナライゼーション:大規模言語モデルとパーソナライズされたフィードバックのアライメントのためのリスク分類と政策枠組み
- Authors: Hannah Rose Kirk, Bertie Vidgen, Paul R\"ottger, Scott A. Hale
- Abstract要約: 大規模言語モデル(LLM)は、幅広いタスクのコンテンツを生成するために使用され、今後数年でより多くの聴衆にリーチするように設定されている。
これにより、モデルが人間の好みと一致し、安全でない、不正確な、有害なアウトプットを発生させないことを保証する必要性が強まる。
マイクロレベルの嗜好学習プロセスを通じてLLMをパーソナライズすると、各ユーザとの整合性が良くなるモデルが得られる。
- 参考スコア(独自算出の注目度): 11.895749982167375
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are used to generate content for a wide range of
tasks, and are set to reach a growing audience in coming years due to
integration in product interfaces like ChatGPT or search engines like Bing.
This intensifies the need to ensure that models are aligned with human
preferences and do not produce unsafe, inaccurate or toxic outputs. While
alignment techniques like reinforcement learning with human feedback (RLHF) and
red-teaming can mitigate some safety concerns and improve model capabilities,
it is unlikely that an aggregate fine-tuning process can adequately represent
the full range of users' preferences and values. Different people may
legitimately disagree on their preferences for language and conversational
norms, as well as on values or ideologies which guide their communication.
Personalising LLMs through micro-level preference learning processes may result
in models that are better aligned with each user. However, there are several
normative challenges in defining the bounds of a societally-acceptable and safe
degree of personalisation. In this paper, we ask how, and in what ways, LLMs
should be personalised. First, we review literature on current paradigms for
aligning LLMs with human feedback, and identify issues including (i) a lack of
clarity regarding what alignment means; (ii) a tendency of technology providers
to prescribe definitions of inherently subjective preferences and values; and
(iii) a 'tyranny of the crowdworker', exacerbated by a lack of documentation in
who we are really aligning to. Second, we present a taxonomy of benefits and
risks associated with personalised LLMs, for individuals and society at large.
Finally, we propose a three-tiered policy framework that allows users to
experience the benefits of personalised alignment, while restraining unsafe and
undesirable LLM-behaviours within (supra-)national and organisational bounds.
- Abstract(参考訳): 大規模な言語モデル(llm)は、幅広いタスク用のコンテンツを生成するために使われており、chatgptのような製品インターフェースやbingのような検索エンジンとの統合により、今後数年間で利用者が増加するだろう。
これにより、モデルが人間の好みと一致し、安全で不正確な、有害なアウトプットを生成しないことを保証する必要性が高まる。
強化学習と人的フィードバック(rlhf)やレッドチーム化のようなアライメント技術は、いくつかの安全性の懸念を緩和し、モデル能力を向上させることができるが、総合的な微調整プロセスがユーザーの好みと価値の全範囲を適切に表現できる可能性は低い。
異なる人々は、言語や会話規範に対する好みや、コミュニケーションを導く価値やイデオロギーについて、正当な意見を異にすることがある。
マイクロレベルの嗜好学習プロセスを通じてLLMをパーソナライズすると、各ユーザとの整合性がよいモデルが得られる。
しかし、社会的に受け入れられ、安全なパーソナライゼーションの限界を定義するための規範的な課題はいくつかある。
本稿では,LLMをどうパーソナライズするか,どのようにしてパーソナライズすべきかを問う。
まず,llmと人的フィードバックを連携させる現在のパラダイムに関する文献をレビューし,その問題点について考察する。
(i)アライメントの意味に関する明快さの欠如
二 技術提供者が本質的に主観的嗜好及び価値観の定義を規定する傾向
(三)「クラウドワーカーの暴行」は、私たちが本当に同調しているドキュメントの欠如によって悪化します。
第2に、個人化されたLSMに関連する利益とリスクの分類を、個人や社会全体に対して提示する。
最後に,ユーザが個人化されたアライメントのメリットを享受できるとともに,国家的および組織的境界内で,安全で望ましくないllm-behavioursを抑制する3層ポリシフレームワークを提案する。
関連論文リスト
- Exploring Safety-Utility Trade-Offs in Personalized Language Models [26.792174008353008]
大規模言語モデル(LLM)はパーソナライズバイアスに悩まされており、ユーザのアイデンティティにパーソナライズされた場合のパフォーマンスに影響を及ぼす。
安全性と実用性という2つの軸に沿ってLLMの性能を評価することにより、パーソナライズバイアスを定量化する。
我々は、嗜好調整とプロンプトベースディフェンスを用いたパーソナライズバイアスを軽減するためのいくつかの戦略について議論する。
論文 参考訳(メタデータ) (2024-06-17T00:17:11Z) - Beyond Human Norms: Unveiling Unique Values of Large Language Models through Interdisciplinary Approaches [69.73783026870998]
本研究では,大言語モデルの固有値システムをスクラッチから再構築する新しいフレームワークであるValueLexを提案する。
語彙仮説に基づいて、ValueLexは30以上のLLMから様々な値を引き出すための生成的アプローチを導入している。
我々は,3つのコア値次元,能力,キャラクタ,積分をそれぞれ特定の部分次元で同定し,LLMが非人間的だが構造化された価値体系を持っていることを明らかにした。
論文 参考訳(メタデータ) (2024-04-19T09:44:51Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。
脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-04-06T15:01:47Z) - DeAL: Decoding-time Alignment for Large Language Models [59.63643988872571]
大規模言語モデル(LLM)は、現在、人間の好みに沿ったコンテンツを生成することが期待されている。
本稿では,報酬関数をカスタマイズ可能なフレームワークであるDeALを提案し,LLMのDetime Alignmentを可能にする。
実験の結果,粒度の細かいトレードオフでDeALを実現できること,アライメント目標への適合性の向上,LLMの残差の解消が可能であることがわかった。
論文 参考訳(メタデータ) (2024-02-05T06:12:29Z) - Fortifying Ethical Boundaries in AI: Advanced Strategies for Enhancing
Security in Large Language Models [3.9490749767170636]
大規模言語モデル(LLM)は、テキスト生成、翻訳、質問応答タスクに革命をもたらした。
広く使われているにもかかわらず、LLMはモデルに不適切な反応を強いられる場合の倫理的ジレンマのような課題を提示している。
本稿では,1)ユーザ入力からセンシティブな語彙をフィルタリングして非倫理的応答を防ぐ,2)"プライソンブレイク"シナリオにつながる可能性のあるインタラクションを停止するロールプレイングを検出する,4)マルチモデル大規模言語モデル(MLLM)のような様々なLLM派生語に拡張する,という課題に対処する。
論文 参考訳(メタデータ) (2024-01-27T08:09:33Z) - Personalized Soups: Personalized Large Language Model Alignment via
Post-hoc Parameter Merging [148.77027765872006]
パーソナライズされたヒューマンフィードバック(RLPHF)問題からの強化学習について検討する。
LLMは、多目的強化学習(MORL)問題としてアライメントをモデル化することで、複数の好みに整列する。
我々は、好みを複数の次元に分解することで、パーソナライズされたアライメントを実現することができることを示す。
論文 参考訳(メタデータ) (2023-10-17T20:22:13Z) - Bias and Fairness in Large Language Models: A Survey [73.87651986156006]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。
まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。
次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文 参考訳(メタデータ) (2023-09-02T00:32:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。