Fugu-MT 論文翻訳(概要): Personalisation within bounds: A risk taxonomy and policy framework for the alignment of large language models with personalised feedback

論文の概要: Personalisation within bounds: A risk taxonomy and policy framework for the alignment of large language models with personalised feedback

arxiv url: http://arxiv.org/abs/2303.05453v1
Date: Thu, 9 Mar 2023 17:52:07 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-10 13:45:57.540228
Title: Personalisation within bounds: A risk taxonomy and policy framework for the alignment of large language models with personalised feedback
Title（参考訳）: 境界内のパーソナライゼーション:大規模言語モデルとパーソナライズされたフィードバックのアライメントのためのリスク分類と政策枠組み
Authors: Hannah Rose Kirk, Bertie Vidgen, Paul R\"ottger, Scott A. Hale
Abstract要約: 大規模言語モデル(LLM)は、幅広いタスクのコンテンツを生成するために使用され、今後数年でより多くの聴衆にリーチするように設定されている。これにより、モデルが人間の好みと一致し、安全でない、不正確な、有害なアウトプットを発生させないことを保証する必要性が強まる。マイクロレベルの嗜好学習プロセスを通じてLLMをパーソナライズすると、各ユーザとの整合性が良くなるモデルが得られる。
参考スコア（独自算出の注目度）: 11.895749982167375
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) are used to generate content for a wide range of tasks, and are set to reach a growing audience in coming years due to integration in product interfaces like ChatGPT or search engines like Bing. This intensifies the need to ensure that models are aligned with human preferences and do not produce unsafe, inaccurate or toxic outputs. While alignment techniques like reinforcement learning with human feedback (RLHF) and red-teaming can mitigate some safety concerns and improve model capabilities, it is unlikely that an aggregate fine-tuning process can adequately represent the full range of users' preferences and values. Different people may legitimately disagree on their preferences for language and conversational norms, as well as on values or ideologies which guide their communication. Personalising LLMs through micro-level preference learning processes may result in models that are better aligned with each user. However, there are several normative challenges in defining the bounds of a societally-acceptable and safe degree of personalisation. In this paper, we ask how, and in what ways, LLMs should be personalised. First, we review literature on current paradigms for aligning LLMs with human feedback, and identify issues including (i) a lack of clarity regarding what alignment means; (ii) a tendency of technology providers to prescribe definitions of inherently subjective preferences and values; and (iii) a 'tyranny of the crowdworker', exacerbated by a lack of documentation in who we are really aligning to. Second, we present a taxonomy of benefits and risks associated with personalised LLMs, for individuals and society at large. Finally, we propose a three-tiered policy framework that allows users to experience the benefits of personalised alignment, while restraining unsafe and undesirable LLM-behaviours within (supra-)national and organisational bounds.
Abstract（参考訳）: 大規模な言語モデル(llm)は、幅広いタスク用のコンテンツを生成するために使われており、chatgptのような製品インターフェースやbingのような検索エンジンとの統合により、今後数年間で利用者が増加するだろう。これにより、モデルが人間の好みと一致し、安全で不正確な、有害なアウトプットを生成しないことを保証する必要性が高まる。強化学習と人的フィードバック(rlhf)やレッドチーム化のようなアライメント技術は、いくつかの安全性の懸念を緩和し、モデル能力を向上させることができるが、総合的な微調整プロセスがユーザーの好みと価値の全範囲を適切に表現できる可能性は低い。異なる人々は、言語や会話規範に対する好みや、コミュニケーションを導く価値やイデオロギーについて、正当な意見を異にすることがある。マイクロレベルの嗜好学習プロセスを通じてLLMをパーソナライズすると、各ユーザとの整合性がよいモデルが得られる。しかし、社会的に受け入れられ、安全なパーソナライゼーションの限界を定義するための規範的な課題はいくつかある。本稿では,LLMをどうパーソナライズするか,どのようにしてパーソナライズすべきかを問う。まず,llmと人的フィードバックを連携させる現在のパラダイムに関する文献をレビューし,その問題点について考察する。 (i)アライメントの意味に関する明快さの欠如二技術提供者が本質的に主観的嗜好及び価値観の定義を規定する傾向 (三)「クラウドワーカーの暴行」は、私たちが本当に同調しているドキュメントの欠如によって悪化します。第2に、個人化されたLSMに関連する利益とリスクの分類を、個人や社会全体に対して提示する。最後に,ユーザが個人化されたアライメントのメリットを享受できるとともに,国家的および組織的境界内で,安全で望ましくないllm-behavioursを抑制する3層ポリシフレームワークを提案する。

関連論文リスト

$\texttt{SAGE}$: A Generic Framework for LLM Safety Evaluation [9.935219917903858]
本稿では、$texttSAGE$(Safety AI Generic Evaluation)フレームワークを紹介する。 $texttSAGE$は、カスタマイズされた動的害評価用に設計された自動モジュール化フレームワークである。マルチターン会話評価実験により,会話の長さによって害が着実に増加することが判明した。
論文参考訳（メタデータ） (2025-04-28T11:01:08Z)
A Survey on Personalized Alignment -- The Missing Piece for Large Language Models in Real-World Applications [28.181295575180293]
大きな言語モデル(LLM)は目覚ましい能力を示しているが、現実のアプリケーションへの移行には限界がある。本稿では、パーソナライズされたアライメントに関する最初の包括的調査を示す。本稿では、優先メモリ管理、パーソナライズされた生成、フィードバックに基づくアライメントを含む統合されたフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-21T10:09:16Z)
Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。数発のステアライメントのための新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-12-18T16:14:59Z)
Persuasion with Large Language Models: a Survey [49.86930318312291]
大規模言語モデル (LLM) は説得力のあるコミュニケーションに新たな破壊的可能性を生み出している。政治、マーケティング、公衆衛生、電子商取引、慈善事業などの分野では、LLMシステムズは既に人間レベルや超人的説得力を達成している。 LLMをベースとした説得の現在と将来の可能性は、倫理的・社会的リスクを著しく引き起こす可能性が示唆された。
論文参考訳（メタデータ） (2024-11-11T10:05:52Z)
Personalization of Large Language Models: A Survey [131.00650432814268]
大規模言語モデル(LLM)のパーソナライゼーションは、最近、広範囲のアプリケーションでますます重要になっている。パーソナライズ LLM に関する既存の研究の多くは、(a)パーソナライズされたテキスト生成、または(b)レコメンデーションシステムのようなパーソナライズに関連する下流アプリケーションに LLM を活用することに集中している。パーソナライズされたLSM使用のための分類を導入し、主要な違いと課題を要約する。
論文参考訳（メタデータ） (2024-10-29T04:01:11Z)
MetaAlign: Align Large Language Models with Diverse Preferences during Inference Time [50.41806216615488]
大規模言語モデル(LLM)は、広範なテキストコーパスから広範な知識と顕著な能力を取得する。 LLMをより使いやすくするためには、それらを人間の好みに合わせることが不可欠である。提案手法は,LLMが推論時に指定される様々な明示的あるいは暗黙的な選好と動的に整合するのを支援することを目的としている。
論文参考訳（メタデータ） (2024-10-18T05:31:13Z)
LLM-CI: Assessing Contextual Integrity Norms in Language Models [1.1715858161748576]
大規模言語モデル(LLM)は、社会的嗜好や規範を意図せずに符号化することができる。これは、プロンプトの感度が$$$$小であることから特に困難である。 LLM-CIは、符号化された規範を評価するための最初のオープンソースフレームワークである。
論文参考訳（メタデータ） (2024-09-05T17:50:31Z)
ABC Align: Large Language Model Alignment for Safety & Accuracy [0.0]
大規模言語モデル(LLM)のための新しいアライメント手法ABC Alignを提案する。合成データ生成、選好最適化、ポストトレーニングモデル量子化における最近のブレークスルーの上に構築された一連のデータとメソッドを組み合わせる。我々の統一的なアプローチは、標準ベンチマークに対して測定されたように、バイアスを軽減し、推論能力を保ちながら精度を向上させる。
論文参考訳（メタデータ） (2024-08-01T06:06:25Z)
Exploring Safety-Utility Trade-Offs in Personalized Language Models [26.792174008353008]
大規模言語モデル(LLM)はパーソナライズバイアスに悩まされており、ユーザのアイデンティティにパーソナライズされた場合のパフォーマンスに影響を及ぼす。安全性と実用性という2つの軸に沿ってLLMの性能を評価することにより、パーソナライズバイアスを定量化する。我々は、嗜好調整とプロンプトベースディフェンスを用いたパーソナライズバイアスを軽減するためのいくつかの戦略について議論する。
論文参考訳（メタデータ） (2024-06-17T00:17:11Z)
Beyond Human Norms: Unveiling Unique Values of Large Language Models through Interdisciplinary Approaches [69.73783026870998]
本研究では,大言語モデルの固有値システムをスクラッチから再構築する新しいフレームワークであるValueLexを提案する。語彙仮説に基づいて、ValueLexは30以上のLLMから様々な値を引き出すための生成的アプローチを導入している。我々は,3つのコア値次元,能力,キャラクタ,積分をそれぞれ特定の部分次元で同定し,LLMが非人間的だが構造化された価値体系を持っていることを明らかにした。
論文参考訳（メタデータ） (2024-04-19T09:44:51Z)
ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文参考訳（メタデータ） (2024-04-06T15:01:47Z)
DeAL: Decoding-time Alignment for Large Language Models [59.63643988872571]
大規模言語モデル(LLM)は、現在、人間の好みに沿ったコンテンツを生成することが期待されている。本稿では,報酬関数をカスタマイズ可能なフレームワークであるDeALを提案し,LLMのDetime Alignmentを可能にする。実験の結果,粒度の細かいトレードオフでDeALを実現できること,アライメント目標への適合性の向上,LLMの残差の解消が可能であることがわかった。
論文参考訳（メタデータ） (2024-02-05T06:12:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。