論文の概要: Fundamental Limitations of Alignment in Large Language Models
- arxiv url: http://arxiv.org/abs/2304.11082v1
- Date: Wed, 19 Apr 2023 17:50:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-24 14:05:16.951319
- Title: Fundamental Limitations of Alignment in Large Language Models
- Title(参考訳): 大規模言語モデルにおけるアライメントの基本限界
- Authors: Yotam Wolf, Noam Wies, Yoav Levine, Amnon Shashua
- Abstract要約: 本研究では,大規模言語モデルにおけるアライメントの特性と限界を明らかにするため,振る舞い予測境界 (BEB) と呼ばれる理論的手法を提案する。
モデルによって提示される確率が有限である任意の挙動に対して、この挙動を出力するためにモデルを引き起こすプロンプトが存在することを証明している。
この結果から,LLMのアライメントにおける基本的な制限が明らかになり,AIの安全性を確保するための信頼性の高いメカニズムの策定の必要性が最前線に浮かび上がっている。
- 参考スコア(独自算出の注目度): 14.398580306478411
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: An important aspect in developing language models that interact with humans
is aligning their behavior to be useful and unharmful for their human users.
This is usually achieved by tuning the model in a way that enhances desired
behaviors and inhibits undesired ones, a process referred to as alignment. In
this paper, we propose a theoretical approach called Behavior Expectation
Bounds (BEB) which allows us to formally investigate several inherent
characteristics and limitations of alignment in large language models.
Importantly, we prove that for any behavior that has a finite probability of
being exhibited by the model, there exist prompts that can trigger the model
into outputting this behavior, with probability that increases with the length
of the prompt. This implies that any alignment process that attenuates
undesired behavior but does not remove it altogether, is not safe against
adversarial prompting attacks. Furthermore, our framework hints at the
mechanism by which leading alignment approaches such as reinforcement learning
from human feedback increase the LLM's proneness to being prompted into the
undesired behaviors. Moreover, we include the notion of personas in our BEB
framework, and find that behaviors which are generally very unlikely to be
exhibited by the model can be brought to the front by prompting the model to
behave as specific persona. This theoretical result is being experimentally
demonstrated in large scale by the so called contemporary "chatGPT jailbreaks",
where adversarial users trick the LLM into breaking its alignment guardrails by
triggering it into acting as a malicious persona. Our results expose
fundamental limitations in alignment of LLMs and bring to the forefront the
need to devise reliable mechanisms for ensuring AI safety.
- Abstract(参考訳): 人間と対話する言語モデルを開発する上で重要な側面は、人間のユーザにとって有用で有害な振る舞いを整列させることである。
これは通常、望ましい振る舞いを高め、望ましくない振る舞い、すなわちアライメントと呼ばれるプロセスを抑制する方法でモデルを調整することによって達成される。
本稿では,行動予測境界 (BEB) と呼ばれる理論的手法を提案する。
重要なことに、モデルによって提示される確率が有限である任意の挙動に対して、この挙動を出力するためにモデルをトリガーできるプロンプトが存在し、プロンプトの長さが増加する確率が増加する。
これは、望ましくない振る舞いを弱めるが完全に取り除かないアライメントプロセスは、敵対的な攻撃に対して安全ではないことを意味する。
さらに,この枠組みは,人間からのフィードバックからの強化学習などの指導的アライメントアプローチが,望ましくない行動に刺激される傾向があることを示唆している。
さらに、BEBフレームワークにはペルソナの概念が含まれており、モデルが特定のペルソナとして振る舞うように促すことで、一般的にはモデルによって提示される可能性が極めて低い振る舞いを前面に持ち込むことができる。
この理論結果は、現代の"chatGPT jailbreaks"と呼ばれる、敵のユーザがLSMを騙してアライメントガードレールを壊し、悪意のあるペルソナとして行動させることによって、大規模に実証されている。
この結果から,LLMのアライメントにおける基本的な制限が明らかになり,AIの安全性を確保するための信頼性の高いメカニズムを考案する必要が生じた。
関連論文リスト
- BEEAR: Embedding-based Adversarial Removal of Safety Backdoors in Instruction-tuned Language Models [57.5404308854535]
大型言語モデル(LLM)における安全バックドア攻撃は、正常な相互作用中の検出を回避しながら、安全でない振る舞いをステルス的に引き起こすことができる。
モデル埋め込み空間において,バックドアトリガーが比較的均一なドリフトを引き起こすという知見を活かした緩和手法であるBEEARを提案する。
両レベル最適化手法は、不要な振る舞いを誘発する普遍的な埋め込み摂動を特定し、モデルパラメータを調整し、これらの摂動に対する安全な振舞いを強化する。
論文 参考訳(メタデータ) (2024-06-24T19:29:47Z) - Tuning-Free Accountable Intervention for LLM Deployment -- A
Metacognitive Approach [55.613461060997004]
大規模言語モデル(LLM)は、自然言語処理タスクの幅広い領域にわたる変換的進歩を触媒している。
我々は,自己認識型誤り識別と訂正機能を備えたLLMを実現するために,textbfCLEARと呼ばれる革新的なテキストメタ認知手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T19:18:53Z) - DeAL: Decoding-time Alignment for Large Language Models [59.63643988872571]
大規模言語モデル(LLM)は、現在、人間の好みに沿ったコンテンツを生成することが期待されている。
本稿では,報酬関数をカスタマイズ可能なフレームワークであるDeALを提案し,LLMのDetime Alignmentを可能にする。
実験の結果,粒度の細かいトレードオフでDeALを実現できること,アライメント目標への適合性の向上,LLMの残差の解消が可能であることがわかった。
論文 参考訳(メタデータ) (2024-02-05T06:12:29Z) - Self-Debiasing Large Language Models: Zero-Shot Recognition and
Reduction of Stereotypes [73.12947922129261]
ステレオタイピングを減らすために,大規模言語モデルのゼロショット機能を活用している。
自己嫌悪は、9つの異なる社会集団におけるステレオタイピングの度合いを著しく低下させることが示される。
この研究が、バイアス軽減のための他のゼロショット技術に関する調査をオープンにすることを願っている。
論文 参考訳(メタデータ) (2024-02-03T01:40:11Z) - InferAligner: Inference-Time Alignment for Harmlessness through
Cross-Model Guidance [56.184255657175335]
我々は,無害アライメントのためのクロスモデルガイダンスを利用する新しい推論時間アライメント手法であるtextbfInferAligner を開発した。
実験結果から,本手法はファイナンス,医学,数学の分野特化モデルに極めて効果的に適用可能であることが示された。
これは有害な命令とジェイルブレイク攻撃の両方のアタック成功率(ASR)を著しく低下させ、下流タスクではほとんど変化のないパフォーマンスを維持している。
論文 参考訳(メタデータ) (2024-01-20T10:41:03Z) - Stealthy and Persistent Unalignment on Large Language Models via Backdoor Injections [17.49244337226907]
バックドアインジェクションにより,大規模言語モデルに対してステルスと永続的不整合を行うことが可能であることを示す。
提案したステルスと持続的不整合は、再整合防御に対する強い持続性を維持しつつ、安全性評価に合格することができる。
論文 参考訳(メタデータ) (2023-11-15T23:52:05Z) - Gaining Wisdom from Setbacks: Aligning Large Language Models via Mistake
Analysis [127.85293480405082]
大規模言語モデル(LLM)の急速な開発は、多くの機会を提供するだけでなく、重要な課題も提示している。
既存のアライメント手法は、人間による注釈付き、欠陥のない命令応答ペアを利用することで、LLMを好ましい結果に導くのが一般的である。
本研究は誤り解析に基づく新しいアライメント手法を提案する。ミスの原因と回避方法を学習するために,LLMを誤った内容に故意に公開する手法である。
論文 参考訳(メタデータ) (2023-10-16T14:59:10Z) - Open Sesame! Universal Black Box Jailbreaking of Large Language Models [0.0]
大規模言語モデル(LLM)は、有用で安全な応答を提供するように設計されている。
LLMは、しばしばユーザーの意図や社会的ガイドラインに合わせるためにアライメント技術に頼っている。
モデルアーキテクチャやパラメータがアクセスできない場合に,遺伝的アルゴリズム(GA)を用いてLLMを操作する手法を提案する。
論文 参考訳(メタデータ) (2023-09-04T08:54:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。