論文の概要: Fundamental Limitations of Alignment in Large Language Models
- arxiv url: http://arxiv.org/abs/2304.11082v6
- Date: Mon, 3 Jun 2024 12:19:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-04 21:39:44.243140
- Title: Fundamental Limitations of Alignment in Large Language Models
- Title(参考訳): 大規模言語モデルにおけるアライメントの基本的限界
- Authors: Yotam Wolf, Noam Wies, Oshri Avnery, Yoav Levine, Amnon Shashua,
- Abstract要約: 人間と対話する言語モデルを開発する上で重要な側面は、その行動が有用で有害であるように整列することである。
これは通常、望ましい振る舞いを高め、望ましくない振る舞いを抑制する方法でモデルをチューニングすることで達成される。
本研究では,行動予測境界 (BEB) と呼ばれる理論的手法を提案する。
- 参考スコア(独自算出の注目度): 16.393916864600193
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: An important aspect in developing language models that interact with humans is aligning their behavior to be useful and unharmful for their human users. This is usually achieved by tuning the model in a way that enhances desired behaviors and inhibits undesired ones, a process referred to as alignment. In this paper, we propose a theoretical approach called Behavior Expectation Bounds (BEB) which allows us to formally investigate several inherent characteristics and limitations of alignment in large language models. Importantly, we prove that within the limits of this framework, for any behavior that has a finite probability of being exhibited by the model, there exist prompts that can trigger the model into outputting this behavior, with probability that increases with the length of the prompt. This implies that any alignment process that attenuates an undesired behavior but does not remove it altogether, is not safe against adversarial prompting attacks. Furthermore, our framework hints at the mechanism by which leading alignment approaches such as reinforcement learning from human feedback make the LLM prone to being prompted into the undesired behaviors. This theoretical result is being experimentally demonstrated in large scale by the so called contemporary "chatGPT jailbreaks", where adversarial users trick the LLM into breaking its alignment guardrails by triggering it into acting as a malicious persona. Our results expose fundamental limitations in alignment of LLMs and bring to the forefront the need to devise reliable mechanisms for ensuring AI safety.
- Abstract(参考訳): 人間と対話する言語モデルを開発する上で重要な側面は、人間のユーザにとって有用で有害な振る舞いを整列させることである。
これは通常、望ましい振る舞いを高め、望ましくない振る舞いを阻害する方法でモデルをチューニングすることで達成される。
本稿では,行動予測境界 (BEB) と呼ばれる理論的手法を提案する。
重要なことに、このフレームワークの限界内では、モデルによって提示される確率が有限である任意の挙動に対して、プロンプトの長さとともに増加する確率で、モデルにこの挙動を出力させるようなプロンプトが存在することを証明している。
これは、望ましくない振る舞いを弱めるが、完全に取り除かないアライメントプロセスは、敵の攻撃に対して安全ではないことを意味する。
さらに,この枠組みは,人間からのフィードバックからの強化学習などの指導的アライメントアプローチが,LLMを望ましくない行動に駆り立てる傾向があることを示唆している。
この理論的な結果は、現代の"chatGPT jailbreaks"と呼ばれる、敵のユーザがLSMを騙してアライメントガードレールを壊し、悪意のあるペルソナとして行動させることによって、大規模に実証されている。
この結果から,LLMのアライメントにおける基本的な制限が明らかになり,AIの安全性を確保するための信頼性の高いメカニズムの策定の必要性が最前線に浮かび上がっている。
関連論文リスト
- Compromising Honesty and Harmlessness in Language Models via Deception Attacks [0.04499833362998487]
ディセプション・アタック(deception attack)は、ユーザーが選択したトピックをトリガーし、他の人に正確さを保ちながら、ユーザーを誤解させるようなモデルをカスタマイズする。
詐欺モデルもまた有害性を示し、ヘイトスピーチ、ステレオタイプ、その他の有害な内容を生成する。
論文 参考訳(メタデータ) (2025-02-12T11:02:59Z) - Model Tampering Attacks Enable More Rigorous Evaluations of LLM Capabilities [49.09703018511403]
大規模言語モデル(LLM)のリスクと能力は、AIのリスク管理とガバナンスフレームワークにますます取り入れられている。
現在、ほとんどのリスク評価は、システムから有害な振る舞いを誘発する入力を設計することで実施されている。
本稿では,遅延活性化や重みへの修正が可能なモデル改ざん攻撃を用いたLCMの評価を提案する。
論文 参考訳(メタデータ) (2025-02-03T18:59:16Z) - Deception in LLMs: Self-Preservation and Autonomous Goals in Large Language Models [0.0]
大規模言語モデルの最近の進歩には、計画と推論能力が組み込まれている。
これにより、数学的および論理的タスクにおける誤りを低減し、精度を向上した。
本研究では,OpenAIのo1に似た推論トークンを出力するモデルであるDeepSeek R1について検討した。
論文 参考訳(メタデータ) (2025-01-27T21:26:37Z) - Turning Logic Against Itself : Probing Model Defenses Through Contrastive Questions [51.51850981481236]
非倫理的反応を引き起こすために、対照的な推論を利用する新しいジェイルブレイク手法であるPOATEを導入する。
PoATEは意味論的に意図に反し、敵のテンプレートと統合し、有害なアウトプットを驚くほど微妙に操る。
これに対応するために、悪意のある意図と理性を検出するためにクエリを分解して、有害な応答を評価し、拒否するIntent-Aware CoTとReverse Thinking CoTを提案する。
論文 参考訳(メタデータ) (2025-01-03T15:40:03Z) - Deliberative Alignment: Reasoning Enables Safer Language Models [64.60765108418062]
モデルセーフティ仕様を教える新しいパラダイムであるDeliberative Alignmentを紹介します。
このアプローチを使ってOpenAIのoシリーズモデルを整列させ、人書きのチェーンや回答を必要とせず、OpenAIの安全ポリシーに極めて正確な順守を実現しました。
論文 参考訳(メタデータ) (2024-12-20T21:00:11Z) - Tuning-Free Accountable Intervention for LLM Deployment -- A
Metacognitive Approach [55.613461060997004]
大規模言語モデル(LLM)は、自然言語処理タスクの幅広い領域にわたる変換的進歩を触媒している。
我々は,自己認識型誤り識別と訂正機能を備えたLLMを実現するために,textbfCLEARと呼ばれる革新的なテキストメタ認知手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T19:18:53Z) - DeAL: Decoding-time Alignment for Large Language Models [59.63643988872571]
大規模言語モデル(LLM)は、現在、人間の好みに沿ったコンテンツを生成することが期待されている。
本稿では,報酬関数をカスタマイズ可能なフレームワークであるDeALを提案し,LLMのDetime Alignmentを可能にする。
実験の結果,粒度の細かいトレードオフでDeALを実現できること,アライメント目標への適合性の向上,LLMの残差の解消が可能であることがわかった。
論文 参考訳(メタデータ) (2024-02-05T06:12:29Z) - InferAligner: Inference-Time Alignment for Harmlessness through
Cross-Model Guidance [56.184255657175335]
我々は,無害アライメントのためのクロスモデルガイダンスを利用する新しい推論時間アライメント手法であるtextbfInferAligner を開発した。
実験結果から,本手法はファイナンス,医学,数学の分野特化モデルに極めて効果的に適用可能であることが示された。
これは有害な命令とジェイルブレイク攻撃の両方のアタック成功率(ASR)を著しく低下させ、下流タスクではほとんど変化のないパフォーマンスを維持している。
論文 参考訳(メタデータ) (2024-01-20T10:41:03Z) - Open Sesame! Universal Black Box Jailbreaking of Large Language Models [0.0]
大規模言語モデル(LLM)は、有用で安全な応答を提供するように設計されている。
LLMは、しばしばユーザーの意図や社会的ガイドラインに合わせるためにアライメント技術に頼っている。
モデルアーキテクチャやパラメータがアクセスできない場合に,遺伝的アルゴリズム(GA)を用いてLLMを操作する手法を提案する。
論文 参考訳(メタデータ) (2023-09-04T08:54:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。