論文の概要: sudoLLM : On Multi-role Alignment of Language Models
- arxiv url: http://arxiv.org/abs/2505.14607v1
- Date: Tue, 20 May 2025 16:54:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:53.595976
- Title: sudoLLM : On Multi-role Alignment of Language Models
- Title(参考訳): sudoLLM : 言語モデルのマルチロールアライメントについて
- Authors: Soumadeep Saha, Akshay Chaturvedi, Joy Mahapatra, Utpal Garain,
- Abstract要約: ユーザ認証に基づくアクセス権限は、多くのセーフティクリティカルシステムにおいて重要な機能である。
マルチロール・アライメント言語モデルを実現する新しいフレームワークであるSudoLLMを紹介する。
- 参考スコア(独自算出の注目度): 3.0748861313823
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: User authorization-based access privileges are a key feature in many safety-critical systems, but have thus far been absent from the large language model (LLM) realm. In this work, drawing inspiration from such access control systems, we introduce sudoLLM, a novel framework that results in multi-role aligned LLMs, i.e., LLMs that account for, and behave in accordance with, user access rights. sudoLLM injects subtle user-based biases into queries and trains an LLM to utilize this bias signal in order to produce sensitive information if and only if the user is authorized. We present empirical results demonstrating that this approach shows substantially improved alignment, generalization, and resistance to prompt-based jailbreaking attacks. The persistent tension between the language modeling objective and safety alignment, which is often exploited to jailbreak LLMs, is somewhat resolved with the aid of the injected bias signal. Our framework is meant as an additional security layer, and complements existing guardrail mechanisms for enhanced end-to-end safety with LLMs.
- Abstract(参考訳): ユーザ認証に基づくアクセス権限は、多くのセーフティクリティカルシステムにおいて重要な機能であるが、これまでのところ、大きな言語モデル(LLM)の領域にはない。
本研究では,このようなアクセス制御システムからインスピレーションを得たSudoLLMを紹介する。
sudoLLMは、クエリに微妙なユーザベースのバイアスを注入し、ユーザが許可された場合にのみ機密情報を生成するために、LLMにこのバイアス信号を使用するように訓練する。
本稿では,本手法がアライメント,一般化,迅速なジェイルブレイク攻撃に対する抵抗性を著しく改善したことを示す実験結果を示す。
言語モデリングの目的と安全アライメントの永続的な緊張は、しばしばジェイルブレイクのLLMに悪用されるが、注入されたバイアス信号の助けを借りてある程度解決される。
我々のフレームワークは、追加のセキュリティレイヤとして意図されており、LLMによるエンドツーエンドの安全性向上のための既存のガードレールメカニズムを補完します。
関連論文リスト
- Look Before You Leap: Enhancing Attention and Vigilance Regarding Harmful Content with GuidelineLLM [53.79753074854936]
大規模言語モデル(LLM)は、出現するジェイルブレイク攻撃に対してますます脆弱である。
この脆弱性は現実世界のアプリケーションに重大なリスクをもたらす。
本稿では,ガイドラインLLMという新しい防御パラダイムを提案する。
論文 参考訳(メタデータ) (2024-12-10T12:42:33Z) - Improved Large Language Model Jailbreak Detection via Pretrained Embeddings [0.0]
本稿では,従来の機械学習分類アルゴリズムを用いた検索に適したペアリングテキスト埋め込みに基づくジェイルブレイクプロンプトの検出手法を提案する。
当社のアプローチは,オープンソースのLLMセキュリティアプリケーションから入手可能なすべてのメソッドを上回ります。
論文 参考訳(メタデータ) (2024-12-02T14:35:43Z) - Jailbreaking Large Language Models Through Alignment Vulnerabilities in Out-of-Distribution Settings [57.136748215262884]
本稿では,ObscurePrompt for jailbreaking LLMを紹介し,OOD(Out-of-Distribution)データにおける脆弱なアライメントに着想を得た。
まず、脱獄過程における決定境界を定式化し、次にLLMの倫理的決定境界に不明瞭な文章がどう影響するかを考察する。
本手法は,2つの防御機構に対する有効性を保ちながら,攻撃効果の観点から従来の手法を大幅に改善する。
論文 参考訳(メタデータ) (2024-06-19T16:09:58Z) - Defending Large Language Models Against Jailbreak Attacks via Layer-specific Editing [14.094372002702476]
大規模言語モデル(LLM)は、広範囲の現実世界のアプリケーションで採用されつつある。
近年の研究では、LSMは故意に構築された敵のプロンプトに弱いことが示されている。
そこで本研究では,新しい防衛手法である textbfLayer-specific textbfEditing (LED) を提案する。
論文 参考訳(メタデータ) (2024-05-28T13:26:12Z) - Fine-Tuning, Quantization, and LLMs: Navigating Unintended Outcomes [0.0]
大規模言語モデル(LLM)は、チャットボットやオートタスク補完エージェントなど、さまざまな領域で広く採用されている。
これらのモデルは、ジェイルブレイク、プロンプトインジェクション、プライバシリーク攻撃などの安全性上の脆弱性の影響を受けやすい。
本研究では,これらの変更がLLMの安全性に与える影響について検討する。
論文 参考訳(メタデータ) (2024-04-05T20:31:45Z) - AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。
我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文 参考訳(メタデータ) (2024-03-14T15:57:13Z) - Jailbreaking Black Box Large Language Models in Twenty Queries [97.29563503097995]
大規模言語モデル(LLM)は、敵のジェイルブレイクに対して脆弱である。
LLMへのブラックボックスアクセスのみのセマンティックジェイルブレイクを生成するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-12T15:38:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。