論文の概要: DIESEL -- Dynamic Inference-Guidance via Evasion of Semantic Embeddings in LLMs
- arxiv url: http://arxiv.org/abs/2411.19038v1
- Date: Thu, 28 Nov 2024 10:33:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 20:28:07.749509
- Title: DIESEL -- Dynamic Inference-Guidance via Evasion of Semantic Embeddings in LLMs
- Title(参考訳): DIESEL -- LLMにおける意味的埋め込みの伝播による動的推論誘導
- Authors: Ben Ganon, Alon Zolfi, Omer Hofman, Inderjeet Singh, Hisashi Kojima, Yuval Elovici, Asaf Shabtai,
- Abstract要約: DIESELは軽量な推論技術であり、任意の自己回帰LDMにシームレスに統合することができる。
LLMの提案したトークンを、潜在空間における定義済みの負の概念と類似性に基づいて再分類することで、応答安全性を向上させる。
- 参考スコア(独自算出の注目度): 23.441711206966914
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, conversational large language models (LLMs) have shown tremendous success in tasks such as casual conversation, question answering, and personalized dialogue, making significant advancements in domains like virtual assistance, social interaction, and online customer engagement. However, they often generate responses that are not aligned with human values (e.g., ethical standards, safety, or social norms), leading to potentially unsafe or inappropriate outputs. While several techniques have been proposed to address this problem, they come with a cost, requiring computationally expensive training or dramatically increasing the inference time. In this paper, we present DIESEL, a lightweight inference guidance technique that can be seamlessly integrated into any autoregressive LLM to semantically filter undesired concepts from the response. DIESEL can function either as a standalone safeguard or as an additional layer of defense, enhancing response safety by reranking the LLM's proposed tokens based on their similarity to predefined negative concepts in the latent space. This approach provides an efficient and effective solution for maintaining alignment with human values. Our evaluation demonstrates DIESEL's effectiveness on state-of-the-art conversational models (e.g., Llama 3), even in challenging jailbreaking scenarios that test the limits of response safety. We further show that DIESEL can be generalized to use cases other than safety, providing a versatile solution for general-purpose response filtering with minimal computational overhead.
- Abstract(参考訳): 近年、会話型大規模言語モデル(LLM)は、カジュアルな会話、質問応答、パーソナライズされた対話といったタスクで大きな成功を収めており、仮想アシスタント、ソーシャルインタラクション、オンライン顧客エンゲージメントといった領域で大きく進歩している。
しかし、人間の価値観(倫理的基準、安全、社会的規範など)と一致しない応答をしばしば生成し、潜在的に安全でない、あるいは不適切なアウトプットをもたらす。
この問題に対処するためにいくつかのテクニックが提案されているが、それらはコストが伴い、計算に高価なトレーニングを必要とするか、推論時間を劇的に増加させる。
本稿では,任意の自己回帰LDMにシームレスに統合して,望ましくない概念をセマンティックにフィルタリングする,軽量な推論誘導手法であるDIESELを提案する。
DIESELはスタンドアロンのセーフガードまたは追加の防御層として機能し、潜在空間における事前定義された負の概念との類似性に基づいてLSMの提案したトークンを再配置することで応答安全性を高めることができる。
このアプローチは、人間の価値との整合性を維持するための効率的で効果的なソリューションを提供する。
本評価は,DIESELの最先端の会話モデル(例えばLlama 3)における有効性を示すものである。
さらに、DIESELは安全性以外のユースケースに一般化可能であることを示し、計算オーバーヘッドを最小限に抑えた汎用応答フィルタリングのための汎用的なソリューションを提供する。
関連論文リスト
- $\texttt{SAGE}$: A Generic Framework for LLM Safety Evaluation [9.935219917903858]
本稿では、$texttSAGE$(Safety AI Generic Evaluation)フレームワークを紹介する。
$texttSAGE$は、カスタマイズされた動的害評価用に設計された自動モジュール化フレームワークである。
マルチターン会話評価実験により,会話の長さによって害が着実に増加することが判明した。
論文 参考訳(メタデータ) (2025-04-28T11:01:08Z) - Align in Depth: Defending Jailbreak Attacks via Progressive Answer Detoxification [17.500701903902094]
大規模言語モデル(LLM)は、有害な応答を誘発するクラフトプロンプトを使用するジェイルブレイク攻撃に対して脆弱である。
本稿では,LLMを微調整して生成したコンテンツを段階的に解毒する,堅牢な防衛フレームワークであるDEEPALIGNを提案する。
論文 参考訳(メタデータ) (2025-03-14T08:32:12Z) - Reasoning-to-Defend: Safety-Aware Reasoning Can Defend Large Language Models from Jailbreaking [26.812138599896997]
本稿では,LLM生成プロセスにクエリとレスポンスの安全反射を統合する新しいトレーニングパラダイムであるReasoning-to-Defend(R2D)を提案する。
R2Dは様々な攻撃を効果的に軽減し、全体的な安全性を改善し、LLMのジェイルブレイクに対する堅牢性を強化する上での安全性を意識した推論の可能性を強調している。
論文 参考訳(メタデータ) (2025-02-18T15:48:46Z) - Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。
有害なクエリを良心的な推論タスクに再構成する。
RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文 参考訳(メタデータ) (2025-02-16T09:27:44Z) - Almost Surely Safe Alignment of Large Language Models at Inference-Time [20.5164976103514]
高い能力を持つ大規模言語モデル(LLM)でさえ、バイアスや安全でない応答を発生させることができる。
本稿では,新しい推論時間アライメント手法を提案する。
我々は、マルコフ決定プロセスとして安全な推論時間応答をフレーミングすることでこれを達成している。
論文 参考訳(メタデータ) (2025-02-03T09:59:32Z) - Smoothed Embeddings for Robust Language Models [11.97873981355746]
大規模言語モデル(LLM)は、アライメントを抑え、有害な出力を誘導するジェイルブレイク攻撃に対して脆弱である。
本稿では,埋め込みベクトルにランダムノイズを付加し,各出力トークンの生成時にアグリゲーションを行うRESTAディフェンスを提案する。
本実験は,本手法がベースラインディフェンスと比較して,実用上のトレードオフよりも優れたロバスト性を実現することを示す。
論文 参考訳(メタデータ) (2025-01-27T20:57:26Z) - Optimizing Large Language Models for Dynamic Constraints through Human-in-the-Loop Discriminators [0.0]
大規模言語モデル(LLM)は、最近、様々な現実世界のアプリケーションにまたがる印象的な機能を実証した。
本稿では,LLMがシステムインターフェースと相互作用し,制約概念を要約し,性能指標を継続的に最適化するフレキシブルなフレームワークを提案する。
我々のフレームワークは、人間の識別器で7.78%のパスレート、LSMベースの識別器で6.11%のパスレートを達成した。
論文 参考訳(メタデータ) (2024-10-19T17:27:38Z) - Survival of the Safest: Towards Secure Prompt Optimization through Interleaved Multi-Objective Evolution [1.8814321586521556]
SoS(Survival of the Safest)は、革新的な多目的プロンプト最適化フレームワークである。
これは、大きな言語モデルにおけるパフォーマンスとセキュリティの両方を同時に強化する。
SoSは、複雑な高次元の離散探索空間における最適化を高速化するスケーラブルなソリューションを提供する。
論文 参考訳(メタデータ) (2024-10-12T21:16:29Z) - ETA: Evaluating Then Aligning Safety of Vision Language Models at Inference Time [12.160713548659457]
対向的な視覚入力は、容易にVLM防御機構をバイパスすることができる。
本稿では,入力された視覚的内容と出力応答を評価する2相推論時間アライメントフレームワークを提案する。
実験の結果, ETAは無害性, 有用性, 効率の点で, ベースライン法よりも優れていた。
論文 参考訳(メタデータ) (2024-10-09T07:21:43Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
本研究では,Large Language Models (LLMs) の安全性チューニングにおける重要なギャップについて考察する。
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を与える新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは、(1)安全応答の開始に有害な応答のセグメントを付加することにより、安全でないコンテンツを認識・回避するようモデルに訓練する、(1)有害応答前フィックスによる最大限の類似度推定、(2)有害応答の開始を通して潜在的害から安全拒絶へ継続的に移行する能力を持つ強化遷移最適化(RTO)という2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - One Token Can Help! Learning Scalable and Pluggable Virtual Tokens for Retrieval-Augmented Large Language Models [67.49462724595445]
Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)を改善するための有望な方法である。
本稿では,RAGのためのスケーラブルでプラガブルな仮想トークンを学習する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-30T03:44:54Z) - Developing Safe and Responsible Large Language Model : Can We Balance Bias Reduction and Language Understanding in Large Language Models? [2.089112028396727]
本研究では,大規模言語モデルが知識や理解を犠牲にすることなく,安全でバイアスのないアウトプットを生成できるかどうかを考察する。
セーフかつレスポンシブルな大規模言語モデル (textbfSR$_textLLM$) を導入する。
textbfSR$_textLLM$は知識の整合性を維持しながらバイアスを効果的に低減する。
論文 参考訳(メタデータ) (2024-04-01T18:10:05Z) - RigorLLM: Resilient Guardrails for Large Language Models against Undesired Content [62.685566387625975]
現在の緩和戦略は効果はあるものの、敵の攻撃下では弾力性がない。
本稿では,大規模言語モデルのための弾力性ガードレール(RigorLLM)について紹介する。
論文 参考訳(メタデータ) (2024-03-19T07:25:02Z) - SALAD-Bench: A Hierarchical and Comprehensive Safety Benchmark for Large Language Models [107.82336341926134]
SALAD-Benchは、大規模言語モデル(LLM)を評価するために特別に設計された安全ベンチマークである。
それは、その大規模な、豊富な多様性、三つのレベルにまたがる複雑な分類、多目的機能を通じて、従来のベンチマークを超越している。
論文 参考訳(メタデータ) (2024-02-07T17:33:54Z) - On Prompt-Driven Safeguarding for Large Language Models [172.13943777203377]
表現空間では、入力クエリは通常、安全プロンプトによって「より高い拒絶」方向に移動される。
これらの知見に触発されて,安全性向上,すなわちDROの最適化手法を提案する。
安全性プロンプトを継続的かつトレーニング可能な埋め込みとして扱うことで、DROは、その有害性に応じて、クエリの表現を拒否方向に沿ってあるいは反対に移動させることを学ぶ。
論文 参考訳(メタデータ) (2024-01-31T17:28:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。