論文の概要: DIESEL -- Dynamic Inference-Guidance via Evasion of Semantic Embeddings in LLMs
- arxiv url: http://arxiv.org/abs/2411.19038v1
- Date: Thu, 28 Nov 2024 10:33:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:22:19.118916
- Title: DIESEL -- Dynamic Inference-Guidance via Evasion of Semantic Embeddings in LLMs
- Title(参考訳): DIESEL -- LLMにおける意味的埋め込みの伝播による動的推論誘導
- Authors: Ben Ganon, Alon Zolfi, Omer Hofman, Inderjeet Singh, Hisashi Kojima, Yuval Elovici, Asaf Shabtai,
- Abstract要約: DIESELは軽量な推論技術であり、任意の自己回帰LDMにシームレスに統合することができる。
LLMの提案したトークンを、潜在空間における定義済みの負の概念と類似性に基づいて再分類することで、応答安全性を向上させる。
- 参考スコア(独自算出の注目度): 23.441711206966914
- License:
- Abstract: In recent years, conversational large language models (LLMs) have shown tremendous success in tasks such as casual conversation, question answering, and personalized dialogue, making significant advancements in domains like virtual assistance, social interaction, and online customer engagement. However, they often generate responses that are not aligned with human values (e.g., ethical standards, safety, or social norms), leading to potentially unsafe or inappropriate outputs. While several techniques have been proposed to address this problem, they come with a cost, requiring computationally expensive training or dramatically increasing the inference time. In this paper, we present DIESEL, a lightweight inference guidance technique that can be seamlessly integrated into any autoregressive LLM to semantically filter undesired concepts from the response. DIESEL can function either as a standalone safeguard or as an additional layer of defense, enhancing response safety by reranking the LLM's proposed tokens based on their similarity to predefined negative concepts in the latent space. This approach provides an efficient and effective solution for maintaining alignment with human values. Our evaluation demonstrates DIESEL's effectiveness on state-of-the-art conversational models (e.g., Llama 3), even in challenging jailbreaking scenarios that test the limits of response safety. We further show that DIESEL can be generalized to use cases other than safety, providing a versatile solution for general-purpose response filtering with minimal computational overhead.
- Abstract(参考訳): 近年、会話型大規模言語モデル(LLM)は、カジュアルな会話、質問応答、パーソナライズされた対話といったタスクで大きな成功を収めており、仮想アシスタント、ソーシャルインタラクション、オンライン顧客エンゲージメントといった領域で大きく進歩している。
しかし、人間の価値観(倫理的基準、安全、社会的規範など)と一致しない応答をしばしば生成し、潜在的に安全でない、あるいは不適切なアウトプットをもたらす。
この問題に対処するためにいくつかのテクニックが提案されているが、それらはコストが伴い、計算に高価なトレーニングを必要とするか、推論時間を劇的に増加させる。
本稿では,任意の自己回帰LDMにシームレスに統合して,望ましくない概念をセマンティックにフィルタリングする,軽量な推論誘導手法であるDIESELを提案する。
DIESELはスタンドアロンのセーフガードまたは追加の防御層として機能し、潜在空間における事前定義された負の概念との類似性に基づいてLSMの提案したトークンを再配置することで応答安全性を高めることができる。
このアプローチは、人間の価値との整合性を維持するための効率的で効果的なソリューションを提供する。
本評価は,DIESELの最先端の会話モデル(例えばLlama 3)における有効性を示すものである。
さらに、DIESELは安全性以外のユースケースに一般化可能であることを示し、計算オーバーヘッドを最小限に抑えた汎用応答フィルタリングのための汎用的なソリューションを提供する。
関連論文リスト
- Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。
人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:49:25Z) - Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。
有害なクエリを良心的な推論タスクに再構成する。
RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文 参考訳(メタデータ) (2025-02-16T09:27:44Z) - Almost Surely Safe Alignment of Large Language Models at Inference-Time [20.5164976103514]
高い能力を持つ大規模言語モデル(LLM)でさえ、バイアスや安全でない応答を発生させることができる。
本稿では,新しい推論時間アライメント手法を提案する。
我々は、マルコフ決定プロセスとして安全な推論時間応答をフレーミングすることでこれを達成している。
論文 参考訳(メタデータ) (2025-02-03T09:59:32Z) - Semantic Loss Guided Data Efficient Supervised Fine Tuning for Safe Responses in LLMs [18.044879441434432]
有害なプロンプトに対する安全でない応答を生成する大規模言語モデル(LLM)は、彼らのアプリケーションにおいて重要な問題である。
本稿では,この問題を克服し,高品質な人的データを必要とする限界を克服することを目的とする。
負のEarth Mover Distance(EMD)損失と組み合わせたセマンティックコストを用いることで、LLMが安全でない応答を発生させないよう誘導する。
論文 参考訳(メタデータ) (2024-12-07T16:35:14Z) - Optimizing Large Language Models for Dynamic Constraints through Human-in-the-Loop Discriminators [0.0]
大規模言語モデル(LLM)は、最近、様々な現実世界のアプリケーションにまたがる印象的な機能を実証した。
本稿では,LLMがシステムインターフェースと相互作用し,制約概念を要約し,性能指標を継続的に最適化するフレキシブルなフレームワークを提案する。
我々のフレームワークは、人間の識別器で7.78%のパスレート、LSMベースの識別器で6.11%のパスレートを達成した。
論文 参考訳(メタデータ) (2024-10-19T17:27:38Z) - Survival of the Safest: Towards Secure Prompt Optimization through Interleaved Multi-Objective Evolution [1.8814321586521556]
SoS(Survival of the Safest)は、革新的な多目的プロンプト最適化フレームワークである。
これは、大きな言語モデルにおけるパフォーマンスとセキュリティの両方を同時に強化する。
SoSは、複雑な高次元の離散探索空間における最適化を高速化するスケーラブルなソリューションを提供する。
論文 参考訳(メタデータ) (2024-10-12T21:16:29Z) - ETA: Evaluating Then Aligning Safety of Vision Language Models at Inference Time [12.160713548659457]
対向的な視覚入力は、容易にVLM防御機構をバイパスすることができる。
本稿では,入力された視覚的内容と出力応答を評価する2相推論時間アライメントフレームワークを提案する。
実験の結果, ETAは無害性, 有用性, 効率の点で, ベースライン法よりも優れていた。
論文 参考訳(メタデータ) (2024-10-09T07:21:43Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
本研究では,Large Language Models (LLMs) の安全性チューニングにおける重要なギャップについて考察する。
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を与える新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは、(1)安全応答の開始に有害な応答のセグメントを付加することにより、安全でないコンテンツを認識・回避するようモデルに訓練する、(1)有害応答前フィックスによる最大限の類似度推定、(2)有害応答の開始を通して潜在的害から安全拒絶へ継続的に移行する能力を持つ強化遷移最適化(RTO)という2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - RigorLLM: Resilient Guardrails for Large Language Models against Undesired Content [62.685566387625975]
現在の緩和戦略は効果はあるものの、敵の攻撃下では弾力性がない。
本稿では,大規模言語モデルのための弾力性ガードレール(RigorLLM)について紹介する。
論文 参考訳(メタデータ) (2024-03-19T07:25:02Z) - SALAD-Bench: A Hierarchical and Comprehensive Safety Benchmark for Large Language Models [107.82336341926134]
SALAD-Benchは、大規模言語モデル(LLM)を評価するために特別に設計された安全ベンチマークである。
それは、その大規模な、豊富な多様性、三つのレベルにまたがる複雑な分類、多目的機能を通じて、従来のベンチマークを超越している。
論文 参考訳(メタデータ) (2024-02-07T17:33:54Z) - On Prompt-Driven Safeguarding for Large Language Models [172.13943777203377]
表現空間では、入力クエリは通常、安全プロンプトによって「より高い拒絶」方向に移動される。
これらの知見に触発されて,安全性向上,すなわちDROの最適化手法を提案する。
安全性プロンプトを継続的かつトレーニング可能な埋め込みとして扱うことで、DROは、その有害性に応じて、クエリの表現を拒否方向に沿ってあるいは反対に移動させることを学ぶ。
論文 参考訳(メタデータ) (2024-01-31T17:28:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。