論文の概要: Improving LLM Outputs Against Jailbreak Attacks with Expert Model Integration
- arxiv url: http://arxiv.org/abs/2505.17066v2
- Date: Fri, 27 Jun 2025 10:04:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-30 15:06:58.64727
- Title: Improving LLM Outputs Against Jailbreak Attacks with Expert Model Integration
- Title(参考訳): エキスパートモデル統合によるJailbreak攻撃に対するLLM出力の改善
- Authors: Tatia Tsmindashvili, Ana Kolkhidashvili, Dachi Kurtskhalia, Nino Maghlakelidze, Elene Mekvabishvili, Guram Dentoshvili, Orkhan Shamilov, Zaal Gachechiladze, Steven Saporta, David Dachi Choladze,
- Abstract要約: Archiasはドメイン内通信とドメイン外通信を区別できるエキスパートモデルである。
Archiasは、ユーザからの問い合わせを、ドメイン内(特に自動車業界)、悪意のある質問、価格注入、インジェクションのプロンプト、ドメイン外の例に分類する。
アーチは調整され、微調整され、小型のため様々な目的に使用される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Using LLMs in a production environment presents security challenges that include vulnerabilities to jailbreaks and prompt injections, which can result in harmful outputs for humans or the enterprise. The challenge is amplified when working within a specific domain, as topics generally accepted for LLMs to address may be irrelevant to that field. These problems can be mitigated, for example, by fine-tuning large language models with domain-specific and security-focused data. However, these alone are insufficient, as jailbreak techniques evolve. Additionally, API-accessed models do not offer the flexibility needed to tailor behavior to industry-specific objectives, and in-context learning is not always sufficient or reliable. In response to these challenges, we introduce Archias, an expert model adept at distinguishing between in-domain and out-of-domain communications. Archias classifies user inquiries into several categories: in-domain (specifically for the automotive industry), malicious questions, price injections, prompt injections, and out-of-domain examples. Our methodology integrates outputs from the expert model (Archias) into prompts, which are then processed by the LLM to generate responses. This method increases the model's ability to understand the user's intention and give appropriate answers. Archias can be adjusted, fine-tuned, and used for many different purposes due to its small size. Therefore, it can be easily customized to the needs of any industry. To validate our approach, we created a benchmark dataset for the automotive industry. Furthermore, in the interest of advancing research and development, we release our benchmark dataset to the community.
- Abstract(参考訳): LLMを本番環境で使用すると、Jailbreakの脆弱性やインジェクションのプロンプトといったセキュリティ上の問題が発生し、それによって人間や企業にとって有害なアウトプットが発生する可能性がある。
LLMが扱うトピックは、その分野とは無関係である可能性があるため、特定のドメイン内で作業する場合、この課題は増幅される。
これらの問題は、例えば、ドメイン固有でセキュリティに重点を置くデータで大きな言語モデルを微調整することで緩和することができる。
しかし、これらだけでは、脱獄技術が進化するにつれて不十分である。
さらに、APIアクセスモデルでは、業界固有の目的に合わせて振る舞いを調整するために必要な柔軟性を提供していません。
これらの課題に対応するために、ドメイン内通信とドメイン外通信を区別できるエキスパートモデルArchiasを紹介する。
Archiasは、ユーザからの問い合わせを、ドメイン内(特に自動車業界)、悪意のある質問、価格注入、インジェクションのプロンプト、ドメイン外の例に分類する。
提案手法はエキスパートモデル(Archias)からの出力をプロンプトに統合し,LSMが処理して応答を生成する。
この方法は、ユーザの意図を理解し、適切な回答を与えるモデルの能力を高める。
アーチは調整され、微調整され、小型のため様々な目的に使用される。
したがって、どの産業のニーズにも容易にカスタマイズできる。
このアプローチを検証するために、自動車産業のためのベンチマークデータセットを作成しました。
さらに,研究と開発を進展させる目的で,我々のベンチマークデータセットをコミュニティにリリースする。
関連論文リスト
- A Flexible Large Language Models Guardrail Development Methodology Applied to Off-Topic Prompt Detection [0.0]
大規模言語モデル(LLM)は、ユーザがこれらのモデルに対して、意図した範囲を超えてタスクを実行するように促すという、オフトピー的な誤用を招きやすい。
現行のガードレールは、高い偽陽性率、限られた適応性、およびプレプロダクションでは利用できない実世界のデータを必要とする非現実性に悩まされている。
これらの課題に対処するフレキシブルでデータフリーなガードレール開発手法を導入します。
論文 参考訳(メタデータ) (2024-11-20T00:31:23Z) - Combining Domain and Alignment Vectors to Achieve Better Knowledge-Safety Trade-offs in LLMs [64.83462841029089]
我々は、ドメインとアライメントベクトルを補間し、より安全なドメイン固有モデルを作成する、textscMergeAlignと呼ばれる効率的なマージベースのアライメント手法を導入する。
医学やファイナンスの専門家であるLlama3の変種にtextscMergeAlignを適用することで、ドメイン固有のベンチマークを最小限または全く劣化させることなく、大幅なアライメントの改善が得られる。
論文 参考訳(メタデータ) (2024-11-11T09:32:20Z) - Exploring Language Model Generalization in Low-Resource Extractive QA [57.14068405860034]
ドメインドリフト下でのLarge Language Models (LLM) を用いた抽出質問応答(EQA)について検討する。
性能ギャップを実証的に説明するための一連の実験を考案する。
論文 参考訳(メタデータ) (2024-09-27T05:06:43Z) - A New Pipeline For Generating Instruction Dataset via RAG and Self Fine-Tuning [0.0]
本研究では,特定のドメインを微調整するための高品質な命令データセットを構築するパイプラインを提案する。
ドメイン固有の文書を取り込み、パイプラインは関連性のある適切な命令を生成する。
ケーススタディでは、専門知識と患者情報の繊細な取り扱いを必要とする領域である精神医学の領域にこのアプローチを適用した。
論文 参考訳(メタデータ) (2024-08-12T03:52:11Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - Adapting Large Language Models for Content Moderation: Pitfalls in Data
Engineering and Supervised Fine-tuning [79.53130089003986]
大規模言語モデル(LLM)は、様々なドメインでタスクを処理するための実現可能なソリューションとなっている。
本稿では、コンテンツモデレーションのためにプライベートにデプロイ可能なLLMモデルを微調整する方法を紹介する。
論文 参考訳(メタデータ) (2023-10-05T09:09:44Z) - Open Sesame! Universal Black Box Jailbreaking of Large Language Models [0.0]
大規模言語モデル(LLM)は、有用で安全な応答を提供するように設計されている。
LLMは、しばしばユーザーの意図や社会的ガイドラインに合わせるためにアライメント技術に頼っている。
モデルアーキテクチャやパラメータがアクセスできない場合に,遺伝的アルゴリズム(GA)を用いてLLMを操作する手法を提案する。
論文 参考訳(メタデータ) (2023-09-04T08:54:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。