Fugu-MT 論文翻訳(概要): FLAME: Flexible LLM-Assisted Moderation Engine

論文の概要: FLAME: Flexible LLM-Assisted Moderation Engine

arxiv url: http://arxiv.org/abs/2502.09175v1
Date: Thu, 13 Feb 2025 11:05:55 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-14 20:05:35.212662
Title: FLAME: Flexible LLM-Assisted Moderation Engine
Title（参考訳）: FLAME:フレキシブルLLMアシストモデレーションエンジン
Authors: Ivan Bakulin, Ilia Kopanichuk, Iaroslav Bespalov, Nikita Radchenko, Vladimir Shaposhnikov, Dmitry Dylov, Ivan Oseledets,
Abstract要約: フレキシブル LLM-Assisted Moderation Engine (FLAME) について紹介する。ユーザクエリを分析する従来のサーキットブレーキング方法とは異なり、FLAMEはモデル応答を評価する。実験の結果,FLAMEは現在のモデレーションシステムよりも大幅に優れていた。
参考スコア（独自算出の注目度）: 2.966082563853265
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The rapid advancement of Large Language Models (LLMs) has introduced significant challenges in moderating user-model interactions. While LLMs demonstrate remarkable capabilities, they remain vulnerable to adversarial attacks, particularly ``jailbreaking'' techniques that bypass content safety measures. Current content moderation systems, which primarily rely on input prompt filtering, have proven insufficient, with techniques like Best-of-N (BoN) jailbreaking achieving success rates of 80% or more against popular LLMs. In this paper, we introduce Flexible LLM-Assisted Moderation Engine (FLAME): a new approach that shifts the focus from input filtering to output moderation. Unlike traditional circuit-breaking methods that analyze user queries, FLAME evaluates model responses, offering several key advantages: (1) computational efficiency in both training and inference, (2) enhanced resistance to BoN jailbreaking attacks, and (3) flexibility in defining and updating safety criteria through customizable topic filtering. Our experiments demonstrate that FLAME significantly outperforms current moderation systems. For example, FLAME reduces attack success rate in GPT-4o-mini and DeepSeek-v3 by a factor of ~9, while maintaining low computational overhead. We provide comprehensive evaluation on various LLMs and analyze the engine's efficiency against the state-of-the-art jailbreaking. This work contributes to the development of more robust and adaptable content moderation systems for LLMs.
Abstract（参考訳）: LLM(Large Language Models)の急速な進歩は、ユーザとモデルの相互作用をモデレートする上で大きな課題をもたらしている。 LLMは目覚ましい能力を示すが、敵対的攻撃、特にコンテンツ安全性対策をバイパスする 'jailbreaking' テクニックに弱いままである。現在のコンテンツモデレーションシステムは、主にインプットプロンプトフィルタリングに依存しているが、Best-of-N (BoN)jailbreakingのような手法が一般的なLLMに対して80%以上の成功率を達成するなど、不十分であることが証明されている。本稿では,フレキシブル LLM-Assisted Moderation Engine (FLAME: Flexible LLM-Assisted Moderation Engine) を紹介する。ユーザクエリを解析する従来のサーキットブレーキング手法とは異なり、FLAMEはモデル応答を評価し、(1)トレーニングと推論の両方における計算効率、(2)BoNジェイルブレーキング攻撃に対する耐性の強化、(3)カスタマイズ可能なトピックフィルタリングによる安全性基準の定義と更新の柔軟性を提供する。実験の結果,FLAMEは現在のモデレーションシステムよりも大幅に優れていた。例えば、FLAMEはGPT-4o-miniとDeepSeek-v3の攻撃成功率を9倍に削減し、計算オーバーヘッドを低く抑える。各種LLMの総合評価を行い、最先端のジェイルブレイクに対するエンジンの効率を解析する。この研究は、LLMのためのより堅牢で適応可能なコンテンツモデレーションシステムの開発に寄与する。

関連論文リスト

Odysseus: Jailbreaking Commercial Multimodal LLM-integrated Systems via Dual Steganography [77.44136793431893]
本稿では,悪質なクエリを隠蔽して良質な画像に埋め込むために,二重ステガノグラフィーを導入した新しいjailbreakパラダイムを提案する。我々のOdysseusはいくつかの先駆的で現実的なMLLM統合システムを脱獄し、最大99%の攻撃成功率を達成した。
論文参考訳（メタデータ） (2025-12-23T08:53:36Z)
Energy-Driven Steering: Reducing False Refusals in Large Language Models [80.09252175869858]
エネルギー駆動ステアリング(EDS、Energy-Driven Steering)は、動的で推論時間の介入によってこの問題を解決するために設計された、新しい、微調整自由なフレームワークである。我々は、望ましくない(偽の拒絶または脱獄)状態に高エネルギーを割り当て、望ましい(好ましくない反応または安全な拒絶)状態に低エネルギーを割り当てるために、軽量な外部エネルギーベースモデル(EBM)を訓練した。エネルギー関数の勾配を利用してLLMの隠れた状態を低エネルギー領域に動的に操る。
論文参考訳（メタデータ） (2025-10-09T06:01:41Z)
Context Misleads LLMs: The Role of Context Filtering in Maintaining Safe Alignment of LLMs [7.183743839410718]
悪意のあるユーザは、しばしば敵の文脈を利用して、大規模言語モデル(LLM)を欺く。本研究では,コンテキストフィルタリングモデルと呼ばれる新しい防御機構を提案する。我々のモデルは、ジェイルブレイク攻撃の攻撃成功率を最大88%下げる能力を示している。
論文参考訳（メタデータ） (2025-08-09T02:37:59Z)
ICLShield: Exploring and Mitigating In-Context Learning Backdoor Attacks [61.06621533874629]
In-context Learning (ICL)は、大規模言語モデル(LLM)において顕著な成功を収めた。本稿では,LLMがタスク関連潜伏概念とバックドア関連潜伏概念の両方を同時に学習する,という二重学習仮説を初めて提案する。そこで本研究では,概念選好比を動的に調整する防衛機構であるICLShieldを提案する。
論文参考訳（メタデータ） (2025-07-02T03:09:20Z)
Efficient and Stealthy Jailbreak Attacks via Adversarial Prompt Distillation from LLMs to SLMs [15.640342726041732]
ジェイルブレイクシナリオにおける大規模言語モデル(LLM)に対する攻撃は多くのセキュリティと倫理上の問題を引き起こす。現在のジェイルブレイク攻撃法は、低効率、高い計算コスト、低いクロスモデル適応性といった問題に直面している。本研究は, マスク付き言語モデリング, 強化学習, 動的温度制御を組み合わせた適応型プロンプト蒸留法を提案する。
論文参考訳（メタデータ） (2025-05-26T08:27:51Z)
Helping Large Language Models Protect Themselves: An Enhanced Filtering and Summarization System [2.0257616108612373]
大規模言語モデルは、敵の攻撃、操作プロンプト、悪意のある入力のエンコードに弱い。本研究は,LSMが敵対的あるいは悪意的な入力を自力で認識し,フィルタリングし,防御することのできる,ユニークな防御パラダイムを提案する。
論文参考訳（メタデータ） (2025-05-02T14:42:26Z)
Prefill-Based Jailbreak: A Novel Approach of Bypassing LLM Safety Boundary [2.4329261266984346]
LLM(Large Language Models)は、有用で安全なコンテンツを生成するように設計されている。一般的にジェイルブレイクと呼ばれる敵の攻撃は安全プロトコルをバイパスできる LLMのプリフィル機能を利用した新しいジェイルブレイク攻撃手法を提案する。
論文参考訳（メタデータ） (2025-04-28T07:38:43Z)
Adversarial Reasoning at Jailbreaking Time [49.70772424278124]
テスト時間計算による自動ジェイルブレイクに対する逆推論手法を開発した。我々のアプローチは、LSMの脆弱性を理解するための新しいパラダイムを導入し、より堅牢で信頼性の高いAIシステムの開発の基礎を築いた。
論文参考訳（メタデータ） (2025-02-03T18:59:01Z)
You Can't Eat Your Cake and Have It Too: The Performance Degradation of LLMs with Jailbreak Defense [34.023473699165315]
脱獄防御戦略によるLCMの実用性低下, 安全性向上, 過大に安全なエスカレーションについて検討した。主流のジェイルブレイク防御は、安全性とパフォーマンスの両方を同時に確保できないことに気付きました。
論文参考訳（メタデータ） (2025-01-21T15:24:29Z)
LLM-Virus: Evolutionary Jailbreak Attack on Large Language Models [59.29840790102413]
既存のジェイルブレイク攻撃は主に不透明な最適化手法と勾配探索法に基づいている。進化的ジェイルブレイクと呼ばれる進化的アルゴリズムに基づくジェイルブレイク攻撃手法であるLSM-Virusを提案する。この結果から, LLM-Virus は既存の攻撃手法と比較して, 競争力や性能に優れていたことが示唆された。
論文参考訳（メタデータ） (2024-12-28T07:48:57Z)
Root Defence Strategies: Ensuring Safety of LLM at the Decoding Level [10.476222570886483]
大規模言語モデル (LLM) は様々な産業で大きな有用性を示している。 LLMが進むにつれて、不正または悪意のある命令プロンプトによって有害な出力のリスクが増大する。本稿では, LLMが有害な出力を認識する能力について検討し, 従来のトークンの危険性を評価する能力を明らかにし, 定量化する。
論文参考訳（メタデータ） (2024-10-09T12:09:30Z)
Jailbreak Antidote: Runtime Safety-Utility Balance via Sparse Representation Adjustment in Large Language Models [8.024771725860127]
ジェイルブレイク攻撃は、大きな言語モデルを操作して有害なコンテンツを生成する。 Jailbreak Antidoteは、モデルの内部状態のスパースサブセットを操作することで、安全優先のリアルタイム調整を可能にする。解析の結果,LLMの安全性関連情報はわずかに分散していることがわかった。
論文参考訳（メタデータ） (2024-10-03T08:34:17Z)
Model Surgery: Modulating LLM's Behavior Via Simple Parameter Editing [63.20133320524577]
パラメータの小さなサブセットを編集することで、大きな言語モデル(LLM)の特定の振る舞いを効果的に調節できることを示す。我々の手法は、RealToxicityPromptsデータセットで最大90.0%の毒性を減少させ、ToxiGenで49.2%を達成する。
論文参考訳（メタデータ） (2024-07-11T17:52:03Z)
Lockpicking LLMs: A Logit-Based Jailbreak Using Token-level Manipulation [15.928341917085467]
JailMineは、大規模な言語モデルから悪意ある応答を引き出すために、自動化された"マイニング"プロセスを採用している。 JailMineの有効性と効率を実証し、使用時間の86%の大幅な削減を実現した。
論文参考訳（メタデータ） (2024-05-20T17:17:55Z)
Advancing the Robustness of Large Language Models through Self-Denoised Smoothing [50.54276872204319]
大規模言語モデル(LLM)は大きな成功を収めたが、敵の摂動に対する脆弱性は大きな懸念を引き起こしている。本稿では,LLMのマルチタスク特性を活用して,まずノイズの入力を識別し,次にこれらの復号化バージョンに基づいて予測を行う。 LLMのロバスト性を高めるために個別のモデルを訓練する必要がある従来のコンピュータビジョンのスムース化技術とは異なり、本手法は効率と柔軟性を著しく向上させる。
論文参考訳（メタデータ） (2024-04-18T15:47:00Z)
FFN-SkipLLM: A Hidden Gem for Autoregressive Decoding with Adaptive Feed Forward Skipping [49.66872823080736]
自己回帰型大規模言語モデル(LLaMa, GPT)は、言語理解と生成において顕著な成功を収めている。発生時に発生する過負荷を軽減するため、いくつかの早期退避および層下降戦略が提案されている。本稿では,入力適応型フィードフォワードスキップ戦略であるFFN-SkipLLMを提案する。
論文参考訳（メタデータ） (2024-04-05T02:35:43Z)
RigorLLM: Resilient Guardrails for Large Language Models against Undesired Content [62.685566387625975]
現在の緩和戦略は効果はあるものの、敵の攻撃下では弾力性がない。本稿では,大規模言語モデルのための弾力性ガードレール(RigorLLM)について紹介する。
論文参考訳（メタデータ） (2024-03-19T07:25:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。