論文の概要: OMNIGUARD: An Efficient Approach for AI Safety Moderation Across Modalities
- arxiv url: http://arxiv.org/abs/2505.23856v1
- Date: Thu, 29 May 2025 05:25:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.573591
- Title: OMNIGUARD: An Efficient Approach for AI Safety Moderation Across Modalities
- Title(参考訳): OMNIGUARD: モダリティ全体にわたるAI安全モダレーションの効率的なアプローチ
- Authors: Sahil Verma, Keegan Hines, Jeff Bilmes, Charlotte Siska, Luke Zettlemoyer, Hila Gonen, Chandan Singh,
- Abstract要約: 現在の検出アプローチは誤りがあり、特にモデル機能のミスマッチした一般化を利用する攻撃の影響を受けやすい。
OMNIGUARDは,言語やモダリティにまたがる有害なプロンプトを検出する手法である。
提案手法は,多言語環境において最強のベースラインよりも11.57%,有害なプロンプト分類精度を向上する。
- 参考スコア(独自算出の注目度): 54.152681077418805
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The emerging capabilities of large language models (LLMs) have sparked concerns about their immediate potential for harmful misuse. The core approach to mitigate these concerns is the detection of harmful queries to the model. Current detection approaches are fallible, and are particularly susceptible to attacks that exploit mismatched generalization of model capabilities (e.g., prompts in low-resource languages or prompts provided in non-text modalities such as image and audio). To tackle this challenge, we propose OMNIGUARD, an approach for detecting harmful prompts across languages and modalities. Our approach (i) identifies internal representations of an LLM/MLLM that are aligned across languages or modalities and then (ii) uses them to build a language-agnostic or modality-agnostic classifier for detecting harmful prompts. OMNIGUARD improves harmful prompt classification accuracy by 11.57\% over the strongest baseline in a multilingual setting, by 20.44\% for image-based prompts, and sets a new SOTA for audio-based prompts. By repurposing embeddings computed during generation, OMNIGUARD is also very efficient ($\approx 120 \times$ faster than the next fastest baseline). Code and data are available at: https://github.com/vsahil/OmniGuard.
- Abstract(参考訳): 大きな言語モデル(LLM)の出現する能力は、有害な誤用の可能性への懸念を引き起こしている。
これらの懸念を軽減するための中核的なアプローチは、モデルに対する有害なクエリの検出である。
現在の検出アプローチは誤りがあり、特にモデル機能のミスマッチした一般化を利用する攻撃(例えば、低リソース言語でのプロンプトや、画像やオーディオのような非テキストモダリティで提供されるプロンプト)の影響を受けやすい。
この課題に対処するために,言語やモダリティにまたがる有害なプロンプトを検出する手法であるOMNIGUARDを提案する。
私たちのアプローチ
i)言語やモダリティにまたがるLLM/MLLMの内部表現を特定し、
(ii) 有害なプロンプトを検出するための言語非依存またはモダリティ非依存の分類器を構築するためにそれらを使用する。
OMNIGUARDは、多言語環境で最強のベースラインに対して11.57\%、画像ベースのプロンプトに対して20.44\%の有害なプロンプト分類精度を改善し、音声ベースのプロンプトに対して新しいSOTAを設定する。
OMNIGUARDは、世代毎に計算された埋め込みを再利用することによって、非常に効率的な(次の最速ベースラインよりも120 \times$)。
コードとデータは、https://github.com/vsahil/OmniGuard.comで入手できる。
関連論文リスト
- A Preliminary Study of Large Language Models for Multilingual Vulnerability Detection [13.269680075539135]
言語モデル(LLM)は言語に依存しない機能と意味理解の強化を提供する。
大規模言語モデル(LLM)の最近の進歩は、言語に依存しない機能と意味理解の強化を提供する。
以上の結果から, PLM CodeT5Pは多言語脆弱性検出において最高の性能を発揮することが明らかとなった。
論文 参考訳(メタデータ) (2025-05-12T09:19:31Z) - Can Prompting LLMs Unlock Hate Speech Detection across Languages? A Zero-shot and Few-shot Study [59.30098850050971]
この研究は、8つの非英語言語にわたるLLMのプロンプトに基づく検出を評価する。
実世界の評価セットのほとんどにおいて、ゼロショットと少数ショットが微調整エンコーダモデルに遅れを生じさせる一方で、ヘイトスピーチ検出のための関数的テストのより優れた一般化を実現していることを示す。
論文 参考訳(メタデータ) (2025-05-09T16:00:01Z) - MrGuard: A Multilingual Reasoning Guardrail for Universal LLM Safety [56.79292318645454]
大規模言語モデル(LLM)は、ジェイルブレイクのような敵の攻撃を受けやすい。
この脆弱性は、多言語セーフティアライメントされたデータが制限される多言語設定で悪化する。
素早い分類のための多言語ガードレールを提案する。
論文 参考訳(メタデータ) (2025-04-21T17:15:06Z) - Towards Cross-Lingual Audio Abuse Detection in Low-Resource Settings with Few-Shot Learning [1.532756501930393]
低リソース言語における乱用言語検出のための事前学習音声表現の可能性について検討する。
提案手法は,モデルに依存しないメタラーニングフレームワークに表現を統合し,乱用言語を10言語に分類する。
論文 参考訳(メタデータ) (2024-12-02T11:51:19Z) - Applying Pre-trained Multilingual BERT in Embeddings for Improved Malicious Prompt Injection Attacks Detection [5.78117257526028]
大きな言語モデル(LLM)は、その優れた能力と広範囲のアプリケーションに適用できることで有名である。
この研究は、実際のLLMアプリケーションに最も危険な脆弱性の1つである悪意のあるプロンプトインジェクション攻撃の影響に焦点を当てている。
正規のプロンプトから悪意のあるプロンプトを分類するために、多言語BERTやDistilBertのような様々なBERT(Bidirectional Representations from Transformers)を適用する。
論文 参考訳(メタデータ) (2024-09-20T08:48:51Z) - DLAP: A Deep Learning Augmented Large Language Model Prompting Framework for Software Vulnerability Detection [12.686480870065827]
本稿では,ディープラーニング(DL)モデルとLLM(Large Language Models)モデルの両方を最大限に組み合わせて,例外的な脆弱性検出性能を実現するフレームワークである textbfDLAP について述べる。
実験の結果、DLAPは、ロールベースのプロンプト、補助情報プロンプト、チェーン・オブ・シントプロンプト、コンテキスト内学習プロンプトなど、最先端のプロンプトフレームワークより優れていることが確認された。
論文 参考訳(メタデータ) (2024-05-02T11:44:52Z) - Token-Level Adversarial Prompt Detection Based on Perplexity Measures
and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。
この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。
トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T03:17:21Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。