論文の概要: Multi-lingual Multi-turn Automated Red Teaming for LLMs
- arxiv url: http://arxiv.org/abs/2504.03174v1
- Date: Fri, 04 Apr 2025 05:06:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-07 14:48:34.716865
- Title: Multi-lingual Multi-turn Automated Red Teaming for LLMs
- Title(参考訳): LLMのための多言語多ターン自動レッドチーム
- Authors: Abhishek Singhania, Christophe Dupuy, Shivam Mangale, Amani Namboori,
- Abstract要約: マルチリンガル・マルチターン・オートマチック・レッドチーム(textbfMM-ART)は、対話型・マルチリンガル・レッドチーム操作を完全に自動化する手法である。
本研究は,英語の5ターン会話において,初回会話よりも平均71%脆弱であることを示す。
英語以外の言語での会話では、標準のシングルターン英語アプローチよりも195%の安全性上の脆弱性がある。
- 参考スコア(独自算出の注目度): 4.707861373629172
- License:
- Abstract: Language Model Models (LLMs) have improved dramatically in the past few years, increasing their adoption and the scope of their capabilities over time. A significant amount of work is dedicated to ``model alignment'', i.e., preventing LLMs to generate unsafe responses when deployed into customer-facing applications. One popular method to evaluate safety risks is \textit{red-teaming}, where agents attempt to bypass alignment by crafting elaborate prompts that trigger unsafe responses from a model. Standard human-driven red-teaming is costly, time-consuming and rarely covers all the recent features (e.g., multi-lingual, multi-modal aspects), while proposed automation methods only cover a small subset of LLMs capabilities (i.e., English or single-turn). We present Multi-lingual Multi-turn Automated Red Teaming (\textbf{MM-ART}), a method to fully automate conversational, multi-lingual red-teaming operations and quickly identify prompts leading to unsafe responses. Through extensive experiments on different languages, we show the studied LLMs are on average 71\% more vulnerable after a 5-turn conversation in English than after the initial turn. For conversations in non-English languages, models display up to 195\% more safety vulnerabilities than the standard single-turn English approach, confirming the need for automated red-teaming methods matching LLMs capabilities.
- Abstract(参考訳): 言語モデルモデル(LLM)はここ数年で劇的に改善され、採用率と時間とともにその機能の範囲が拡大した。
かなりの量の作業は‘モデルアライメント’、すなわちLLMが顧客向けアプリケーションにデプロイされた時に安全でない応答を生成するのを防ぐことに費やされている。
安全リスクを評価する1つの一般的な方法は、モデルから安全でない応答をトリガーする精巧なプロンプトを作成することで、エージェントがアライメントをバイパスしようとする、‘textit{red-teaming’である。
標準的なヒューマン駆動のレッドチーム化はコストがかかり、時間もかかり、最近の機能(例えば、多言語、マルチモーダルの側面)をすべてカバーすることは滅多にない。
本稿では,多言語多言語多言語自動レッドチーム(\textbf{MM-ART})について述べる。
異なる言語に関する広範な実験を通して、研究対象のLLMは、英語で5ターン会話した後、最初のターン以降よりも平均71倍脆弱であることが示されている。
英語以外の言語での会話では、標準のシングルターン・イングリッシュアプローチよりも195\%の安全性上の脆弱性が表示され、LLMの機能にマッチする自動再チームの方法の必要性が確認されている。
関連論文リスト
- Think Carefully and Check Again! Meta-Generation Unlocking LLMs for Low-Resource Cross-Lingual Summarization [108.6908427615402]
CLS(Cross-lingual summarization)は、異なるターゲット言語でソーステキストの要約を生成することを目的としている。
現在、インストラクションチューニング付き大規模言語モデル (LLM) は様々な英語タスクで優れている。
近年の研究では、LCSタスクにおけるLCMの性能は、わずかな設定でも満足できないことが示されている。
論文 参考訳(メタデータ) (2024-10-26T00:39:44Z) - Arondight: Red Teaming Large Vision Language Models with Auto-generated Multi-modal Jailbreak Prompts [25.661444231400772]
大規模視覚言語モデル(VLM)は、大規模言語モデル(LLM)の知覚能力を拡張し、拡張する
これらの進歩は、特に有害なコンテンツの生成に関して、重要なセキュリティと倫理上の懸念を引き起こす。
VLMに特化した標準化されたレッドチームフレームワークであるArondightを紹介します。
論文 参考訳(メタデータ) (2024-07-21T04:37:11Z) - Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。
Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。
言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文 参考訳(メタデータ) (2024-06-28T17:03:51Z) - Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間の対応する概念、すなわち言語を横断的に関連付けることができるだろうか?
本研究は,言語横断的タスクにおける最先端LLMの評価である。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - Code-Switching Red-Teaming: LLM Evaluation for Safety and Multilingual Understanding [10.154013836043816]
赤チームクエリのコードスイッチングは、大規模言語モデル(LLM)の望ましくない振る舞いを効果的に引き出すことができる
コードスイッチング型リピートクエリを合成するための,シンプルで効果的なフレームワークCSRTを導入する。
CSRTは,既存の多言語リピート技術よりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2024-06-17T06:08:18Z) - Curiosity-driven Red-teaming for Large Language Models [43.448044721642916]
大規模言語モデル(LLM)は、多くの自然言語アプリケーションにとって大きな可能性を秘めているが、誤ったまたは有害なコンテンツを生成するリスクがある。
ヒューマンテスタにのみ依存することは、高価で時間を要する。
好奇心駆動型レッド・チームリング (CRT) の手法は, 既存の方法と比較して, 有効性を維持したり, 向上させたりしながら, テストケースのカバレッジを向上する。
論文 参考訳(メタデータ) (2024-02-29T18:55:03Z) - Gradient-Based Language Model Red Teaming [9.972783485792885]
Red Teamingは、ジェネレーティブ言語モデル(LM)の弱点を特定するための戦略である
レッド・チームリングは、モデルアライメントと評価の両方に役立ちますが、人間によって行われると、労働集約的でスケールが難しいです。
我々は、LMが安全でない応答を出力する可能性のある多様なプロンプトを自動生成する、GBRT(Gradient-Based Red Teaming)を提案する。
論文 参考訳(メタデータ) (2024-01-30T01:19:25Z) - The Language Barrier: Dissecting Safety Challenges of LLMs in
Multilingual Contexts [46.089025223336854]
本稿では,多言語にわたる大規模言語モデルが直面する安全上の課題の多様性について検討する。
我々は、最先端のLLMが高レベルの言語と低レベルの言語で書かれた同じ悪意のあるプロンプトにどのように反応するかを比較する。
論文 参考訳(メタデータ) (2024-01-23T23:12:09Z) - LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language
Models [56.25156596019168]
本稿では,LMRL-Gymベンチマークを用いて,大規模言語モデル(LLM)のマルチターンRLの評価を行う。
我々のベンチマークは8つの異なる言語タスクで構成されており、複数ラウンドの言語相互作用が必要であり、オープンエンド対話やテキストゲームにおける様々なタスクをカバーする。
論文 参考訳(メタデータ) (2023-11-30T03:59:31Z) - Multilingual Jailbreak Challenges in Large Language Models [96.74878032417054]
本研究では,大規模言語モデル(LLM)における多言語ジェイルブレイク問題の存在を明らかにする。
我々は、意図しないシナリオと意図的なシナリオの2つを考えます。
安全な微調整のための多言語学習データを自動的に生成する新しいtextscSelf-Defense フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-10T09:44:06Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。