論文の概要: Towards Safe Multilingual Frontier AI
- arxiv url: http://arxiv.org/abs/2409.13708v2
- Date: Tue, 29 Oct 2024 11:14:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 05:46:28.439671
- Title: Towards Safe Multilingual Frontier AI
- Title(参考訳): 安全な多言語フロンティアAIを目指して
- Authors: Artūrs Kanepajs, Vladimir Ivanov, Richard Moulange,
- Abstract要約: マルチリンガルジェイルブレイクは、AIシステムの安全かつ包括的デプロイを損なう。
我々は、多言語ジェイルブレイクに対応するため、EUの法的な状況と制度的な枠組みに沿った政策行動を提案する。
これには、多言語能力と脆弱性の必須評価、世論調査、多言語AI開発のための状態サポートが含まれる。
- 参考スコア(独自算出の注目度): 0.18957478338649109
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Linguistically inclusive LLMs -- which maintain good performance regardless of the language with which they are prompted -- are necessary for the diffusion of AI benefits around the world. Multilingual jailbreaks that rely on language translation to evade safety measures undermine the safe and inclusive deployment of AI systems. We provide policy recommendations to enhance the multilingual capabilities of AI while mitigating the risks of multilingual jailbreaks. We examine how a language's level of resourcing relates to how vulnerable LLMs are to multilingual jailbreaks in that language. We do this by testing five advanced AI models across 24 official languages of the EU. Building on prior research, we propose policy actions that align with the EU legal landscape and institutional framework to address multilingual jailbreaks, while promoting linguistic inclusivity. These include mandatory assessments of multilingual capabilities and vulnerabilities, public opinion research, and state support for multilingual AI development. The measures aim to improve AI safety and functionality through EU policy initiatives, guiding the implementation of the EU AI Act and informing regulatory efforts of the European AI Office.
- Abstract(参考訳): 言語的に包括的なLLM -- それらが引き起こされる言語に関係なく、優れたパフォーマンスを維持する — は、世界中のAI利益の拡散に必要である。
安全対策を回避するために言語翻訳に依存する多言語ジェイルブレイクは、AIシステムの安全かつ包括的デプロイを損なう。
我々は、多言語ジェイルブレイクのリスクを軽減しつつ、AIの多言語能力を高めるためのポリシーレコメンデーションを提供する。
言語の再ソーシングのレベルが、言語内の多言語ジェイルブレイクに対するLLMの脆弱さとどのように関係しているかを検討する。
私たちは、EUの24の公用語で5つの高度なAIモデルをテストしています。
先行研究に基づき、多言語ジェイルブレイクに対処しつつ、言語的傾向を推進しつつ、EUの法的な景観と制度的な枠組みに沿った政策行動を提案する。
これには、多言語能力と脆弱性の必須評価、世論調査、多言語AI開発のための状態サポートが含まれる。
この措置は、EUの政策イニシアチブを通じてAIの安全性と機能を向上し、EUのAI法の実装を指導し、欧州のAIオフィスの規制を指示することを目的としている。
関連論文リスト
- Benchmarking LLM Guardrails in Handling Multilingual Toxicity [57.296161186129545]
7つのデータセットと10以上の言語にまたがる包括的な多言語テストスイートを導入し、最先端ガードレールのパフォーマンスをベンチマークする。
近年の脱獄技術に対するガードレールの弾力性について検討し,ガードレールの性能に及ぼすコンテキスト内安全ポリシーと言語資源の可利用性の影響について検討した。
以上の結果から, 既存のガードレールは多言語毒性の処理に依然として効果がなく, 脱獄プロンプトに対する堅牢性が欠如していることが示唆された。
論文 参考訳(メタデータ) (2024-10-29T15:51:24Z) - Lens: Rethinking Multilingual Enhancement for Large Language Models [70.85065197789639]
Lensは、大規模言語モデル(LLM)の多言語機能を強化する新しいアプローチである
LLMの上位層から言語に依存しない、言語固有のサブ空間内の隠された表現を操作できる。
既存のポストトレーニング手法に比べて計算資源がはるかに少ないため、優れた結果が得られる。
論文 参考訳(メタデータ) (2024-10-06T08:51:30Z) - LLM for Everyone: Representing the Underrepresented in Large Language Models [21.07409393578553]
この論文は、表現不足言語に焦点をあてて、NLPの研究と開発におけるギャップを埋めることを目的としている。
大規模言語モデル(LLM)の包括的評価を行い,それらの能力を評価する。
提案手法は、言語間連続的命令チューニング、検索に基づく言語間インコンテキスト学習、コンテキスト内クエリアライメントを網羅する。
論文 参考訳(メタデータ) (2024-09-20T20:53:22Z) - Multilingual Blending: LLM Safety Alignment Evaluation with Language Mixture [6.17896401271963]
我々は,様々な大規模言語モデルの安全性アライメントを評価するために,混合言語クエリ応答方式であるMultilingual Blendingを導入する。
本稿では,多言語ブレンディングの有効性に影響を及ぼす可能性のある,言語可用性,形態学,言語ファミリーなどの言語パターンについて検討する。
論文 参考訳(メタデータ) (2024-07-10T03:26:15Z) - Safe Multi-agent Reinforcement Learning with Natural Language Constraints [49.01100552946231]
安全なマルチエージェント強化学習(MARL)における自然言語制約の役割は重要であるが、しばしば見過ごされる。
自然言語制約付き安全マルチエージェント強化学習(SMALL)という新しいアプローチを提案する。
提案手法は、微調整言語モデルを用いて、自由形式のテキスト制約を解釈し、処理し、セマンティックな埋め込みに変換する。
これらの埋め込みはマルチエージェントのポリシー学習プロセスに統合され、エージェントは報酬を最適化しながら制約違反を最小限に抑えるポリシーを学ぶことができる。
論文 参考訳(メタデータ) (2024-05-30T12:57:35Z) - CodeAttack: Revealing Safety Generalization Challenges of Large Language Models via Code Completion [117.178835165855]
本稿では,自然言語入力をコード入力に変換するフレームワークであるCodeAttackを紹介する。
我々の研究は、コード入力に対するこれらのモデルの新たな、普遍的な安全性の脆弱性を明らかにした。
CodeAttackと自然言語の分布ギャップが大きくなると、安全性の一般化が弱くなる。
論文 参考訳(メタデータ) (2024-03-12T17:55:38Z) - Multilingual Jailbreak Challenges in Large Language Models [96.74878032417054]
本研究では,大規模言語モデル(LLM)における多言語ジェイルブレイク問題の存在を明らかにする。
我々は、意図しないシナリオと意図的なシナリオの2つを考えます。
安全な微調整のための多言語学習データを自動的に生成する新しいtextscSelf-Defense フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-10T09:44:06Z) - Low-Resource Languages Jailbreak GPT-4 [19.97929171158234]
我々の研究は、AIの安全性トレーニングと大規模言語モデル(LLM)のリピートという、言語横断的な脆弱性を明らかにします。
AdvBenchmarkでは、GPT-4は安全でない翻訳された入力に関わり、ユーザを有害な目標の79%に導く実行可能なアイテムを提供する。
他のハイ/ミッドリソース言語は攻撃成功率を著しく低くしているため、言語間の脆弱性は主に低リソース言語に適用される。
論文 参考訳(メタデータ) (2023-10-03T21:30:56Z) - All Languages Matter: On the Multilingual Safety of Large Language Models [96.47607891042523]
我々は、大規模言語モデル(LLM)のための最初の多言語安全ベンチマークを構築した。
XSafetyは、複数の言語ファミリーにまたがる10言語にわたる14種類の一般的な安全問題をカバーしている。
本稿では,ChatGPTの多言語安全性向上のための簡易かつ効果的なプロンプト手法を提案する。
論文 参考訳(メタデータ) (2023-10-02T05:23:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。