Fugu-MT 論文翻訳(概要): Towards Safe Multilingual Frontier AI

論文の概要: Towards Safe Multilingual Frontier AI

arxiv url: http://arxiv.org/abs/2409.13708v1
Date: Tue, 29 Oct 2024 11:14:46 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-07 05:46:28.442276
Title: Towards Safe Multilingual Frontier AI
Title（参考訳）: 安全な多言語フロンティアAIを目指して
Authors: Artūrs Kanepajs, Vladimir Ivanov, Richard Moulange,
Abstract要約: マルチリンガルジェイルブレイクは、AIシステムの安全かつ包括的デプロイを損なう。我々は、多言語ジェイルブレイクに対応するため、EUの法的な状況と制度的な枠組みに沿った政策行動を提案する。これには、多言語能力と脆弱性の必須評価、世論調査、多言語AI開発のための状態サポートが含まれる。
参考スコア（独自算出の注目度）: 0.18957478338649109
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Linguistically inclusive LLMs -- which maintain good performance regardless of the language with which they are prompted -- are necessary for the diffusion of AI benefits around the world. Multilingual jailbreaks that rely on language translation to evade safety measures undermine the safe and inclusive deployment of AI systems. We provide policy recommendations to enhance the multilingual capabilities of AI while mitigating the risks of multilingual jailbreaks. We quantitatively assess the relationship between language resourcedness and model vulnerabilities to multilingual jailbreaks for five frontier large language models across 24 official EU languages. Building on prior research, we propose policy actions that align with the EU legal landscape and institutional framework to address multilingual jailbreaks, while promoting linguistic inclusivity. These include mandatory assessments of multilingual capabilities and vulnerabilities, public opinion research, and state support for multilingual AI development. The measures aim to improve AI safety and functionality through EU policy initiatives, guiding the implementation of the EU AI Act and informing regulatory efforts of the European AI Office.
Abstract（参考訳）: 言語的に包括的なLLM -- それらが引き起こされる言語に関係なく、優れたパフォーマンスを維持する — は、世界中のAI利益の拡散に必要である。安全対策を回避するために言語翻訳に依存する多言語ジェイルブレイクは、AIシステムの安全かつ包括的デプロイを損なう。我々は、多言語ジェイルブレイクのリスクを軽減しつつ、AIの多言語能力を高めるためのポリシーレコメンデーションを提供する。言語リソース度とモデル脆弱性とマルチ言語ジェイルブレイクとの関係を,EUの公式言語24言語を対象とした5つのフロンティア大言語モデルで定量的に評価する。先行研究に基づき、多言語ジェイルブレイクに対処しつつ、言語的傾向を推進しつつ、EUの法的な景観と制度的な枠組みに沿った政策行動を提案する。これには、多言語能力と脆弱性の必須評価、世論調査、多言語AI開発のための状態サポートが含まれる。この措置は、EUの政策イニシアチブを通じてAIの安全性と機能を向上し、EUのAI法の実装を指導し、欧州のAIオフィスの規制を指示することを目的としている。

関連論文リスト

Align Once, Benefit Multilingually: Enforcing Multilingual Consistency for LLM Safety Alignment [15.241143079313757]
既存のモノリンガルアライメントパイプラインに組み込むことができるMLC(Multi-Lingual Consistency)ロスをプラグアンドプレイで導入する。これにより、低リソース言語でのセマンティックレスポンスレベルの監視を必要とせずに、多言語プロンプト変種のみを使用して、複数の言語を同時にアライメントすることができる。
論文参考訳（メタデータ） (2026-02-18T18:01:23Z)
Align is not Enough: Multimodal Universal Jailbreak Attack against Multimodal Large Language Models [83.80177564873094]
マルチモーダル・ユニバーサル・ジェイルブレイク・アタック・フレームワークを提案する。 LLaVA,Yi-VL,MiniGPT4,MiniGPT-v2,InstructBLIPなどのMLLMの望ましくないコンテキスト生成を評価する。本研究は,MLLMにおける堅牢な安全対策の必要性を浮き彫りにするものである。
論文参考訳（メタデータ） (2025-06-02T04:33:56Z)
The Multilingual Divide and Its Impact on Global AI Safety [27.639490480528337]
本稿では、研究者、政策立案者、ガバナンスの専門家に対して、AIの"言語ギャップ"をブリッジする上での重要な課題の概要を提供する。私たちは、AIの言語ギャップがなぜ存在して成長するのか、そして、グローバルAIの安全性における格差をどのように生み出すのかを分析します。
論文参考訳（メタデータ） (2025-05-27T15:37:32Z)
Refusal Direction is Universal Across Safety-Aligned Languages [66.64709923081745]
本稿では,PolyRefuseを用いた14言語にわたる大規模言語モデル(LLM)の拒絶動作について検討する。英語から抽出されたベクトルは、ほぼ完全な効果で他の言語での拒絶を回避できる。この伝達性は、埋め込み空間における言語間の拒否ベクトルの並列性に起因し、言語間ジェイルブレイクの背後にあるメカニズムを同定する。
論文参考訳（メタデータ） (2025-05-22T21:54:46Z)
MPO: Multilingual Safety Alignment via Reward Gap Optimization [88.76638442683391]
大規模言語モデル(LLM)は、世界中でAIアプリケーションの中心となっている。 RLHFやDPOのような既存の安全アライメントのための選好学習手法は、主に単言語であり、ノイズの多い多言語データと競合する。本稿では,複数言語間の安全アライメントを改善するために,支配言語(英語)の安全能力の整合性を活用した新しいアプローチである多言語報酬gaP Optimization(MPO)を紹介する。
論文参考訳（メタデータ） (2025-05-22T16:24:51Z)
MR. Guard: Multilingual Reasoning Guardrail using Curriculum Learning [56.79292318645454]
大規模言語モデル(LLM)は、ジェイルブレイクのような敵の攻撃を受けやすい。この脆弱性は、多言語セーフティアライメントされたデータが制限される多言語設定で悪化する。推論を用いた多言語ガードレール構築手法を提案する。
論文参考訳（メタデータ） (2025-04-21T17:15:06Z)
X-Guard: Multilingual Guard Agent for Content Moderation [8.233872344445675]
X-Guardは、多様な言語コンテキストにまたがるコンテンツモデレーションを提供するために設計された透明な多言語安全エージェントである。弊社のアプローチは、複数のオープンソースの安全データセットを、明確な評価の根拠でキュレートし、拡張することを含む。実験により,X-Guardが複数言語にわたる安全でないコンテンツの検出に有効であることを実証した。
論文参考訳（メタデータ） (2025-04-11T01:58:06Z)
Benchmarking LLM Guardrails in Handling Multilingual Toxicity [57.296161186129545]
7つのデータセットと10以上の言語にまたがる包括的な多言語テストスイートを導入し、最先端ガードレールのパフォーマンスをベンチマークする。近年の脱獄技術に対するガードレールの弾力性について検討し,ガードレールの性能に及ぼすコンテキスト内安全ポリシーと言語資源の可利用性の影響について検討した。以上の結果から, 既存のガードレールは多言語毒性の処理に依然として効果がなく, 脱獄プロンプトに対する堅牢性が欠如していることが示唆された。
論文参考訳（メタデータ） (2024-10-29T15:51:24Z)
Lens: Rethinking Multilingual Enhancement for Large Language Models [70.85065197789639]
Lensは、大規模言語モデル(LLM)の多言語機能を強化する新しいアプローチである LLMの上位層から言語に依存しない、言語固有のサブ空間内の隠された表現を操作できる。既存のポストトレーニング手法に比べて計算資源がはるかに少ないため、優れた結果が得られる。
論文参考訳（メタデータ） (2024-10-06T08:51:30Z)
LLM for Everyone: Representing the Underrepresented in Large Language Models [21.07409393578553]
この論文は、表現不足言語に焦点をあてて、NLPの研究と開発におけるギャップを埋めることを目的としている。大規模言語モデル(LLM)の包括的評価を行い,それらの能力を評価する。提案手法は、言語間連続的命令チューニング、検索に基づく言語間インコンテキスト学習、コンテキスト内クエリアライメントを網羅する。
論文参考訳（メタデータ） (2024-09-20T20:53:22Z)
Multilingual Blending: LLM Safety Alignment Evaluation with Language Mixture [6.17896401271963]
我々は,様々な大規模言語モデルの安全性アライメントを評価するために,混合言語クエリ応答方式であるMultilingual Blendingを導入する。本稿では,多言語ブレンディングの有効性に影響を及ぼす可能性のある,言語可用性,形態学,言語ファミリーなどの言語パターンについて検討する。
論文参考訳（メタデータ） (2024-07-10T03:26:15Z)
Safe Multi-agent Reinforcement Learning with Natural Language Constraints [49.01100552946231]
安全なマルチエージェント強化学習(MARL)における自然言語制約の役割は重要であるが、しばしば見過ごされる。自然言語制約付き安全マルチエージェント強化学習(SMALL)という新しいアプローチを提案する。提案手法は、微調整言語モデルを用いて、自由形式のテキスト制約を解釈し、処理し、セマンティックな埋め込みに変換する。これらの埋め込みはマルチエージェントのポリシー学習プロセスに統合され、エージェントは報酬を最適化しながら制約違反を最小限に抑えるポリシーを学ぶことができる。
論文参考訳（メタデータ） (2024-05-30T12:57:35Z)
A Survey on Large Language Models with Multilingualism: Recent Advances and New Frontiers [51.8203871494146]
LLM(Large Language Models)の急速な開発は、自然言語処理における顕著な多言語機能を示している。 LLMのブレークスルーにもかかわらず、多言語シナリオの研究は依然として不十分である。本調査は,多言語問題に対する研究コミュニティの取り組みを支援することを目的としており,LLMに基づく多言語自然言語処理における中核概念,鍵技術,最新の発展の包括的理解を提供する。
論文参考訳（メタデータ） (2024-05-17T17:47:39Z)
CodeAttack: Revealing Safety Generalization Challenges of Large Language Models via Code Completion [117.178835165855]
本稿では,自然言語入力をコード入力に変換するフレームワークであるCodeAttackを紹介する。我々の研究は、コード入力に対するこれらのモデルの新たな、普遍的な安全性の脆弱性を明らかにした。 CodeAttackと自然言語の分布ギャップが大きくなると、安全性の一般化が弱くなる。
論文参考訳（メタデータ） (2024-03-12T17:55:38Z)
Multilingual Jailbreak Challenges in Large Language Models [96.74878032417054]
本研究では,大規模言語モデル(LLM)における多言語ジェイルブレイク問題の存在を明らかにする。我々は、意図しないシナリオと意図的なシナリオの2つを考えます。安全な微調整のための多言語学習データを自動的に生成する新しいtextscSelf-Defense フレームワークを提案する。
論文参考訳（メタデータ） (2023-10-10T09:44:06Z)
Low-Resource Languages Jailbreak GPT-4 [19.97929171158234]
我々の研究は、AIの安全性トレーニングと大規模言語モデル(LLM)のリピートという、言語横断的な脆弱性を明らかにします。 AdvBenchmarkでは、GPT-4は安全でない翻訳された入力に関わり、ユーザを有害な目標の79%に導く実行可能なアイテムを提供する。他のハイ/ミッドリソース言語は攻撃成功率を著しく低くしているため、言語間の脆弱性は主に低リソース言語に適用される。
論文参考訳（メタデータ） (2023-10-03T21:30:56Z)
All Languages Matter: On the Multilingual Safety of Large Language Models [96.47607891042523]
我々は、大規模言語モデル(LLM)のための最初の多言語安全ベンチマークを構築した。 XSafetyは、複数の言語ファミリーにまたがる10言語にわたる14種類の一般的な安全問題をカバーしている。本稿では,ChatGPTの多言語安全性向上のための簡易かつ効果的なプロンプト手法を提案する。
論文参考訳（メタデータ） (2023-10-02T05:23:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。