論文の概要: JailNewsBench: Multi-Lingual and Regional Benchmark for Fake News Generation under Jailbreak Attacks
- arxiv url: http://arxiv.org/abs/2603.01291v1
- Date: Sun, 01 Mar 2026 21:50:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.611868
- Title: JailNewsBench: Multi-Lingual and Regional Benchmark for Fake News Generation under Jailbreak Attacks
- Title(参考訳): JailNewsBench: ジェイルブレイク攻撃によるフェイクニュース生成のための多言語および地域ベンチマーク
- Authors: Masahiro Kaneko, Ayana Niwa, Timothy Baldwin,
- Abstract要約: JailNewsBenchは、ジェイルブレイクによる偽ニュース生成に対する堅牢性を評価する最初のベンチマークである。
英語と米国関連のトピックでは、典型的な多言語LLMの防御性能は他の地域に比べて著しく低かった。
我々の分析によると、既存の安全データセットにおけるフェイクニュースの報道は、毒性や社会的偏見といった主要なカテゴリーよりも限定的であり、十分に保護されていない。
- 参考スコア(独自算出の注目度): 44.09742593777696
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fake news undermines societal trust and decision-making across politics, economics, health, and international relations, and in extreme cases threatens human lives and societal safety. Because fake news reflects region-specific political, social, and cultural contexts and is expressed in language, evaluating the risks of large language models (LLMs) requires a multi-lingual and regional perspective. Malicious users can bypass safeguards through jailbreak attacks, inducing LLMs to generate fake news. However, no benchmark currently exists to systematically assess attack resilience across languages and regions. Here, we propose JailNewsBench, the first benchmark for evaluating LLM robustness against jailbreak-induced fake news generation. JailNewsBench spans 34 regions and 22 languages, covering 8 evaluation sub-metrics through LLM-as-a-Judge and 5 jailbreak attacks, with approximately 300k instances. Our evaluation of 9 LLMs reveals that the maximum attack success rate (ASR) reached 86.3% and the maximum harmfulness score was 3.5 out of 5. Notably, for English and U.S.-related topics, the defensive performance of typical multi-lingual LLMs was significantly lower than for other regions, highlighting substantial imbalances in safety across languages and regions. In addition, our analysis shows that coverage of fake news in existing safety datasets is limited and less well defended than major categories such as toxicity and social bias. Our dataset and code are available at https://github.com/kanekomasahiro/jail_news_bench.
- Abstract(参考訳): フェイクニュースは、政治、経済、健康、国際関係における社会的信頼と意思決定を阻害し、極端な場合、人間の命と社会的安全を脅かす。
偽ニュースは地域特有の政治的、社会的、文化的文脈を反映し、言語で表現されるため、大きな言語モデル(LLM)のリスクを評価するには、多言語および地域的な視点が必要である。
悪意のあるユーザーは、脱獄攻撃によって安全を回避でき、偽ニュースを生成するためにLSMを誘導する。
しかしながら、言語やリージョン間の攻撃レジリエンスを体系的に評価するベンチマークは、今のところ存在しない。
本稿では,Jailbreakによる偽ニュース生成に対するLDMロバスト性を評価する最初のベンチマークであるJailNewsBenchを提案する。
JailNewsBenchは34のリージョンと22の言語にまたがっており、LLM-as-a-Judgeと5つのjailbreak攻撃を通じて8つの評価サブメトリックをカバーする。
その結果,最大攻撃成功率 (ASR) は86.3%, 最大有害度スコアは5。
特に、英語と米国関連の話題では、典型的な多言語LLMの防御性能は他の地域に比べて著しく低く、言語や地域間での安全性のかなりの不均衡が強調された。
さらに,既存の安全データセットにおけるフェイクニュースの報道は,毒性や社会的偏見といった主要なカテゴリーよりも限定的であり,保護的ではないことを示す。
データセットとコードはhttps://github.com/ Kanekomasahiro/jail_news_bench.comから入手可能です。
関連論文リスト
- Do Methods to Jailbreak and Defend LLMs Generalize Across Languages? [11.718639745472224]
本稿では,10言語にまたがるジェイルブレイクとディフェンスの体系的多言語評価について述べる。
我々は, 論理的表現に基づくジェイルブレイクと, 反逆的プロンプトに基づくロバストネスの2つのタイプを評価する。
単純な防御は効果的だが、言語とモデルに依存している。
論文 参考訳(メタデータ) (2025-11-01T20:12:19Z) - Toxicity Red-Teaming: Benchmarking LLM Safety in Singapore's Low-Resource Languages [57.059267233093465]
大規模言語モデル(LLM)は自然言語処理を変革しているが、その安全性メカニズムは低リソースで多言語的な設定では未探索のままである。
シンガポールの多様な言語文脈におけるLLM安全性をベンチマークするための新しいデータセットおよび評価フレームワークであるtextsfSGToxicGuardを紹介した。
我々は最先端の多言語LLMによる広範囲な実験を行い、その安全ガードレールの限界を明らかにする。
論文 参考訳(メタデータ) (2025-09-18T08:14:34Z) - Evaluating LLMs Robustness in Less Resourced Languages with Proxy Models [0.0]
数文字だけを変更し、単語の重要度を計算するために小さなプロキシモデルを使用することで、驚くほど強力な攻撃が生まれることを示す。
これらの特徴と単語レベルの攻撃は、異なるLLMの予測を劇的に変えることが判明した。
我々は,低リソース言語ポーランド語に対する攻撃構築手法を検証し,LLMの潜在的な脆弱性を発見する。
論文 参考訳(メタデータ) (2025-06-09T11:09:39Z) - SafeDialBench: A Fine-Grained Safety Benchmark for Large Language Models in Multi-Turn Dialogues with Diverse Jailbreak Attacks [90.41592442792181]
大規模言語モデル(LLM)の安全性を評価するための詳細なベンチマーク SafeDialBench を提案する。
具体的には,6つの安全次元を考慮した2階層型階層型安全分類法を設計し,22の対話シナリオの下で中国語と英語の双方で4000以上のマルチターン対話を生成する。
特に,LLMの革新的なアセスメントフレームワークを構築し,安全でない情報を検出し,処理し,ジェイルブレイク攻撃時の一貫性を維持する。
論文 参考訳(メタデータ) (2025-02-16T12:08:08Z) - LLMs Lost in Translation: M-ALERT uncovers Cross-Linguistic Safety Inconsistencies [63.10843814055688]
M-ALERTは5つの言語における大規模言語モデルの安全性を評価するベンチマークである。
M-ALERTには言語毎に15kの高品質なプロンプトが含まれており、合計で75k、カテゴリワイドアノテーションがある。
39種類のLLMに関する実験は,言語固有の安全性解析の重要性を強調した。
論文 参考訳(メタデータ) (2024-12-19T16:46:54Z) - Benchmarking LLM Guardrails in Handling Multilingual Toxicity [57.296161186129545]
7つのデータセットと10以上の言語にまたがる包括的な多言語テストスイートを導入し、最先端ガードレールのパフォーマンスをベンチマークする。
近年の脱獄技術に対するガードレールの弾力性について検討し,ガードレールの性能に及ぼすコンテキスト内安全ポリシーと言語資源の可利用性の影響について検討した。
以上の結果から, 既存のガードレールは多言語毒性の処理に依然として効果がなく, 脱獄プロンプトに対する堅牢性が欠如していることが示唆された。
論文 参考訳(メタデータ) (2024-10-29T15:51:24Z) - Multilingual Jailbreak Challenges in Large Language Models [96.74878032417054]
本研究では,大規模言語モデル(LLM)における多言語ジェイルブレイク問題の存在を明らかにする。
我々は、意図しないシナリオと意図的なシナリオの2つを考えます。
安全な微調整のための多言語学習データを自動的に生成する新しいtextscSelf-Defense フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-10T09:44:06Z) - Low-Resource Languages Jailbreak GPT-4 [19.97929171158234]
我々の研究は、AIの安全性トレーニングと大規模言語モデル(LLM)のリピートという、言語横断的な脆弱性を明らかにします。
AdvBenchmarkでは、GPT-4は安全でない翻訳された入力に関わり、ユーザを有害な目標の79%に導く実行可能なアイテムを提供する。
他のハイ/ミッドリソース言語は攻撃成功率を著しく低くしているため、言語間の脆弱性は主に低リソース言語に適用される。
論文 参考訳(メタデータ) (2023-10-03T21:30:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。