論文の概要: IndicJR: A Judge-Free Benchmark of Jailbreak Robustness in South Asian Languages
- arxiv url: http://arxiv.org/abs/2602.16832v1
- Date: Wed, 18 Feb 2026 19:54:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:28.320038
- Title: IndicJR: A Judge-Free Benchmark of Jailbreak Robustness in South Asian Languages
- Title(参考訳): IndicJR: 南アジアの言語におけるジェイルブレイクのロバスト性に関する裁判官フリーベンチマーク
- Authors: Priyaranjan Pattnayak, Sanchari Chowdhuri,
- Abstract要約: 大きな言語モデル(LLM)の安全性アライメントは、主に英語とコントラクトバウンドで評価され、多言語脆弱性が調査されている。
我々は,12のIndic言語と南アジアの言語を対象とした,敵対的安全性の判定自由ベンチマークであるtextbfIndic Jailbreak Robustness (IJR)を紹介した。
- 参考スコア(独自算出の注目度): 0.6978180153516672
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Safety alignment of large language models (LLMs) is mostly evaluated in English and contract-bound, leaving multilingual vulnerabilities understudied. We introduce \textbf{Indic Jailbreak Robustness (IJR)}, a judge-free benchmark for adversarial safety across 12 Indic and South Asian languages (2.1 Billion speakers), covering 45216 prompts in JSON (contract-bound) and Free (naturalistic) tracks. IJR reveals three patterns. (1) Contracts inflate refusals but do not stop jailbreaks: in JSON, LLaMA and Sarvam exceed 0.92 JSR, and in Free all models reach 1.0 with refusals collapsing. (2) English to Indic attacks transfer strongly, with format wrappers often outperforming instruction wrappers. (3) Orthography matters: romanized or mixed inputs reduce JSR under JSON, with correlations to romanization share and tokenization (approx 0.28 to 0.32) indicating systematic effects. Human audits confirm detector reliability, and lite-to-full comparisons preserve conclusions. IJR offers a reproducible multilingual stress test revealing risks hidden by English-only, contract-focused evaluations, especially for South Asian users who frequently code-switch and romanize.
- Abstract(参考訳): 大きな言語モデル(LLM)の安全性アライメントは、主に英語とコントラクトバウンドで評価され、多言語脆弱性が調査されている。
Indic と South Asia の12言語(210億話者)にわたる敵の安全を判定しないベンチマークである \textbf{Indic Jailbreak Robustness (IJR)} を導入し、JSON (contract-bound) と Free (naturalistic) トラックで45216のプロンプトをカバーした。
IJRは3つのパターンを明らかにしている。
JSONでは、LLaMAとSarvamが0.92 JSRを超え、Freeでは、すべてのモデルは拒否が崩壊して1.0に達する。
2) 英語からインデックスへの攻撃は強く、フォーマットラッパーは命令ラッパーよりも優れています。
ローマン化または混合入力は、JSONの下でJSRを減らし、ロマン化共有とトークン化(0.28から0.32)に相関する。
人間の監査は検出器の信頼性を確認し、厳密な比較によって結論が守られる。
IJRは、英語のみの契約中心の評価で隠されたリスクを明らかにする再現可能な多言語ストレステストを提供している。
関連論文リスト
- Lost in Translation? A Comparative Study on the Cross-Lingual Transfer of Composite Harms [0.5376203747548287]
大きな言語モデル(LLM)のほとんどの安全性評価は、英語で固定されている。
いくつかの害は翻訳のほとんど無傷で生き残るが、他の害は歪んだり消えたりする。
翻訳ベースのベンチマークであるCompositeHarmを導入し、シンタックスとセマンティクスの両方のシフトが安全アライメントをどのように支えているかを検証した。
論文 参考訳(メタデータ) (2026-02-08T13:22:50Z) - Say It Differently: Linguistic Styles as Jailbreak Vectors [0.763334557068953]
我々は、恐怖や好奇心などの言語スタイルが有害な意図を再構築し、整列モデルから安全でない反応を誘発する方法について研究する。
3つの標準データセットからのプロンプトを11の異なる言語スタイルに変換することで、スタイル拡張されたjailbreakベンチマークを構築する。
恐怖、好奇心、慈悲心といったスタイルは最も効果的で、文脈化された書き直しはテンプレート化されたバリエーションよりも優れている。
論文 参考訳(メタデータ) (2025-11-13T17:24:38Z) - Toxicity Red-Teaming: Benchmarking LLM Safety in Singapore's Low-Resource Languages [57.059267233093465]
大規模言語モデル(LLM)は自然言語処理を変革しているが、その安全性メカニズムは低リソースで多言語的な設定では未探索のままである。
シンガポールの多様な言語文脈におけるLLM安全性をベンチマークするための新しいデータセットおよび評価フレームワークであるtextsfSGToxicGuardを紹介した。
我々は最先端の多言語LLMによる広範囲な実験を行い、その安全ガードレールの限界を明らかにする。
論文 参考訳(メタデータ) (2025-09-18T08:14:34Z) - JPS: Jailbreak Multimodal Large Language Models with Collaborative Visual Perturbation and Textual Steering [73.962469626788]
マルチモーダルな大規模言語モデル(MLLM)に対するジェイルブレイク攻撃は重要な研究課題である。
JPS, UnderlineJailbreak MLLMs with collaborative visual underlinePerturbation and textual underlineSteering。
論文 参考訳(メタデータ) (2025-08-07T07:14:01Z) - SpeechGuard: Exploring the Adversarial Robustness of Multimodal Large Language Models [34.557309967708406]
本研究では,このような命令追従型音声モデルの潜在的な脆弱性を,敵対的攻撃や脱獄に対して検討する。
我々は、人間の関与なしに、ホワイトボックスとブラックボックスの攻撃設定の両方でジェイルブレイクSLMの逆例を生成するアルゴリズムを設計する。
本モデルでは,発話指示による対話データに基づいて,音声質問応答タスクにおける最先端のパフォーマンスを達成し,安全性と有用性の両方の指標で80%以上をスコア付けした。
論文 参考訳(メタデータ) (2024-05-14T04:51:23Z) - Rethinking How to Evaluate Language Model Jailbreak [16.301224741410312]
言語モデルジェイルブレイクを評価するために, 3つの指標, 保護違反, 情報性, 相対真理性を提案する。
3つの悪意のある意図的データセットと3つのジェイルブレイクシステムから生成されたベンチマークデータセットで、我々の測定値を評価する。
論文 参考訳(メタデータ) (2024-04-09T15:54:16Z) - Multilingual Jailbreak Challenges in Large Language Models [96.74878032417054]
本研究では,大規模言語モデル(LLM)における多言語ジェイルブレイク問題の存在を明らかにする。
我々は、意図しないシナリオと意図的なシナリオの2つを考えます。
安全な微調整のための多言語学習データを自動的に生成する新しいtextscSelf-Defense フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-10T09:44:06Z) - Unlikelihood Tuning on Negative Samples Amazingly Improves Zero-Shot
Translation [79.96416609433724]
Zero-shot Translation (ZST)は、トレーニングデータにおいて、目に見えない言語ペア間の翻訳を目的としている。
推論中にゼロショット言語マッピングをガイドする一般的な方法は、ソースとターゲット言語IDを意図的に挿入することである。
近年の研究では、言語IDが時折ZSTタスクのナビゲートに失敗し、ターゲット外問題に悩まされることが示されている。
論文 参考訳(メタデータ) (2023-09-28T17:02:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。