論文の概要: Lost in Translation? A Comparative Study on the Cross-Lingual Transfer of Composite Harms
- arxiv url: http://arxiv.org/abs/2602.07963v1
- Date: Sun, 08 Feb 2026 13:22:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.894069
- Title: Lost in Translation? A Comparative Study on the Cross-Lingual Transfer of Composite Harms
- Title(参考訳): 翻訳における損失 : 複合ハームの言語間移動に関する比較研究
- Authors: Vaibhav Shukla, Hardik Sharma, Adith N Reganti, Soham Wasmatkar, Bagesh Kumar, Vrijendra Singh,
- Abstract要約: 大きな言語モデル(LLM)のほとんどの安全性評価は、英語で固定されている。
いくつかの害は翻訳のほとんど無傷で生き残るが、他の害は歪んだり消えたりする。
翻訳ベースのベンチマークであるCompositeHarmを導入し、シンタックスとセマンティクスの両方のシフトが安全アライメントをどのように支えているかを検証した。
- 参考スコア(独自算出の注目度): 0.5376203747548287
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most safety evaluations of large language models (LLMs) remain anchored in English. Translation is often used as a shortcut to probe multilingual behavior, but it rarely captures the full picture, especially when harmful intent or structure morphs across languages. Some types of harm survive translation almost intact, while others distort or disappear. To study this effect, we introduce CompositeHarm, a translation-based benchmark designed to examine how safety alignment holds up as both syntax and semantics shift. It combines two complementary English datasets, AttaQ, which targets structured adversarial attacks, and MMSafetyBench, which covers contextual, real-world harms, and extends them into six languages: English, Hindi, Assamese, Marathi, Kannada, and Gujarati. Using three large models, we find that attack success rates rise sharply in Indic languages, especially under adversarial syntax, while contextual harms transfer more moderately. To ensure scalability and energy efficiency, our study adopts lightweight inference strategies inspired by edge-AI design principles, reducing redundant evaluation passes while preserving cross-lingual fidelity. This design makes large-scale multilingual safety testing both computationally feasible and environmentally conscious. Overall, our results show that translated benchmarks are a necessary first step, but not a sufficient one, toward building grounded, resource-aware, language-adaptive safety systems.
- Abstract(参考訳): 大きな言語モデル(LLM)のほとんどの安全性評価は、英語で固定されている。
翻訳はしばしば多言語的振る舞いを探索するショートカットとして使われるが、特に言語間の有害な意図や構造形態において、全体像を捉えることは滅多にない。
いくつかの害は翻訳のほとんど無傷で生き残るが、他の害は歪んだり消えたりする。
この効果を研究するために,構文とセマンティクスの両方のシフトとして安全アライメントがどのように支えられるかを検討するための,翻訳ベースのベンチマークであるCompositeHarmを紹介する。
AttaQとMMSafetyBenchは、コンテキストや現実世界の害をカバーし、それらを英語、ヒンディー語、アサメズ語、マラティー語、カナダ語、グジャラート語という6つの言語に拡張している。
3つの大きなモデルを用いて、特に逆構文下では攻撃成功率が急上昇し、文脈的害はより緩やかに伝達される。
スケーラビリティとエネルギー効率を確保するために,エッジAI設計原則に着想を得た軽量な推論戦略を採用し,言語間の忠実さを維持しながら冗長な評価パスを低減した。
この設計は、計算可能かつ環境に配慮した大規模多言語安全テストを可能にする。
総合的な結果から、翻訳されたベンチマークは必要な最初のステップであるが、基礎的でリソースを意識した言語適応型安全システムを構築するには十分ではないことがわかった。
関連論文リスト
- When Meanings Meet: Investigating the Emergence and Quality of Shared Concept Spaces during Multilingual Language Model Training [57.230355403478995]
本研究では,EuroLLMの事前学習における言語に依存しない概念空間の開発について検討する。
共有概念空間は早期に出現し、洗練され続けていますが、それらとの整合性は言語に依存しています。
従来の作業とは対照的に、細かな手作業分析により、翻訳品質の顕著な向上は、行動の変化を反映していることが判明した。
論文 参考訳(メタデータ) (2026-01-30T11:23:01Z) - Multilinguality as Sense Adaptation [24.548610248136352]
SENSE-based Symmetric Interlingual Alignment (SENSIA)
SENse-based Symmetric Interlingual Alignment (SENSIA)について紹介する。
これは、ある言語から別の言語へのバックパック言語モデルへの適応であり、並列データに対する感覚レベルの混合とコンテキスト表現を明確に調整する。
論文 参考訳(メタデータ) (2026-01-15T11:44:01Z) - Toxicity-Aware Few-Shot Prompting for Low-Resource Singlish Translation [3.7678366606419345]
低リソースの言語ペア間の有害な内容の翻訳は、攻撃的な表現を衛生化するための並列データと安全フィルタの不足による課題を提起する。
コードミキシングされたSinglishセーフティコーパス上で実証された毒性保存翻訳のための2段階のフレームワークを提案する。
我々は,Singlishを包括的NLPテストベッドとして位置づけることにより,実世界の応用における社会言語的ニュアンスを維持することの重要性を強調した。
論文 参考訳(メタデータ) (2025-07-16T06:58:02Z) - MrGuard: A Multilingual Reasoning Guardrail for Universal LLM Safety [56.77103365251923]
大規模言語モデル(LLM)は、ジェイルブレイクのような敵の攻撃を受けやすい。
この脆弱性は、多言語セーフティアライメントされたデータが制限される多言語設定で悪化する。
素早い分類のための多言語ガードレールを提案する。
論文 参考訳(メタデータ) (2025-04-21T17:15:06Z) - Lost In Translation: Generating Adversarial Examples Robust to
Round-Trip Translation [66.33340583035374]
本研究は, ラウンドトリップ翻訳における現在のテキスト対逆攻撃の堅牢性に関する包括的研究である。
筆者らは,現在最先端のテキストベースの6つの敵攻撃が,ラウンドトリップ翻訳後の有効性を維持していないことを実証した。
本稿では,機械翻訳を逆例生成のプロセスに組み込むことにより,この問題に対する介入に基づく解決策を提案する。
論文 参考訳(メタデータ) (2023-07-24T04:29:43Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。