論文の概要: ROK-FORTRESS: Measuring the Effect of Geopolitical Transcreation for National Security and Public Safety
- arxiv url: http://arxiv.org/abs/2605.14152v1
- Date: Wed, 13 May 2026 22:07:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.519102
- Title: ROK-FORTRESS: Measuring the Effect of Geopolitical Transcreation for National Security and Public Safety
- Title(参考訳): ROK-FORTRESS:国家安全と公共安全のためのジオポリティカルトランスクリエーションの効果の測定
- Authors: Michael S. Lee, Yash Maurya, Drew Rein, Bert Herring, Jonathan Nguyen, Kyungho Song, Udari Madhushani Sehwag, Jiyeon Cho, Kaustubh Deshpande, Yeongkyun Jang, Jiyeon Joo, Minn Seok Choi, Evi Fuelle, Christina Q Knight, Joseph Brandifino, Max Fenkell,
- Abstract要約: 大規模言語モデルの安全性評価は、国家安全・公共安全(NSPS)リスクをますますターゲットにしている。
言語と地政学的文脈の相互作用の実証的な証拠は 狭い言語対に限られています
EmphROK-FORTRESSは、英語と韓国語の組み合わせと米国-ROKの地政軸をケーススタディとして用いた、バイリンガルで文化的に敵対的なNSPSベンチマークである。
- 参考スコア(独自算出の注目度): 2.929429337200341
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Safety evaluations for large language models (LLMs) increasingly target high-stakes National Security and Public Safety (NSPS) risks, yet multilingual safety is typically assessed through translation-only benchmarks that preserve the underlying scenario, and empirical evidence of how language and geopolitical context interact remains limited to a narrow set of language pairs. We introduce \emph{ROK-FORTRESS} https://huggingface.co/datasets/ScaleAI/ROK-FORTRESS_public, a bilingual, culturally adversarial NSPS benchmark that uses the English--Korean language pair and U.S.--ROK geopolitical axis as a case study, separating the effects of language and geopolitical grounding via a \emph{transcreation matrix}: adversarial intents are evaluated under controlled combinations of (i) English versus Korean language and (ii) U.S.\ versus Korean entities, institutions, and operational details. Each adversarial prompt is paired with a dual-use benign counterpart to quantify over-refusal. Model responses are then scored using calibrated LLM-as-a-judge panels, applying our expert-crafted, prompt-specific binary rubrics. Across a dual-track set of frontier and Korean-optimized models, we find a consistent suppression effect in Korean variants and substantial model-to-model variation in how geopolitical grounding interacts with language. In many models, Korean grounding mitigates the Korean language-driven suppression -- with no model showing significant amplification in the other direction -- indicating that, at least in the English--Korean case, safety behavior is shaped by language-as-risk signals and context interactions that translation-only evaluations miss. The transcreation matrix methodology is designed to generalize to other language--culture pairs.
- Abstract(参考訳): 大規模言語モデル(LLM)の安全性評価は、高リスクの国家安全・公安(NSPS)リスクをますますターゲットとしているが、多言語安全性は、基礎となるシナリオを保存するための翻訳専用ベンチマークや、言語と地政学的コンテキストの相互作用に関する実証的な証拠によって評価される。
英語-韓国語対と米国-ROK地政軸を用いたバイリンガルかつ文化的に敵対するNSPSベンチマークである \emph{ROK-FORTRESS} https://huggingface.co/datasets/ScaleAI/ROK-FORTRESS_public をケーススタディとして紹介し、言語と地理の接地の影響を \emph{creation matrix} を介して分離する。
(i)英語対韓国語、及び
(二)米国対韓国の機関、機関、運用の詳細
各逆のプロンプトは、過剰な拒絶を定量化するために、二重用途の良心とペアリングされる。
モデル応答は, LLM-as-a-judgeパネルを校正し, 専門家によって製作された, プロンプト特異的なバイナリルーリックを適用して評価する。
二トラックのフロンティアモデルと韓国最適化モデルの間には、韓国の変種における一貫した抑制効果と、地政学的接地が言語とどのように相互作用するかのモデル・ツー・モデル変異がある。
多くのモデルでは、韓国語による弾圧を緩和し、反対方向に顕著な増幅を示すモデルはないが、少なくとも英語の場合、韓国では、安全行動は言語としてリスクの高い信号と、翻訳のみの評価が見逃すコンテキストの相互作用によって形成されていることを示している。
トランスクリエーション行列法は、他の言語-培養ペアに一般化するために設計されている。
関連論文リスト
- Lost in Translation? A Comparative Study on the Cross-Lingual Transfer of Composite Harms [0.5376203747548287]
大きな言語モデル(LLM)のほとんどの安全性評価は、英語で固定されている。
いくつかの害は翻訳のほとんど無傷で生き残るが、他の害は歪んだり消えたりする。
翻訳ベースのベンチマークであるCompositeHarmを導入し、シンタックスとセマンティクスの両方のシフトが安全アライメントをどのように支えているかを検証した。
論文 参考訳(メタデータ) (2026-02-08T13:22:50Z) - When Meanings Meet: Investigating the Emergence and Quality of Shared Concept Spaces during Multilingual Language Model Training [57.230355403478995]
本研究では,EuroLLMの事前学習における言語に依存しない概念空間の開発について検討する。
共有概念空間は早期に出現し、洗練され続けていますが、それらとの整合性は言語に依存しています。
従来の作業とは対照的に、細かな手作業分析により、翻訳品質の顕著な向上は、行動の変化を反映していることが判明した。
論文 参考訳(メタデータ) (2026-01-30T11:23:01Z) - Improving Methodologies for LLM Evaluations Across Global Languages [19.63570354411416]
このエクササイズは、安全行動が言語によってどのように異なるかを示しています。
また、多言語安全性評価を改善するための洞察も生み出した。
この研究は、先進的なAIシステムの多言語安全テストのための共有フレームワークに向けた最初のステップである。
論文 参考訳(メタデータ) (2026-01-22T07:18:08Z) - Multilinguality as Sense Adaptation [24.548610248136352]
SENSE-based Symmetric Interlingual Alignment (SENSIA)
SENse-based Symmetric Interlingual Alignment (SENSIA)について紹介する。
これは、ある言語から別の言語へのバックパック言語モデルへの適応であり、並列データに対する感覚レベルの混合とコンテキスト表現を明確に調整する。
論文 参考訳(メタデータ) (2026-01-15T11:44:01Z) - Humans overrely on overconfident language models, across languages [32.71245803698373]
5言語にわたる多言語言語(ミス)校正,過信,過信のリスクについて検討した。
私たちの研究によると、言語全体で過度に信頼されるリスクが高いことが分かりました。
論文 参考訳(メタデータ) (2025-07-08T18:01:01Z) - MrGuard: A Multilingual Reasoning Guardrail for Universal LLM Safety [56.77103365251923]
大規模言語モデル(LLM)は、ジェイルブレイクのような敵の攻撃を受けやすい。
この脆弱性は、多言語セーフティアライメントされたデータが制限される多言語設定で悪化する。
素早い分類のための多言語ガードレールを提案する。
論文 参考訳(メタデータ) (2025-04-21T17:15:06Z) - The Hidden Space of Safety: Understanding Preference-Tuned LLMs in Multilingual context [0.9130277390156759]
アライメントチューニングにより、大きな言語モデルは、推論、命令追従、有害な世代を最小化できる。
広く展開されているにもかかわらず、これらのモデルはモノリンガルバイアスを示し、言語間のアライメントの有効性に関する懸念を提起する。
現在のアライメント手法は主に英語に重点を置いており、アライメント機構が多言語設定にどのように一般化するかははっきりしない。
論文 参考訳(メタデータ) (2025-04-03T15:46:46Z) - High-Dimensional Interlingual Representations of Large Language Models [65.77317753001954]
大規模言語モデル(LLM)は、多言語データセットに基づいて訓練され、言語間構造の形成を示唆する。
資源レベル, 類型, 地理的地域によって異なる31の多様な言語を探索する。
多言語 LLM は非一貫性な言語間アライメントを示す。
論文 参考訳(メタデータ) (2025-03-14T10:39:27Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。