論文の概要: CAGE: A Framework for Culturally Adaptive Red-Teaming Benchmark Generation
- arxiv url: http://arxiv.org/abs/2602.20170v1
- Date: Mon, 09 Feb 2026 22:01:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 07:21:25.641007
- Title: CAGE: A Framework for Culturally Adaptive Red-Teaming Benchmark Generation
- Title(参考訳): CAGE: 文化的に適応したRed-Teamingベンチマーク生成のためのフレームワーク
- Authors: Chaeyun Kim, YongTaek Lim, Kihyun Kim, Junghwan Kim, Minwoo Kim,
- Abstract要約: 私たちは、新しい文化的文脈にレッドチームプロンプトを適用するフレームワークであるCAGEを紹介します。
CAGEの中核はセマンティック・モールド(Semantic Mold)であり、これはプロンプトの敵対的構造をその文化的内容から切り離す新しいアプローチである。
CAGEは、さまざまな文化にまたがる有意義でコンテキスト対応の安全ベンチマークを開発するためのスケーラブルなソリューションを提供する。
- 参考スコア(独自算出の注目度): 10.479770708113268
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Existing red-teaming benchmarks, when adapted to new languages via direct translation, fail to capture socio-technical vulnerabilities rooted in local culture and law, creating a critical blind spot in LLM safety evaluation. To address this gap, we introduce CAGE (Culturally Adaptive Generation), a framework that systematically adapts the adversarial intent of proven red-teaming prompts to new cultural contexts. At the core of CAGE is the Semantic Mold, a novel approach that disentangles a prompt's adversarial structure from its cultural content. This approach enables the modeling of realistic, localized threats rather than testing for simple jailbreaks. As a representative example, we demonstrate our framework by creating KoRSET, a Korean benchmark, which proves more effective at revealing vulnerabilities than direct translation baselines. CAGE offers a scalable solution for developing meaningful, context-aware safety benchmarks across diverse cultures. Our dataset and evaluation rubrics are publicly available at https://github.com/selectstar-ai/CAGE-paper. (WARNING: This paper contains model outputs that can be offensive in nature.)
- Abstract(参考訳): 既存のRed-teamingベンチマークは、直接翻訳によって新しい言語に適合すると、地元の文化や法律に根ざした社会技術的脆弱性を捉えることができず、LLMの安全性評価において重要な盲点を生み出します。
CAGE(Culturally Adaptive Generation, 文化適応生成)は, 実証済みのレッドチームプロンプトの敵意を, 新たな文化的文脈に体系的に適応させるフレームワークである。
CAGEの中核はセマンティック・モールド(Semantic Mold)であり、これはプロンプトの敵対的構造をその文化的内容から切り離す新しいアプローチである。
このアプローチは、単純なジェイルブレイクのテストではなく、現実的で局所的な脅威のモデリングを可能にする。
代表的な例として、韓国のベンチマークであるKoRSETを作成し、直接翻訳ベースラインよりも脆弱性を明らかにするのが効果的であることを証明した。
CAGEは、さまざまな文化にまたがる有意義でコンテキスト対応の安全ベンチマークを開発するためのスケーラブルなソリューションを提供する。
データセットと評価ルーブリックはhttps://github.com/selectstar-ai/CAGE-paperで公開されています。
(注意:本論文は自然に有害なモデル出力を含む。)
関連論文リスト
- CORE: Context-Robust Remasking for Diffusion Language Models [51.59514489363897]
我々は、推論時リビジョンのためのトレーニング不要フレームワークであるContext-Robust Remasking (CORE)を提案する。
静的トークンの確率を信頼するのではなく、COREは、ターゲットとなるマスク付きコンテキストの摂動に対する感受性を示すことによって、コンテキスト不安定なトークンを識別する。
LLaDA-8B-Baseでは、COREは推論とコードベンチマークの間で一貫した改善を行い、計算に適合したベースラインを上回り、MBPPを最大9.2%改善した。
論文 参考訳(メタデータ) (2026-02-04T00:12:30Z) - Sentra-Guard: A Multilingual Human-AI Framework for Real-Time Defense Against Adversarial LLM Jailbreaks [0.31984926651189866]
Sentra-Guardは、大規模言語モデル(LLM)のためのリアルタイムモジュールディフェンスシステムである。
このフレームワークは、FAISSにインデックスされたSBERT埋め込み表現とハイブリッドアーキテクチャを使用して、プロンプトの意味をキャプチャする。
直接攻撃ベクトルと難解攻撃ベクトルの両方において、敵のプロンプトを識別する。
論文 参考訳(メタデータ) (2025-10-26T11:19:47Z) - Toxicity Red-Teaming: Benchmarking LLM Safety in Singapore's Low-Resource Languages [57.059267233093465]
大規模言語モデル(LLM)は自然言語処理を変革しているが、その安全性メカニズムは低リソースで多言語的な設定では未探索のままである。
シンガポールの多様な言語文脈におけるLLM安全性をベンチマークするための新しいデータセットおよび評価フレームワークであるtextsfSGToxicGuardを紹介した。
我々は最先端の多言語LLMによる広範囲な実験を行い、その安全ガードレールの限界を明らかにする。
論文 参考訳(メタデータ) (2025-09-18T08:14:34Z) - Toxicity-Aware Few-Shot Prompting for Low-Resource Singlish Translation [3.7678366606419345]
低リソースの言語ペア間の有害な内容の翻訳は、攻撃的な表現を衛生化するための並列データと安全フィルタの不足による課題を提起する。
コードミキシングされたSinglishセーフティコーパス上で実証された毒性保存翻訳のための2段階のフレームワークを提案する。
我々は,Singlishを包括的NLPテストベッドとして位置づけることにより,実世界の応用における社会言語的ニュアンスを維持することの重要性を強調した。
論文 参考訳(メタデータ) (2025-07-16T06:58:02Z) - SweEval: Do LLMs Really Swear? A Safety Benchmark for Testing Limits for Enterprise Use [6.563979395482773]
SweEvalは、トーン(正か負か)とコンテキスト(形式か非公式か)の異なる実世界のシナリオをシミュレートするベンチマークである。
プロンプトは、タスクを完了している間に、特定の誓約語を含むようモデルに明示的に指示する。
このベンチマークは、LLMがそのような不適切な指示に従うか否かを評価し、倫理的枠組み、文化的ニュアンス、言語理解能力との整合性を評価する。
論文 参考訳(メタデータ) (2025-05-22T22:56:58Z) - MrGuard: A Multilingual Reasoning Guardrail for Universal LLM Safety [56.77103365251923]
大規模言語モデル(LLM)は、ジェイルブレイクのような敵の攻撃を受けやすい。
この脆弱性は、多言語セーフティアライメントされたデータが制限される多言語設定で悪化する。
素早い分類のための多言語ガードレールを提案する。
論文 参考訳(メタデータ) (2025-04-21T17:15:06Z) - ELAB: Extensive LLM Alignment Benchmark in Persian Language [11.163681229983734]
本稿では,ペルシア語大言語モデルを批判的倫理的次元に整合させるための包括的評価枠組みを提案する。
ペルシャ語と文化の文脈に適応することで、既存のLLM評価フレームワークのギャップに対処する。
このベンチマークは、 (i) 翻訳データ、 (ii) 合成によって生成された新しいデータ、 (iii) 自然収集された新しいデータという3つのタイプのペルシア語ベンチマークを生成する。
論文 参考訳(メタデータ) (2025-04-17T00:50:41Z) - SCOPE: A Self-supervised Framework for Improving Faithfulness in Conditional Text Generation [55.61004653386632]
LLM(Large Language Models)は、しばしば幻覚(幻覚)を生成する。
本稿では,不信なサンプルのトレーニングセットを生成するための,新たな自己指導手法を提案する。
そしてトレーニングプロセスを使ってモデルを洗練し、不信なものよりも基礎的なアウトプットの生成を奨励します。
論文 参考訳(メタデータ) (2025-02-19T12:31:58Z) - FLIRT: Feedback Loop In-context Red Teaming [79.63896510559357]
ブラックボックスモデルを評価し,その脆弱性を明らかにする自動レッドチーム化フレームワークを提案する。
私たちのフレームワークは、レッドチームモデルに対するフィードバックループでコンテキスト内学習を使用し、それらを安全でないコンテンツ生成にトリガーします。
論文 参考訳(メタデータ) (2023-08-08T14:03:08Z) - Contextualized Perturbation for Textual Adversarial Attack [56.370304308573274]
逆例は自然言語処理(NLP)モデルの脆弱性を明らかにする。
本稿では,フロートおよび文法的出力を生成するContextualized AdversaRial Example生成モデルであるCLAREを提案する。
論文 参考訳(メタデータ) (2020-09-16T06:53:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。