論文の概要: TWGuard: A Case Study of LLM Safety Guardrails for Localized Linguistic Contexts
- arxiv url: http://arxiv.org/abs/2604.16542v1
- Date: Fri, 17 Apr 2026 01:55:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.063466
- Title: TWGuard: A Case Study of LLM Safety Guardrails for Localized Linguistic Contexts
- Title(参考訳): TWGuard:局所言語文脈におけるLLM安全ガードレールの事例研究
- Authors: Hua-Rong Chu, Kuan-Chun Wang, Yao-Te Huang,
- Abstract要約: 安全ガードレールは、大規模言語モデル(LLM)の適切な振る舞いを保証することを目的とした、AI安全の研究の活発な領域となっている。
既存の研究は、言語や文化の文脈におけるニュアンスを考慮していないため、報告されたパフォーマンスと、その効果のギャップが生じる。
本稿では,局所的な言語特性に合わせたキュレートされたデータセットを活用することにより,指定された言語文脈に対するガードレールモデルを最適化する手法を提案する。
- 参考スコア(独自算出の注目度): 0.1019561860229868
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Safety guardrails have become an active area of research in AI safety, aimed at ensuring the appropriate behavior of large language models (LLMs). However, existing research lacks consideration of nuances across linguistic and cultural contexts, resulting in a gap between reported performance and in-the-wild effectiveness. To address this issue, this paper proposes an approach to optimize guardrail models for a designated linguistic context by leveraging a curated dataset tailored to local linguistic characteristics, targeting the Taiwan linguistic context as a representative example of localized deployment challenges. The proposed approach yields TWGuard, a linguistic context-optimized guardrail model that achieves a huge gain (+0.289 in F1) compared to the foundation model and significantly outperforms the strongest baseline in practical use (-0.037 in false positive rate, a 94.9\% reduction). Together, this work lays a foundation for regional communities to establish AI safety standards grounded in their own linguistic contexts, rather than accepting boundaries imposed by dominant languages. The inadequacy of the latter is reconfirmed by our findings.
- Abstract(参考訳): 安全ガードレールは、大規模言語モデル(LLM)の適切な振る舞いを保証することを目的とした、AI安全の研究の活発な領域となっている。
しかし、既存の研究は言語や文化の文脈におけるニュアンスを考慮していないため、報告された性能とその効果の差が生じる。
そこで本研究では,台湾の言語コンテキストを対象とし,局所的な展開課題の代表的な例として,局所的な言語特性に合わせたキュレートデータセットを活用することにより,指定された言語文脈に対するガードレールモデルの最適化手法を提案する。
提案手法は,基礎モデルと比較して大きな利得(+0.289 in F1)を達成する言語文脈最適化ガードレールモデルであるTWGuardを導出し,実用において最強のベースライン(偽陽性率-0.037,94.9\%)を著しく上回っている。
この研究は、地域コミュニティにとって、支配的な言語によって課される境界を受け入れるのではなく、独自の言語文脈に根ざしたAI安全標準を確立するための基盤となる。
後者の不適切さは、我々の発見によって再確認される。
関連論文リスト
- LASA: Language-Agnostic Semantic Alignment at the Semantic Bottleneck for LLM Safety [88.98698230989186]
大規模言語モデル(LLM)は、しばしば高リソース言語で強力な安全性性能を示すが、低リソース言語では深刻な脆弱性を示す。
このギャップは、言語に依存しない意味理解能力と、高リソース言語に偏った言語に支配的な安全アライメントのミスマッチによるものと考えられる。
セマンティック・アライメント(LASA)を提案し,セマンティック・ボトルネックに直接安全アライメントを固定する。
論文 参考訳(メタデータ) (2026-04-13T15:59:50Z) - CREST: Universal Safety Guardrails Through Cluster-Guided Cross-Lingual Transfer [0.5729426778193399]
CRESTはパラメータ効率のよい多言語安全分類モデルであり、0.5Bパラメータしか持たない100言語をサポートする。
13の高リソース言語の戦略的に選択されたサブセットをトレーニングすることで、クラスタベースのクロスランガルトランスファーを利用する。
このアプローチは、低リソース環境での限られたトレーニングデータの課題に対処する。
論文 参考訳(メタデータ) (2025-12-02T12:41:48Z) - MrGuard: A Multilingual Reasoning Guardrail for Universal LLM Safety [56.77103365251923]
大規模言語モデル(LLM)は、ジェイルブレイクのような敵の攻撃を受けやすい。
この脆弱性は、多言語セーフティアライメントされたデータが制限される多言語設定で悪化する。
素早い分類のための多言語ガードレールを提案する。
論文 参考訳(メタデータ) (2025-04-21T17:15:06Z) - Learning Natural Language Constraints for Safe Reinforcement Learning of Language Agents [13.63944785085617]
一般化可能なアライメントは、現実世界のNLPアプリケーションにLLM(Large Language Models)を安全にデプロイする上で、重要な課題である。
チューニング前にデータを最初にキュレートするパラダイムシフトに触発されて、安全な言語アライメントのための新しいフレームワークを導入しました。
制約付きマルコフ決定プロセス(CMDP)内のフレームワークを形式化し,テキストベースのナビゲーション環境を通じて検証する。
論文 参考訳(メタデータ) (2025-04-04T05:26:28Z) - Enhancing adversarial robustness in Natural Language Inference using explanations [41.46494686136601]
自然言語推論(NLI)の未探索課題に注目点を当てた。
我々は、広範囲な実験を通じて、モデルに依存しない防衛戦略として、自然言語説明の使用を検証した。
本研究では,広範に使用されている言語生成指標と人間の知覚との相関について検討し,それらが堅牢なNLIモデルへのプロキシとして機能するようにした。
論文 参考訳(メタデータ) (2024-09-11T17:09:49Z) - Sharif-STR at SemEval-2024 Task 1: Transformer as a Regression Model for Fine-Grained Scoring of Textual Semantic Relations [2.3145162209342685]
本稿では,RoBERTa変換器の微調整技術を利用して,トラックA内の文レベルSTR(Supervised)について検討する。
以上の結果から,特にラテン言語におけるSTR性能の有望な進歩が示唆された。
しかし、我々のアプローチはアラビア語のような言語で困難に遭遇し、わずか0.38の相関しか見られず、結果として20位になった。
論文 参考訳(メタデータ) (2024-07-17T09:25:18Z) - The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.40766216456413]
大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメントフレームワークを提案する。
実験結果から、さまざまな推論シナリオ、モデルファミリー、サイズにわたって、多言語のパフォーマンスを向上できることが示された。
我々は、表現空間、生成された応答とデータスケールを分析し、質問翻訳訓練がLLM内の言語アライメントをどのように強化するかを明らかにする。
論文 参考訳(メタデータ) (2024-05-02T14:49:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。