Fugu-MT 論文翻訳(概要): DuoGuard: A Two-Player RL-Driven Framework for Multilingual LLM Guardrails

論文の概要: DuoGuard: A Two-Player RL-Driven Framework for Multilingual LLM Guardrails

arxiv url: http://arxiv.org/abs/2502.05163v1
Date: Fri, 07 Feb 2025 18:45:03 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-10 18:29:33.279872
Title: DuoGuard: A Two-Player RL-Driven Framework for Multilingual LLM Guardrails
Title（参考訳）: DuoGuard: マルチリンガルLLMガードレールのためのツープレイRL駆動フレームワーク
Authors: Yihe Deng, Yu Yang, Junkai Zhang, Wei Wang, Bo Li,
Abstract要約: 本稿では,多言語ガードレール学習のための高品質な合成データを生成するために,ジェネレータとガードレールモデルが逆方向に共進化する新しい2要素強化学習フレームワークを提案する。実験により、我々のモデルは最先端モデルよりも優れており、LlamaGuard3よりも10%近く改善されていることが示された。
参考スコア（独自算出の注目度）: 12.621656255109546
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The rapid advancement of large language models (LLMs) has increased the need for guardrail models to ensure responsible use, particularly in detecting unsafe and illegal content. While substantial safety data exist in English, multilingual guardrail modeling remains underexplored due to the scarcity of open-source safety data in other languages. To address this gap, we propose a novel two-player Reinforcement Learning (RL) framework, where a generator and a guardrail model co-evolve adversarially to produce high-quality synthetic data for multilingual guardrail training. We theoretically formalize this interaction as a two-player game, proving convergence to a Nash equilibrium. Empirical evaluations show that our model \ours outperforms state-of-the-art models, achieving nearly 10% improvement over LlamaGuard3 (8B) on English benchmarks while being 4.5x faster at inference with a significantly smaller model (0.5B). We achieve substantial advancements in multilingual safety tasks, particularly in addressing the imbalance for lower-resource languages in a collected real dataset. Ablation studies emphasize the critical role of synthetic data generation in bridging the imbalance in open-source data between English and other languages. These findings establish a scalable and efficient approach to synthetic data generation, paving the way for improved multilingual guardrail models to enhance LLM safety. Code, model, and data will be open-sourced at https://github.com/yihedeng9/DuoGuard.
Abstract（参考訳）: 大規模言語モデル(LLM)の急速な進歩により、特に安全でない、違法なコンテンツの検出において、責任ある使用を保証するためのガードレールモデルの必要性が高まっている。英語ではかなりの安全データが存在しているが、他の言語でのオープンソースの安全データが不足しているため、多言語ガードレールモデリングは未探索のままである。このギャップに対処するために,多言語ガードレールトレーニングのための高品質な合成データを生成するために,ジェネレータとガードレールモデルが対角的に共進化する新しい2要素強化学習(RL)フレームワークを提案する。理論的には、この相互作用を2人プレイヤゲームとして定式化し、ナッシュ均衡への収束を証明する。実験的な評価の結果,我々のモデルは最先端モデルよりも優れており,LlamaGuard3 (8B) よりも約10%向上し,推定精度は0.5B(0.5B)で4.5倍向上した。我々は多言語安全タスクにおいて,特に収集された実データセットにおける低リソース言語の不均衡に対処する上で,大幅な進歩を実現している。アブレーション研究は、英語と他の言語間のオープンソースデータの不均衡をブリッジする上で、合成データ生成の重要性を強調している。これらの知見は,LLMの安全性を高めるため,多言語ガードレールモデルの改良手法として,スケーラブルで効率的な合成データ生成手法を確立した。コード、モデル、データはhttps://github.com/yihedeng9/DuoGuard.comでオープンソース化される。

関連論文リスト

CultureGuard: Towards Culturally-Aware Dataset and Guard Model for Multilingual Safety Applications [1.235687336222824]
CultureGuardは、文化的に整列した高品質な安全データセットを複数の言語でキュレートするための新しいソリューションです。提案手法では,文化データ分離,文化データ適応,機械翻訳,品質フィルタリングという,4段階の合成データ生成とフィルタリングパイプラインを導入している。得られたデータセットであるNemotron-Content-Safety-Dataset-Multilingual-v1は、9言語で386,661のサンプルで構成され、LoRAベースの微細チューニングを通じてLlama-3.1-Nemotron-Safety-Guard-Multilingual-8B-v1のトレーニングを容易にする。
論文参考訳（メタデータ） (2025-08-03T10:35:05Z)
Seed-X: Building Strong Multilingual Translation LLM with 7B Parameters [53.59868121093848]
7Bパラメータサイズを持つオープンソースの言語モデル(LLM)のファミリーであるSeed-Xを紹介する。ベースモデルは、28言語にわたるモノリンガルコンテンツとバイリンガルコンテンツの両方を含む、多種多様な高品質データセットで事前訓練されている。その後、インストラクションモデルは、Chain-of-Thought(CoT)推論によって翻訳され、強化学習(RL)によりさらに強化され、多様な言語対をまたいだより良い一般化が達成される。
論文参考訳（メタデータ） (2025-07-18T03:19:43Z)
Lightweight Safety Guardrails via Synthetic Data and RL-guided Adversarial Training [0.1533068702686808]
小規模の言語モデルは、コンテンツモデレーションタスクにおけるより大きな言語のパフォーマンスを達成し、さらに上回ることができる。これは高忠実な合成データ生成と逆行訓練によって達成される。
論文参考訳（メタデータ） (2025-07-11T03:17:58Z)
MR. Guard: Multilingual Reasoning Guardrail using Curriculum Learning [56.79292318645454]
大規模言語モデル(LLM)は、ジェイルブレイクのような敵の攻撃を受けやすい。この脆弱性は、多言語セーフティアライメントされたデータが制限される多言語設定で悪化する。推論を用いた多言語ガードレール構築手法を提案する。
論文参考訳（メタデータ） (2025-04-21T17:15:06Z)
Enhancing Code Generation for Low-Resource Languages: No Silver Bullet [55.39571645315926]
大規模言語モデル(LLM)は、プログラミング言語の構文、意味論、使用パターンを学ぶために、大規模で多様なデータセットに依存している。低リソース言語では、そのようなデータの限られた可用性は、モデルを効果的に一般化する能力を損なう。本稿では,低リソース言語におけるLLMの性能向上のためのいくつかの手法の有効性を実証研究する。
論文参考訳（メタデータ） (2025-01-31T12:23:28Z)
Unlocking the Potential of Model Merging for Low-Resource Languages [66.7716891808697]
大規模言語モデルを新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。我々は低リソース言語の代替としてモデルマージを提案し、異なる機能を持つモデルを追加トレーニングなしで単一のモデルに組み合わせる。 Llama-2-7Bをベースとした実験により、モデルマージはタスク解決能力の低い低リソース言語に対して、極めて少ないデータを持つシナリオにおいて、CT-then-SFTよりも優れていることが実証された。
論文参考訳（メタデータ） (2024-07-04T15:14:17Z)
Language Portability Strategies for Open-domain Dialogue with Pre-trained Language Models from High to Low Resource Languages [1.7436854281619139]
オープンドメイン対話システムに使用される大規模事前学習言語モデル(PLM)の言語ポータビリティ戦略について検討する。特に、ターゲットの低リソース言語(L_T)は、タスク固有のリソースがないため、フランス語でシミュレートされる。
論文参考訳（メタデータ） (2024-07-01T14:20:54Z)
ColBERT-XM: A Modular Multi-Vector Representation Model for Zero-Shot Multilingual Information Retrieval [10.664434993386523]
現在のアプローチは、非英語言語における高品質なラベル付きデータの欠如を回避している。本稿では,単一の高リソース言語のリッチデータから学習するモジュール型高密度検索モデルを提案する。
論文参考訳（メタデータ） (2024-02-23T02:21:24Z)
Cross-Lingual NER for Financial Transaction Data in Low-Resource Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文参考訳（メタデータ） (2023-07-16T00:45:42Z)
Extrapolating Multilingual Understanding Models as Multilingual Generators [82.1355802012414]
本稿では,多言語理解モデルに統一モデルを得るための生成能力を付与する手法について検討する。少数の新しいパラメータを持つ多言語ジェネレータにエンコーダを適用するために,textbfSemantic-textbfGuided textbfAlignment-then-Denoising (SGA)アプローチを提案する。
論文参考訳（メタデータ） (2023-05-22T15:33:21Z)
InfoBERT: Improving Robustness of Language Models from An Information Theoretic Perspective [84.78604733927887]
BERTのような大規模言語モデルは、幅広いNLPタスクで最先端のパフォーマンスを実現している。近年の研究では、このようなBERTベースのモデルが、テキストの敵対的攻撃の脅威に直面していることが示されている。本稿では,事前学習した言語モデルの堅牢な微調整のための新しい学習フレームワークであるInfoBERTを提案する。
論文参考訳（メタデータ） (2020-10-05T20:49:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。