論文の概要: Unlocking LLM Safeguards for Low-Resource Languages via Reasoning and Alignment with Minimal Training Data
- arxiv url: http://arxiv.org/abs/2510.10677v1
- Date: Sun, 12 Oct 2025 16:05:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.061343
- Title: Unlocking LLM Safeguards for Low-Resource Languages via Reasoning and Alignment with Minimal Training Data
- Title(参考訳): 最小トレーニングデータを用いた推論とアライメントによる低リソース言語のためのLLMセーフガードのアンロック
- Authors: Zhuowei Chen, Bowei Zhang, Nankai Lin, Tian Hou, Lianxi Wang,
- Abstract要約: 本稿では、推論による説明可能性を高め、アライメントによる言語間の知識伝達を促進する新しい推論に基づく多言語セーフガードを提案する。
トレーニングサンプルはわずか1,000で,6言語にまたがる3つのデータセットに対して優れた性能を示し,さらに多くのデータで訓練された大規模モデルよりも優れた性能を示し,高い解釈性と一般化能力を示す。
- 参考スコア(独自算出の注目度): 9.30969710371555
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in LLMs have enhanced AI capabilities, but also increased the risk posed by malicious requests, highlighting the need for effective LLM safeguards to detect such queries. Existing approaches largely rely on classifier-based methods that lack interpretability and perform poorly on low-resource languages. To address these limitations, we propose ConsistentGuard, a novel reasoning-based multilingual safeguard, which enhances explainability via reasoning and boosts knowledge transfer between languages through alignment. With only 1,000 training samples, our method demonstrates superior performance on three datasets across six languages, outperforming larger models trained with significantly more data, and exhibits strong interpretability and generalization ability. We also contribute a multilingual benchmark extension and release our codes to support future research.
- Abstract(参考訳): LLMの最近の進歩は、AI能力の向上に加えて、悪意のある要求によって引き起こされるリスクを増大させ、そのようなクエリを検出する効果的なLLMセーフガードの必要性を強調している。
既存のアプローチは、解釈可能性に欠ける分類器ベースの手法に大きく依存しており、低リソース言語では性能が悪い。
これらの制約に対処するため,新しい推論に基づく多言語安全ガードであるConsistentGuardを提案し,推論による説明可能性を高め,アライメントによる言語間の知識伝達を促進する。
トレーニングサンプルはわずか1,000で,6言語にまたがる3つのデータセットに対して優れた性能を示し,さらに多くのデータで訓練された大規模モデルよりも優れた性能を示し,高い解釈性と一般化能力を示す。
また、多言語ベンチマーク拡張にもコントリビュートし、将来の研究をサポートするためのコードをリリースしています。
関連論文リスト
- Large Language Models for Multilingual Vulnerability Detection: How Far Are We? [13.269680075539135]
多言語脆弱性検出のための事前学習言語モデル(PLM)と大規模言語モデル(LLM)の有効性を評価する。
7つの言語にまたがる3万以上の現実世界の脆弱性修正パッチを使用して、機能レベルとラインレベルの両方でモデルパフォーマンスを評価します。
GPT-4oはインストラクションチューニングと数発のプロンプトによって強化され、他の評価モデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2025-06-09T07:27:49Z) - Is Small Language Model the Silver Bullet to Low-Resource Languages Machine Translation? [18.975160361440597]
低リソース言語 (LRL) には十分な言語資源がなく、ベンチマークデータセットでは不足している。
本研究では,200言語を対象に,最先端の小型言語モデルを体系的に評価する。
論文 参考訳(メタデータ) (2025-03-31T13:56:03Z) - Enhancing Code Generation for Low-Resource Languages: No Silver Bullet [55.39571645315926]
大規模言語モデル(LLM)は、プログラミング言語の構文、意味論、使用パターンを学ぶために、大規模で多様なデータセットに依存している。
低リソース言語では、そのようなデータの限られた可用性は、モデルを効果的に一般化する能力を損なう。
本稿では,低リソース言語におけるLLMの性能向上のためのいくつかの手法の有効性を実証研究する。
論文 参考訳(メタデータ) (2025-01-31T12:23:28Z) - Think Carefully and Check Again! Meta-Generation Unlocking LLMs for Low-Resource Cross-Lingual Summarization [108.6908427615402]
CLS(Cross-lingual summarization)は、異なるターゲット言語でソーステキストの要約を生成することを目的としている。
現在、インストラクションチューニング付き大規模言語モデル (LLM) は様々な英語タスクで優れている。
近年の研究では、LCSタスクにおけるLCMの性能は、わずかな設定でも満足できないことが示されている。
論文 参考訳(メタデータ) (2024-10-26T00:39:44Z) - The Language Barrier: Dissecting Safety Challenges of LLMs in
Multilingual Contexts [46.089025223336854]
本稿では,多言語にわたる大規模言語モデルが直面する安全上の課題の多様性について検討する。
我々は、最先端のLLMが高レベルの言語と低レベルの言語で書かれた同じ悪意のあるプロンプトにどのように反応するかを比較する。
論文 参考訳(メタデータ) (2024-01-23T23:12:09Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。