Fugu-MT 論文翻訳(概要): CSRT: Evaluation and Analysis of LLMs using Code-Switching Red-Teaming Dataset

論文の概要: CSRT: Evaluation and Analysis of LLMs using Code-Switching Red-Teaming Dataset

arxiv url: http://arxiv.org/abs/2406.15481v1
Date: Mon, 17 Jun 2024 06:08:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-01 06:51:29.418882
Title: CSRT: Evaluation and Analysis of LLMs using Code-Switching Red-Teaming Dataset
Title（参考訳）: CSRT:コードスイッチング赤チームデータセットを用いたLCMの評価と解析
Authors: Haneul Yoo, Yongjin Yang, Hwaran Lee,
Abstract要約: Code-Switching Red-teaming (CSRT)は、大規模言語モデル(LLM)の多言語理解と安全性を同時にテストする、シンプルで効果的なレッドチーム技術である。 CSRTデータセットは、最大10言語を結合した315のコードスイッチングクエリからなり、望ましくない動作を広範囲に引き出す。 CSRTは、既存の英語の手法よりも46.7%のアタックを達成し、既存のマルチリンガル・リピート手法を著しく上回っていることを実証した。
参考スコア（独自算出の注目度）: 10.154013836043816
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent studies in large language models (LLMs) shed light on their multilingual ability and safety, beyond conventional tasks in language modeling. Still, current benchmarks reveal their inability to comprehensively evaluate them and are excessively dependent on manual annotations. In this paper, we introduce code-switching red-teaming (CSRT), a simple yet effective red-teaming technique that simultaneously tests multilingual understanding and safety of LLMs. We release the CSRT dataset, which comprises 315 code-switching queries combining up to 10 languages and eliciting a wide range of undesirable behaviors. Through extensive experiments with ten state-of-the-art LLMs, we demonstrate that CSRT significantly outperforms existing multilingual red-teaming techniques, achieving 46.7% more attacks than existing methods in English. We analyze the harmful responses toward the CSRT dataset concerning various aspects under ablation studies with 16K samples, including but not limited to scaling laws, unsafe behavior categories, and input conditions for optimal data generation. Additionally, we validate the extensibility of CSRT, by generating code-switching attack prompts with monolingual data.
Abstract（参考訳）: 大規模言語モデル(LLM)の最近の研究は、言語モデリングにおける従来の課題を超えて、その多言語能力と安全性に光を当てている。それでも、現在のベンチマークでは、包括的な評価ができず、手動のアノテーションに過度に依存していることが明らかになっている。本稿では,LLMの多言語理解と安全性を同時にテストする,単純かつ効果的なリピート手法であるコードスイッチング・レッドチーム(CSRT)を提案する。 CSRTデータセットは、最大10言語を結合した315のコードスイッチングクエリからなり、望ましくない動作を広範囲に引き出す。 CSRTは10種類の最先端LCMによる広範囲な実験を通じて、既存の多言語的リピート技術よりも優れた性能を示し、既存の英語の手法よりも46.7%のアタックを達成している。 CSRTデータセットに対する有害な応答を,スケーリング法則,安全でない行動カテゴリー,最適データ生成のための入力条件を含む16Kサンプルを用いてアブレーション研究により分析した。さらに、単言語データを用いてコードスイッチング攻撃プロンプトを生成することにより、CSRTの拡張性を検証する。

関連論文リスト

MR. Guard: Multilingual Reasoning Guardrail using Curriculum Learning [56.79292318645454]
大規模言語モデル(LLM)は、ジェイルブレイクのような敵の攻撃を受けやすい。この脆弱性は、多言語セーフティアライメントされたデータが制限される多言語設定で悪化する。推論を用いた多言語ガードレール構築手法を提案する。
論文参考訳（メタデータ） (2025-04-21T17:15:06Z)
Multi-lingual Multi-turn Automated Red Teaming for LLMs [4.707861373629172]
マルチリンガル・マルチターン・オートマチック・レッドチーム(textbfMM-ART)は、対話型・マルチリンガル・レッドチーム操作を完全に自動化する手法である。本研究は,英語の5ターン会話において,初回会話よりも平均71%脆弱であることを示す。英語以外の言語での会話では、標準のシングルターン英語アプローチよりも195%の安全性上の脆弱性がある。
論文参考訳（メタデータ） (2025-04-04T05:06:12Z)
Code-mixed LLM: Improve Large Language Models' Capability to Handle Code-Mixing through Reinforcement Learning from AI Feedback [11.223762031003671]
コードミキシングは、構文ミスマッチやセマンティックブレンディングなど、日常生活におけるユニークな課題を導入している。大規模言語モデル(LLM)は、人間の言語を理解するのに前例のない能力を提供することによって、自然言語処理(NLP)の分野に革命をもたらした。本稿では,人間フィードバック(RLHF)とコード混合機械翻訳タスクの強化学習を通じて,多言語LLMのコードミキシング理解能力を改善することを提案する。
論文参考訳（メタデータ） (2024-11-13T22:56:00Z)
Think Carefully and Check Again! Meta-Generation Unlocking LLMs for Low-Resource Cross-Lingual Summarization [108.6908427615402]
CLS(Cross-lingual summarization)は、異なるターゲット言語でソーステキストの要約を生成することを目的としている。現在、インストラクションチューニング付き大規模言語モデル (LLM) は様々な英語タスクで優れている。近年の研究では、LCSタスクにおけるLCMの性能は、わずかな設定でも満足できないことが示されている。
論文参考訳（メタデータ） (2024-10-26T00:39:44Z)
Can Code-Switched Texts Activate a Knowledge Switch in LLMs? A Case Study on English-Korean Code-Switching [14.841981996951395]
コードスイッチング(英語版) (CS) は微妙な文化的・言語的なニュアンスを伝えることができ、それ以外は翻訳で失われることがある。近年の多言語大言語モデル(LLM)は,CSの理解など,様々な面で優れた多言語能力を示す。
論文参考訳（メタデータ） (2024-10-24T05:14:03Z)
Bridging the Language Gap: Enhancing Multilingual Prompt-Based Code Generation in LLMs via Zero-Shot Cross-Lingual Transfer [5.355430735475281]
本稿では,多言語プロンプトベースのコード生成の複雑さについて検討する。評価の結果,非英語のプロンプトにおけるコード品質の相違が明らかとなった。本稿では,ニューラルプロジェクション手法を用いたゼロショット言語間アプローチを提案する。
論文参考訳（メタデータ） (2024-08-19T05:11:46Z)
Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。しかし、これらのモデルは言語間で対応する概念を関連付けることができ、効果的にクロスランガルなのでしょうか? 本研究は,言語横断的課題に関する6つの技術 LLM の評価を行った。
論文参考訳（メタデータ） (2024-06-23T15:15:17Z)
Getting More from Less: Large Language Models are Good Spontaneous Multilingual Learners [67.85635044939836]
大きな言語モデル(LLM)は印象的な言語機能を示している。本研究では,LLMの自然多言語アライメント改善について検討する。質問翻訳データ(すなわち注釈付き回答なし)に基づいて学習したLLMは、英語と幅広い言語との整合を促進できることがわかった。
論文参考訳（メタデータ） (2024-05-22T16:46:19Z)
IRCoder: Intermediate Representations Make Language Models Robust Multilingual Code Generators [49.903001442804594]
本研究では、コンパイラ中間表現(IR)を活用して、Code-LMの多言語機能を改善する可能性について検討する。まず,約400万のソースコードファイルからなる並列データセットであるSLTransをコンパイルする。次に、SLTransにおける因果言語モデリングトレーニングを継続して実施し、Code-LMはIR言語を学習せざるを得なかった。 IRCoderと呼ばれる結果のモデルは、さまざまなコード生成タスクやメトリクスに対して、サイズと一貫性のあるゲインを表示します。
論文参考訳（メタデータ） (2024-03-06T17:52:08Z)
UltraLink: An Open-Source Knowledge-Enhanced Multilingual Supervised Fine-tuning Dataset [69.33424532827608]
オープンソースの大規模言語モデル(LLM)は、様々な分野において大きな強みを持っている。本研究では,オープンソースの多言語教師付き微調整データセットを構築する。結果として得られたUltraLinkデータセットは、5つの言語にわたる約100万のサンプルで構成されている。
論文参考訳（メタデータ） (2024-02-07T05:05:53Z)
The Language Barrier: Dissecting Safety Challenges of LLMs in Multilingual Contexts [46.089025223336854]
本稿では,多言語にわたる大規模言語モデルが直面する安全上の課題の多様性について検討する。我々は、最先端のLLMが高レベルの言語と低レベルの言語で書かれた同じ悪意のあるプロンプトにどのように反応するかを比較する。
論文参考訳（メタデータ） (2024-01-23T23:12:09Z)
If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練されるコードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文参考訳（メタデータ） (2024-01-01T16:51:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。