論文の概要: CSRT: Evaluation and Analysis of LLMs using Code-Switching Red-Teaming Dataset
- arxiv url: http://arxiv.org/abs/2406.15481v1
- Date: Mon, 17 Jun 2024 06:08:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-01 06:51:29.418882
- Title: CSRT: Evaluation and Analysis of LLMs using Code-Switching Red-Teaming Dataset
- Title(参考訳): CSRT:コードスイッチング赤チームデータセットを用いたLCMの評価と解析
- Authors: Haneul Yoo, Yongjin Yang, Hwaran Lee,
- Abstract要約: Code-Switching Red-teaming (CSRT)は、大規模言語モデル(LLM)の多言語理解と安全性を同時にテストする、シンプルで効果的なレッドチーム技術である。
CSRTデータセットは、最大10言語を結合した315のコードスイッチングクエリからなり、望ましくない動作を広範囲に引き出す。
CSRTは、既存の英語の手法よりも46.7%のアタックを達成し、既存のマルチリンガル・リピート手法を著しく上回っていることを実証した。
- 参考スコア(独自算出の注目度): 10.154013836043816
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent studies in large language models (LLMs) shed light on their multilingual ability and safety, beyond conventional tasks in language modeling. Still, current benchmarks reveal their inability to comprehensively evaluate them and are excessively dependent on manual annotations. In this paper, we introduce code-switching red-teaming (CSRT), a simple yet effective red-teaming technique that simultaneously tests multilingual understanding and safety of LLMs. We release the CSRT dataset, which comprises 315 code-switching queries combining up to 10 languages and eliciting a wide range of undesirable behaviors. Through extensive experiments with ten state-of-the-art LLMs, we demonstrate that CSRT significantly outperforms existing multilingual red-teaming techniques, achieving 46.7% more attacks than existing methods in English. We analyze the harmful responses toward the CSRT dataset concerning various aspects under ablation studies with 16K samples, including but not limited to scaling laws, unsafe behavior categories, and input conditions for optimal data generation. Additionally, we validate the extensibility of CSRT, by generating code-switching attack prompts with monolingual data.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の研究は、言語モデリングにおける従来の課題を超えて、その多言語能力と安全性に光を当てている。
それでも、現在のベンチマークでは、包括的な評価ができず、手動のアノテーションに過度に依存していることが明らかになっている。
本稿では,LLMの多言語理解と安全性を同時にテストする,単純かつ効果的なリピート手法であるコードスイッチング・レッドチーム(CSRT)を提案する。
CSRTデータセットは、最大10言語を結合した315のコードスイッチングクエリからなり、望ましくない動作を広範囲に引き出す。
CSRTは10種類の最先端LCMによる広範囲な実験を通じて、既存の多言語的リピート技術よりも優れた性能を示し、既存の英語の手法よりも46.7%のアタックを達成している。
CSRTデータセットに対する有害な応答を,スケーリング法則,安全でない行動カテゴリー,最適データ生成のための入力条件を含む16Kサンプルを用いてアブレーション研究により分析した。
さらに、単言語データを用いてコードスイッチング攻撃プロンプトを生成することにより、CSRTの拡張性を検証する。
関連論文リスト
- Curiosity-driven Red-teaming for Large Language Models [43.448044721642916]
大規模言語モデル(LLM)は、多くの自然言語アプリケーションにとって大きな可能性を秘めているが、誤ったまたは有害なコンテンツを生成するリスクがある。
ヒューマンテスタにのみ依存することは、高価で時間を要する。
好奇心駆動型レッド・チームリング (CRT) の手法は, 既存の方法と比較して, 有効性を維持したり, 向上させたりしながら, テストケースのカバレッジを向上する。
論文 参考訳(メタデータ) (2024-02-29T18:55:03Z) - CIF-Bench: A Chinese Instruction-Following Benchmark for Evaluating the Generalizability of Large Language Models [53.9835961434552]
本研究では,中国語に対する大規模言語モデル(LLM)の一般化性を評価するために,中国語命令追跡ベンチマーク(CIF-Bench)を導入する。
CIF-Benchは150のタスクと15,000の入力出力ペアで構成され、複雑な推論と中国の文化的ニュアンスをテストするためにネイティブスピーカーによって開発された。
データ汚染を軽減するため、データセットの半分しか公開せず、残りは非公開であり、スコア分散を最小限に抑えるために多種多様な命令を導入する。
論文 参考訳(メタデータ) (2024-02-20T16:02:12Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z) - Multilingual Large Language Models Are Not (Yet) Code-Switchers [41.47534626749588]
大規模言語モデル(LLM)は、最近、幅広いタスクにおいて優れた機能を示している。
発話の中で言語を交互に行う習慣は、いまだにほとんど受け継がれていない。
LLMの現在の「多言語主義」は、本質的にはコードスイッチングテキストの習熟度を示唆していない、と我々は主張する。
論文 参考訳(メタデータ) (2023-05-23T16:50:48Z) - XTREME-UP: A User-Centric Scarce-Data Benchmark for Under-Represented
Languages [105.54207724678767]
データ不足は、多言語NLPシステムの開発において重要な問題である。
我々はXTREME-UPを提案する。XTREME-UPはゼロショットではなく、希少なデータシナリオに焦点を当てたベンチマークである。
XTREME-UPは、88言語にまたがる言語モデルが、9つのキーとなるユーザー中心技術上で機能する能力を評価する。
論文 参考訳(メタデータ) (2023-05-19T18:00:03Z) - Boosting Zero-shot Cross-lingual Retrieval by Training on Artificially
Code-Switched Data [26.38449396649045]
問合せや文書が言語によって異なる場合,ゼロショットローダの有効性は低下する。
そこで我々は,人工的なコード切替データに基づいてランキングモデルを訓練することを提案する。
論文 参考訳(メタデータ) (2023-05-09T09:32:19Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - CroCoSum: A Benchmark Dataset for Cross-Lingual Code-Switched Summarization [25.182666420286132]
自然に発生するCLSリソースの希少さを考えると、データセットの大部分は翻訳に頼らざるを得ない。
これにより、コードスイッチングのインスタンスを含む有機的辞書をキャプチャする自然発生のCLSペアを観測する能力を制限することができます。
我々はCroCoSumを紹介した。CroCoSumは、言語間のコード変更による技術ニュースの要約のデータセットである。
論文 参考訳(メタデータ) (2023-03-07T17:52:51Z) - Zero-Shot Cross-lingual Semantic Parsing [56.95036511882921]
7つのテスト言語に対する並列データを持たないゼロショット問題として,言語間セマンティックパーシングについて検討した。
英文論理形式ペアデータのみを用いて解析知識を付加言語に転送するマルチタスクエンコーダデコーダモデルを提案する。
このシステムは、ゼロショット解析を潜時空間アライメント問題としてフレーム化し、事前訓練されたモデルを改善し、最小のクロスリンガル転送ペナルティで論理形式を生成することができる。
論文 参考訳(メタデータ) (2021-04-15T16:08:43Z) - Evaluating Multilingual Text Encoders for Unsupervised Cross-Lingual
Retrieval [51.60862829942932]
本稿では,言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性に着目した体系的実証研究を行う。
文レベルのCLIRでは、最先端のパフォーマンスが達成できることを実証する。
しかし、ピーク性能は、汎用の多言語テキストエンコーダをオフ・ザ・シェルフで使うのではなく、文の理解タスクにさらに特化したバリエーションに依存している。
論文 参考訳(メタデータ) (2021-01-21T00:15:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。