論文の概要: TroubleLLM: Align to Red Team Expert
- arxiv url: http://arxiv.org/abs/2403.00829v1
- Date: Wed, 28 Feb 2024 03:40:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 23:07:50.846732
- Title: TroubleLLM: Align to Red Team Expert
- Title(参考訳): troublellm: red teamのエキスパートと一致
- Authors: Zhuoer Xu, Jianping Zhang, Shiwen Cui, Changhua Meng, Weiqiang Wang
- Abstract要約: 大きな言語モデル(LLM)は、望ましくない安全性の問題を示すのに潜在的に有害である。
安全問題に対する制御可能なテストプロンプトを生成するために,最初のLLMであるTroubleLLMを提案する。
- 参考スコア(独自算出の注目度): 36.05032354083237
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) become the start-of-the-art solutions for a
variety of natural language tasks and are integrated into real-world
applications. However, LLMs can be potentially harmful in manifesting
undesirable safety issues like social biases and toxic content. It is
imperative to assess its safety issues before deployment. However, the quality
and diversity of test prompts generated by existing methods are still far from
satisfactory. Not only are these methods labor-intensive and require large
budget costs, but the controllability of test prompt generation is lacking for
the specific testing domain of LLM applications. With the idea of LLM for LLM
testing, we propose the first LLM, called TroubleLLM, to generate controllable
test prompts on LLM safety issues. Extensive experiments and human evaluation
illustrate the superiority of TroubleLLM on generation quality and generation
controllability.
- Abstract(参考訳): 大規模言語モデル(llm)は、様々な自然言語タスクの最先端ソリューションとなり、現実世界のアプリケーションに統合される。
しかし、LSMは、社会的偏見や有害なコンテンツのような望ましくない安全性の問題を生じさせる可能性がある。
配備前に安全性の問題を評価することが不可欠である。
しかし、既存の方法によって生成されるテストプロンプトの品質と多様性は、まだ十分ではない。
これらの手法は労働集約的であり、大きな予算コストを必要とするだけでなく、LLMアプリケーションの特定のテスト領域に対してテストプロンプト生成の制御性が欠如している。
LLM テストのための LLM のアイデアにより,LLM の安全性に関する制御可能なテストプロンプトを生成する最初の LLM である TroubleLLM を提案する。
広範囲な実験と人的評価は、世代品質と世代制御性におけるトラブルの優越性を示している。
関連論文リスト
- LLM-Resistant Math Word Problem Generation via Adversarial Attacks [7.565175012136751]
大型言語モデル(LLM)は教育の景観を大きく変えた。
LLMは、問題の数値を単純に編集することで、誤った答えを生成する。
本稿では,高コストモデルを攻撃するための費用対効果のアプローチを提案する。
論文 参考訳(メタデータ) (2024-02-27T22:07:52Z) - Is LLM-as-a-Judge Robust? Investigating Universal Adversarial Attacks on
Zero-shot LLM Assessment [10.05719021957877]
テキストに付加された場合,LLMを騙して高い評価スコアを与える,短い普遍的なフレーズを検索する。
SummEval と TopicalChat の実験では、単純な結合攻撃に対して LLM-scoring と 2 対 LLM-comparativeアセスメントの両方が脆弱であることが示された。
これは、さまざまな判断-LLMサイズ、ファミリー、メソッドにまたがる敵の脆弱性の広範性を強調します。
論文 参考訳(メタデータ) (2024-02-21T18:55:20Z) - LM-Polygraph: Uncertainty Estimation for Language Models [71.21409522341482]
不確実性推定(UE)手法は、大規模言語モデル(LLM)の安全性、責任性、効果的な利用のための1つの経路である。
テキスト生成タスクにおけるLLMの最先端UEメソッドのバッテリを実装したフレームワークであるLM-PolygraphをPythonで統一したプログラムインタフェースで導入する。
研究者によるUEテクニックの一貫した評価のための拡張可能なベンチマークと、信頼スコア付き標準チャットダイアログを強化するデモWebアプリケーションを導入している。
論文 参考訳(メタデータ) (2023-11-13T15:08:59Z) - Knowing What LLMs DO NOT Know: A Simple Yet Effective Self-Detection
Method [37.61193254658253]
大規模言語モデル(LLM)は自然言語処理(NLP)タスクにおいて大きな可能性を示している。
近年の文献では、LLMは断続的に非実効応答を生成する。
本研究では,LLM が知らない質問が非現実的な結果を生成する傾向にあることを検知する新たな自己検出手法を提案する。
論文 参考訳(メタデータ) (2023-10-27T06:22:14Z) - She had Cobalt Blue Eyes: Prompt Testing to Create Aligned and
Sustainable Language Models [2.6089354079273512]
最近の出来事は、従来の訓練された大規模言語モデル(LLM)に関する倫理的懸念を示している
公平で安全で堅牢なLCMの開発を促進するための一連のプロンプトを紹介します。
テストスイートは、GPT-3.5, GPT-4, OPT, LLaMA-2の4つの最先端言語モデルの出力を評価する。
論文 参考訳(メタデータ) (2023-10-20T14:18:40Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Through the Lens of Core Competency: Survey on Evaluation of Large
Language Models [27.271533306818732]
大規模言語モデル(LLM)は優れた性能と幅広い実用性を持っている。
既存の評価タスクは、現実世界のシナリオにおける幅広いアプリケーションに追いつくのは難しい。
LLMの4つのコア能力は、推論、知識、信頼性、安全性などである。
この能力アーキテクチャの下では、類似したタスクを組み合わせて対応する能力を反映し、新しいタスクをシステムに簡単に追加することができる。
論文 参考訳(メタデータ) (2023-08-15T17:40:34Z) - A Survey on Evaluation of Large Language Models [87.60417393701331]
大規模言語モデル(LLM)は、学術と産業の両方で人気が高まっている。
本稿では,評価方法,評価方法,評価方法の3つの重要な側面に焦点をあてる。
論文 参考訳(メタデータ) (2023-07-06T16:28:35Z) - Red Teaming Language Model Detectors with Language Models [114.36392560711022]
大規模言語モデル(LLM)は、悪意のあるユーザによって悪用された場合、重大な安全性と倫理的リスクをもたらす。
近年,LLM生成テキストを検出し,LLMを保護するアルゴリズムが提案されている。
1) LLMの出力中の特定の単語を, 文脈が与えられたシノニムに置き換えること, 2) 生成者の書き方を変更するための指示プロンプトを自動で検索すること,である。
論文 参考訳(メタデータ) (2023-05-31T10:08:37Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。