論文の概要: AART: AI-Assisted Red-Teaming with Diverse Data Generation for New
LLM-powered Applications
- arxiv url: http://arxiv.org/abs/2311.08592v2
- Date: Wed, 29 Nov 2023 23:18:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 19:49:20.378700
- Title: AART: AI-Assisted Red-Teaming with Diverse Data Generation for New
LLM-powered Applications
- Title(参考訳): AART: 新しいLLMアプリケーションのためのAI支援型リレーショナルデータ生成
- Authors: Bhaktipriya Radharapu, Kevin Robinson, Lora Aroyo, Preethi Lahoti
- Abstract要約: 大規模言語モデル(LLM)のアドバイザリテストは、安全で責任のあるデプロイメントに不可欠である。
本稿では,新しい下流アプリケーション上でのLCM生成の安全性をテストするために,逆評価データセットの自動生成のための新しいアプローチを提案する。
AI支援のレッドチーム(AART)と呼ばれています。
- 参考スコア(独自算出の注目度): 5.465142671132731
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adversarial testing of large language models (LLMs) is crucial for their safe
and responsible deployment. We introduce a novel approach for automated
generation of adversarial evaluation datasets to test the safety of LLM
generations on new downstream applications. We call it AI-assisted Red-Teaming
(AART) - an automated alternative to current manual red-teaming efforts. AART
offers a data generation and augmentation pipeline of reusable and customizable
recipes that reduce human effort significantly and enable integration of
adversarial testing earlier in new product development. AART generates
evaluation datasets with high diversity of content characteristics critical for
effective adversarial testing (e.g. sensitive and harmful concepts, specific to
a wide range of cultural and geographic regions and application scenarios). The
data generation is steered by AI-assisted recipes to define, scope and
prioritize diversity within the application context. This feeds into a
structured LLM-generation process that scales up evaluation priorities.
Compared to some state-of-the-art tools, AART shows promising results in terms
of concept coverage and data quality.
- Abstract(参考訳): 大規模言語モデル(LLM)のアドバイザリテストは、安全で責任のあるデプロイメントに不可欠である。
本稿では,新しい下流アプリケーションにおけるllm生成の安全性をテストするために,逆評価データセットの自動生成手法を提案する。
AI支援のレッドチーム(AART)と呼ばれています。
aartは、再利用可能なカスタマイズ可能なレシピによるデータ生成と拡張のパイプラインを提供し、人的労力を大幅に削減し、新しい製品開発の早い段階で敵対的テストの統合を可能にする。
AARTは、効果的な敵対的テスト(例えば、広範囲の文化的・地理的領域や応用シナリオに特有で有害な概念)に不可欠な、コンテンツ特性の多様性の高い評価データセットを生成する。
データ生成はAI支援のレシピによって制御され、アプリケーションコンテキスト内の多様性を定義し、スコープし、優先順位付けする。
これは、評価優先順位をスケールアップする構造化LCM生成プロセスに影響を及ぼす。
最先端のツールと比較すると、aartはコンセプトカバレッジとデータ品質の観点から有望な結果を示している。
関連論文リスト
- SIRST-5K: Exploring Massive Negatives Synthesis with Self-supervised
Learning for Robust Infrared Small Target Detection [53.19618419772467]
単一フレーム赤外線小ターゲット検出(SIRST)は、乱雑な背景から小さなターゲットを認識することを目的としている。
Transformerの開発に伴い、SIRSTモデルのスケールは常に増大している。
赤外線小ターゲットデータの多彩な多様性により,本アルゴリズムはモデル性能と収束速度を大幅に改善する。
論文 参考訳(メタデータ) (2024-03-08T16:14:54Z) - Automatic Speech Recognition using Advanced Deep Learning Approaches: A
survey [3.0528929038141484]
近年のディープラーニング(DL)の進歩は,自動音声認識(ASR)にとって重要な課題となっている。
ASRは、秘密のデータセットを含む広範なトレーニングデータセットに依存しており、かなりの計算とストレージリソースを必要としている。
ディープトランスファーラーニング(DTL)、フェデレーションラーニング(FL)、強化ラーニング(RL)といった高度なDL技術はこれらの問題に対処する。
論文 参考訳(メタデータ) (2024-03-02T16:25:42Z) - Retrieval-Augmented Generation for AI-Generated Content: A Survey [36.577189818885486]
このような課題に対処するためのパラダイムとして,レトリーバル拡張生成(RAG)が登場している。
RAGは情報検索プロセスを導入し、利用可能なデータストアから関連オブジェクトを検索することでAIGC結果を強化する。
本稿では,RAG手法をAIGCシナリオに統合する既存の取り組みを概観的にレビューする。
論文 参考訳(メタデータ) (2024-02-29T18:59:01Z) - Model Stealing Attack against Graph Classification with Authenticity,
Uncertainty and Diversity [85.1927483219819]
GNNは、クエリ許可を通じてターゲットモデルを複製するための悪行であるモデル盗難攻撃に対して脆弱である。
異なるシナリオに対応するために,3つのモデルステルス攻撃を導入する。
論文 参考訳(メタデータ) (2023-12-18T05:42:31Z) - Quality In / Quality Out: Assessing Data quality in an Anomaly Detection
Benchmark [0.13764085113103217]
同じベンチマークデータセット(異常検出のためのフローベースリアルタイムデータセットであるUGR'16)に対する比較的小さな変更は、考慮した機械学習技術よりも、モデルパフォーマンスに著しく影響することを示します。
この結果から,自律型ネットワークにおけるデータ品質評価と最適化技術に,より注意を払う必要があることが示唆された。
論文 参考訳(メタデータ) (2023-05-31T12:03:12Z) - On the Robustness of Aspect-based Sentiment Analysis: Rethinking Model,
Data, and Training [109.9218185711916]
アスペクトベースの感情分析(ABSA)は、ソーシャルメディアのテキストやレビューの背後にある製品やサービスの特定の側面に対して、特定の感情の極性を自動的に推測することを目的としている。
我々は、モデル、データ、トレーニングを含むあらゆる可能な角度からボトルネックを体系的に再考することで、ABSAの堅牢性を高めることを提案する。
論文 参考訳(メタデータ) (2023-04-19T11:07:43Z) - Unsupervised Domain Adaptive Learning via Synthetic Data for Person
Re-identification [101.1886788396803]
人物再識別(re-ID)は、ビデオ監視に広く応用されているため、ますます注目を集めている。
残念なことに、主流のディープラーニング手法では、モデルをトレーニングするために大量のラベル付きデータが必要です。
本稿では,コンピュータゲーム内で合成されたre-IDサンプルを自動的に生成するデータコレクタを開発し,同時にアノテートするデータラベラを構築した。
論文 参考訳(メタデータ) (2021-09-12T15:51:41Z) - Enhancing the Generalization for Intent Classification and Out-of-Domain
Detection in SLU [70.44344060176952]
インテント分類は、音声言語理解(SLU)における主要な課題である
近年の研究では、余分なデータやラベルを使用することで、OOD検出性能が向上することが示されている。
本稿では、IND意図分類とOOD検出の両方をサポートしながら、INDデータのみを用いてモデルを訓練することを提案する。
論文 参考訳(メタデータ) (2021-06-28T08:27:38Z) - DAGA: Data Augmentation with a Generation Approach for Low-resource
Tagging Tasks [88.62288327934499]
線形化ラベル付き文に基づいて訓練された言語モデルを用いた新しい拡張手法を提案する。
本手法は, 教師付き設定と半教師付き設定の両方に適用可能である。
論文 参考訳(メタデータ) (2020-11-03T07:49:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。