Fugu-MT 論文翻訳(概要): Query-Efficient Black-Box Red Teaming via Bayesian Optimization

論文の概要: Query-Efficient Black-Box Red Teaming via Bayesian Optimization

arxiv url: http://arxiv.org/abs/2305.17444v1
Date: Sat, 27 May 2023 11:00:15 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-30 19:16:23.318956
Title: Query-Efficient Black-Box Red Teaming via Bayesian Optimization
Title（参考訳）: ベイジアン最適化によるクエリ効率の良いブラックボックスレッドチーム
Authors: Deokjae Lee, JunYeong Lee, Jung-Woo Ha, Jin-Hwa Kim, Sang-Woo Lee, Hwaran Lee, Hyun Oh Song
Abstract要約: ブラックボックスのレッドチームでは、レッドチームがテストケースを生成し、被害者モデルと対話し、クエリアクセスに制限のあるさまざまな障害セットを発見する。既存のレッドチーム方式は、人間の監督や言語モデル(LM)に基づいてテストケースを構築し、過去の評価から情報を取り入れることなく、残酷な方法で全てのテストケースをクエリする。我々は,事前定義されたユーザ入力プールと過去の評価を利用して,モデル失敗につながるさまざまなポジティブなテストケースを反復的に同定するベイズレッドチーム(BRT)を提案する。
参考スコア（独自算出の注目度）: 20.467851563437215
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The deployment of large-scale generative models is often restricted by their potential risk of causing harm to users in unpredictable ways. We focus on the problem of black-box red teaming, where a red team generates test cases and interacts with the victim model to discover a diverse set of failures with limited query access. Existing red teaming methods construct test cases based on human supervision or language model (LM) and query all test cases in a brute-force manner without incorporating any information from past evaluations, resulting in a prohibitively large number of queries. To this end, we propose Bayesian red teaming (BRT), novel query-efficient black-box red teaming methods based on Bayesian optimization, which iteratively identify diverse positive test cases leading to model failures by utilizing the pre-defined user input pool and the past evaluations. Experimental results on various user input pools demonstrate that our method consistently finds a significantly larger number of diverse positive test cases under the limited query budget than the baseline methods. The source code is available at https://github.com/snu-mllab/Bayesian-Red-Teaming.
Abstract（参考訳）: 大規模な生成モデルのデプロイは、予測不能な方法でユーザを害する潜在的なリスクによって、しばしば制限される。ブラックボックスのレッドチームでは、レッドチームがテストケースを生成し、被害者モデルと対話し、クエリアクセスに制限のあるさまざまな障害セットを発見する。既存のred teamingメソッドは、human supervision or language model(lm)に基づいたテストケースを構築し、過去の評価からの情報を取り込むことなく、すべてのテストケースをブルートフォースでクエリします。そこで本研究では,事前定義されたユーザ入力プールと過去の評価を用いて,モデル障害につながるさまざまなポジティブなテストケースを反復的に識別する,ベイズ最適化に基づくクエリ効率の高いブラックボックスレッドチーム化手法であるベイズレッドチーム化(brt)を提案する。様々なユーザ入力プールにおける実験結果から,本手法はベースライン手法よりも限定的なクエリ予算下での多種多様なポジティブテストケースを一貫して発見することが示された。ソースコードはhttps://github.com/snu-mllab/Bayesian-Red-Teamingで入手できる。

関連論文リスト

Text-Diffusion Red-Teaming of Large Language Models: Unveiling Harmful Behaviors with Proximity Constraints [20.542545906686318]
テキスト拡散モデルにインスパイアされたブラックボックスのレッドチーム方式: 監査とレッドチームのための拡散(DART)について紹介する。 DARTは、それを埋め込み空間に摂動させ、導入した変更量を直接制御することで参照プロンプトを変更する。以上の結果より,DARTは基準プロンプトに近接して有害な入力を発見できる可能性が示唆された。
論文参考訳（メタデータ） (2025-01-14T16:32:01Z)
Test-Time Alignment via Hypothesis Reweighting [56.71167047381817]
大規模な事前訓練されたモデルは、しばしば未指定のタスクで苦労する。テストタイムのユーザ意図にモデルを整合させるという課題に対処する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-12-11T23:02:26Z)
Robust Black-box Testing of Deep Neural Networks using Co-Domain Coverage [18.355332126489756]
信頼できるデプロイメントには、マシンラーニングモデルの厳格なテストが必要です。我々は、ディープニューラルネットワーク(DNN)の堅牢なテストのためのテストスーツを生成するための新しいブラックボックスアプローチを提案する。
論文参考訳（メタデータ） (2024-08-13T09:42:57Z)
On Speeding Up Language Model Evaluation [48.51924035873411]
LLM(Large Language Models)を用いたプロンプトベースの手法の開発には、多くの意思決定が必要である。この課題に対処するための新しい手法を提案する。典型的に必要とされるリソースの5～15%しか必要とせず,トップパフォーマンスの手法を識別できることが示される。
論文参考訳（メタデータ） (2024-07-08T17:48:42Z)
Curiosity-driven Red-teaming for Large Language Models [43.448044721642916]
大規模言語モデル(LLM)は、多くの自然言語アプリケーションにとって大きな可能性を秘めているが、誤ったまたは有害なコンテンツを生成するリスクがある。ヒューマンテスタにのみ依存することは、高価で時間を要する。好奇心駆動型レッド・チームリング (CRT) の手法は, 既存の方法と比較して, 有効性を維持したり, 向上させたりしながら, テストケースのカバレッジを向上する。
論文参考訳（メタデータ） (2024-02-29T18:55:03Z)
No Offense Taken: Eliciting Offensiveness from Language Models [0.3683202928838613]
我々はPerezらによる言語モデル付きレッドチーム言語モデル(2022年)に焦点を当てている。コントリビューションには、レッドチームによる自動テストケース生成のためのパイプラインの開発が含まれています。我々は、広くデプロイされたLMから攻撃応答を引き出すのに役立つテストケースのコーパスを生成する。
論文参考訳（メタデータ） (2023-10-02T04:17:35Z)
How Predictable Are Large Language Model Capabilities? A Case Study on BIG-bench [52.11481619456093]
実験記録におけるBIGベンチの性能予測問題について検討する。 95%以上のR2$スコアは、実験記録の中に学習可能なパターンが存在することを示している。 BIG-bench Hardのように新しいモデルファミリーを評価できるサブセットが3倍程度小さくなっています。
論文参考訳（メタデータ） (2023-05-24T09:35:34Z)
Query Efficient Cross-Dataset Transferable Black-Box Attack on Action Recognition [99.29804193431823]
ブラックボックスの敵攻撃は、行動認識システムに現実的な脅威をもたらす。本稿では,摂動を発生させることにより,これらの欠点に対処する新たな行動認識攻撃を提案する。提案手法は,最先端のクエリベースおよび転送ベース攻撃と比較して,8%,12%の偽装率を達成する。
論文参考訳（メタデータ） (2022-11-23T17:47:49Z)
Red Teaming Language Models with Language Models [8.237872606555383]
言語モデル(LM)は、予測が難しい方法でユーザを傷つける可能性があるため、デプロイできないことが多い。以前の作業では、ヒューマンアノテータを使ってテストケースを手書きすることで、デプロイ前に有害な振る舞いを特定する。本研究では、別のLMを用いてテストケース(「レッドチーム」)を生成することにより、標的のLMが有害な振る舞いをするケースを自動的に見つける。
論文参考訳（メタデータ） (2022-02-07T15:22:17Z)
Examining and Combating Spurious Features under Distribution Shift [94.31956965507085]
我々は、最小限の統計量という情報理論の概念を用いて、ロバストで刺激的な表現を定義し、分析する。入力分布のバイアスしか持たない場合でも、モデルはトレーニングデータから急激な特徴を拾い上げることができることを証明しています。分析から着想を得た結果,グループDROは,グループ同士の相関関係を直接考慮しない場合に失敗する可能性が示唆された。
論文参考訳（メタデータ） (2021-06-14T05:39:09Z)
Improving Query Efficiency of Black-box Adversarial Attack [75.71530208862319]
ニューラルプロセスに基づくブラックボックス対逆攻撃(NP-Attack)を提案する。 NP-Attackはブラックボックス設定でクエリ数を大幅に削減できる。
論文参考訳（メタデータ） (2020-09-24T06:22:56Z)
Beyond Accuracy: Behavioral Testing of NLP models with CheckList [66.42971817954806]
CheckList は NLP モデルをテストするためのタスクに依存しない方法論である。 CheckListには、包括的なテストのアイデアを促進する一般的な言語機能とテストタイプのマトリックスが含まれている。ユーザスタディでは、CheckListのNLP実践者が2倍の数のテストを作成し、それのないユーザの約3倍のバグを発見しました。
論文参考訳（メタデータ） (2020-05-08T15:48:31Z)
Bayes-TrEx: a Bayesian Sampling Approach to Model Transparency by Example [9.978961706999833]
フレキシブルなモデル検査フレームワークであるBayes-TrExを紹介します。データ分布を仮定すると、Bayes-TrEx は特定の予測信頼度を持つ分布内例を見つける。このフレームワークは、単にテストセットを検査するだけでなく、より柔軟な全体論的モデル解析を可能にする。
論文参考訳（メタデータ） (2020-02-19T15:49:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。