論文の概要: Hashmarks: Privacy-Preserving Benchmarks for High-Stakes AI Evaluation
- arxiv url: http://arxiv.org/abs/2312.00645v2
- Date: Mon, 25 Dec 2023 07:45:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 21:21:32.829697
- Title: Hashmarks: Privacy-Preserving Benchmarks for High-Stakes AI Evaluation
- Title(参考訳): Hashmarks:AI評価のためのプライバシ保護ベンチマーク
- Authors: Paul Bricman
- Abstract要約: 本稿では,適切な回答を開示することなく,オープンな言語モデルを評価するためのプロトコルであるハッシュマーキングを提案する。
最も単純な形式では、ハッシュマークは参照ソリューションが公開前に暗号的にハッシュ化されているベンチマークである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There is a growing need to gain insight into language model capabilities that
relate to sensitive topics, such as bioterrorism or cyberwarfare. However,
traditional open source benchmarks are not fit for the task, due to the
associated practice of publishing the correct answers in human-readable form.
At the same time, enforcing mandatory closed-quarters evaluations might stifle
development and erode trust. In this context, we propose hashmarking, a
protocol for evaluating language models in the open without having to disclose
the correct answers. In its simplest form, a hashmark is a benchmark whose
reference solutions have been cryptographically hashed prior to publication.
Following an overview of the proposed evaluation protocol, we go on to assess
its resilience against traditional attack vectors (e.g. rainbow table attacks),
as well as against failure modes unique to increasingly capable generative
models.
- Abstract(参考訳): バイオテロリズムやサイバー戦争のようなセンシティブなトピックに関連する言語モデルの能力に関する洞察を得る必要性が高まっている。
しかし、従来のオープンソースベンチマークは、正しい回答を人間に読める形で公開する習慣があるため、このタスクには適していない。
同時に、強制的な四半期評価の実施は、開発を阻害し、信頼を損なう可能性がある。
本稿では,正しい回答を開示することなく,オープンで言語モデルを評価するためのプロトコルであるhashmarkingを提案する。
最も単純な形式では、hashmarkは公開前に参照ソリューションが暗号的にハッシュ化されているベンチマークである。
提案した評価プロトコルの概要に続いて,従来の攻撃ベクトル(虹色のテーブルアタックなど)に対するレジリエンスや,より有能な生成モデルに特有の障害モードに対するレジリエンスを評価する。
関連論文リスト
- Provably Secure Disambiguating Neural Linguistic Steganography [66.30965740387047]
サブワードに基づく言語モデルを使用する際に生じるセグメンテーションの曖昧さ問題は、時にはデコード障害を引き起こす。
そこで我々はSyncPoolという,セグメンテーションのあいまいさ問題に効果的に対処する,セキュアな曖昧さ回避手法を提案する。
SyncPoolは、候補プールのサイズやトークンの分布を変えないため、確実に安全な言語ステガノグラフィー手法に適用できる。
論文 参考訳(メタデータ) (2024-03-26T09:25:57Z) - Towards Imperceptible Document Manipulations against Neural Ranking
Models [13.777462017782659]
本稿では,Imberceptible DocumEnt Manipulation (IDEM) というフレームワークを提案する。
IDEMは、BARTのような確立された生成言語モデルに、容易に検出できるエラーを発生させることなく、接続文を生成するよう指示する。
対象文書の流速と正しさを保ちながら, IDEM が強いベースラインを上回り得ることを示す。
論文 参考訳(メタデータ) (2023-05-03T02:09:29Z) - Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。
また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。
我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - Detecting Backdoors in Deep Text Classifiers [43.36440869257781]
本稿では,テキスト分類モデルに対するバックドア攻撃を一般化する,最初の堅牢な防御機構を提案する。
我々の技術は、データ中毒や重毒など、最先端のバックドア攻撃に対する防御に極めて正確です。
論文 参考訳(メタデータ) (2022-10-11T07:48:03Z) - A Unified Evaluation of Textual Backdoor Learning: Frameworks and
Benchmarks [72.7373468905418]
我々は,テキストバックドア学習の実装と評価を促進するオープンソースツールキットOpenBackdoorを開発した。
また,単純なクラスタリングに基づく防御ベースラインであるCUBEを提案する。
論文 参考訳(メタデータ) (2022-06-17T02:29:23Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z) - MASKER: Masked Keyword Regularization for Reliable Text Classification [73.90326322794803]
文脈に基づく予測を容易にする微調整手法であるマスク付きキーワード正規化(MASKER)を提案する。
maskerはモデルを規則化し、他の単語からキーワードを再構築し、十分な文脈なしに低信頼の予測を行う。
分類精度を低下させることなくOOD検出とクロスドメインの一般化を改善したMASKERを提案する。
論文 参考訳(メタデータ) (2020-12-17T04:54:16Z) - RobustBench: a standardized adversarial robustness benchmark [84.50044645539305]
ロバストネスのベンチマークにおける主な課題は、その評価がしばしばエラーを起こし、ロバストネス過大評価につながることである。
我々は,白箱攻撃と黒箱攻撃のアンサンブルであるAutoAttackを用いて,敵対的ロバスト性を評価する。
分散シフト,キャリブレーション,アウト・オブ・ディストリビューション検出,フェアネス,プライバシリーク,スムースネス,転送性に対するロバスト性の影響を解析した。
論文 参考訳(メタデータ) (2020-10-19T17:06:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。