論文の概要: Dye4AI: Assuring Data Boundary on Generative AI Services
- arxiv url: http://arxiv.org/abs/2406.14114v1
- Date: Thu, 20 Jun 2024 08:55:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-21 14:40:46.095456
- Title: Dye4AI: Assuring Data Boundary on Generative AI Services
- Title(参考訳): Dye4AI: 生成AIサービスにおけるデータバウンダリの保証
- Authors: Shu Wang, Kun Sun, Yan Zhai,
- Abstract要約: サードパーティのAIベンダによるセキュリティとプライバシに関する懸念は、センシティブなシナリオで広く採用されることを妨げる。
本研究では,人工トリガデータをAI対話に注入する染料試験システムDie4AIを提案する。
染料試験はトリガー生成,トリガー挿入,トリガー検索の3段階を含む。
- 参考スコア(独自算出の注目度): 12.49976555077629
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative artificial intelligence (AI) is versatile for various applications, but security and privacy concerns with third-party AI vendors hinder its broader adoption in sensitive scenarios. Hence, it is essential for users to validate the AI trustworthiness and ensure the security of data boundaries. In this paper, we present a dye testing system named Dye4AI, which injects crafted trigger data into human-AI dialogue and observes AI responses towards specific prompts to diagnose data flow in AI model evolution. Our dye testing procedure contains 3 stages: trigger generation, trigger insertion, and trigger retrieval. First, to retain both uniqueness and stealthiness, we design a new trigger that transforms a pseudo-random number to a intelligible format. Second, with a custom-designed three-step conversation strategy, we insert each trigger item into dialogue and confirm the model memorizes the new trigger knowledge in the current session. Finally, we routinely try to recover triggers with specific prompts in new sessions, as triggers can present in new sessions only if AI vendors leverage user data for model fine-tuning. Extensive experiments on six LLMs demonstrate our dye testing scheme is effective in ensuring the data boundary, even for models with various architectures and parameter sizes. Also, larger and premier models tend to be more suitable for Dye4AI, e.g., trigger can be retrieved in OpenLLaMa-13B even with only 2 insertions per trigger item. Moreover, we analyze the prompt selection in dye testing, providing insights for future testing systems on generative AI services.
- Abstract(参考訳): 生成人工知能(AI)は、さまざまなアプリケーションに汎用性があるが、サードパーティのAIベンダによるセキュリティとプライバシに関する懸念は、センシティブなシナリオへの導入を妨げている。
したがって、AIの信頼性を検証し、データバウンダリのセキュリティを確保することは、ユーザにとって不可欠である。
本稿では,AIモデル進化におけるデータフローの診断のために,人工的なトリガーデータを人-AI対話に注入し,AI応答を特定のプロンプトに向けて観察する染料試験システムDie4AIを提案する。
染料試験はトリガー生成,トリガー挿入,トリガー検索の3段階を含む。
まず、ユニークさとステルス性の両方を維持するために、擬似ランダム番号を不可知形式に変換する新しいトリガーを設計する。
第2に、カスタム設計の3段階会話戦略により、各トリガー項目を対話に挿入し、モデルが現在のセッションで新しいトリガー知識を記憶することを確認した。
最後に、AIベンダがモデル微調整にユーザデータを活用する場合にのみ、新たなセッションにトリガーが現れるため、新たなセッションで特定のプロンプトでトリガーを定期的にリカバリしようとします。
6つのLCMの大規模実験により,種々のアーキテクチャやパラメータサイズを持つモデルであっても,染料試験方式はデータ境界の確保に有効であることが示された。
また、大きくてプレミアなモデルの方がDie4AIに適している傾向があり、例えばトリガーはOpenLLaMa-13Bで1トリガーアイテムあたり2回しか挿入できない。
さらに、染料試験における迅速な選択を分析し、生成型AIサービスの将来のテストシステムに対する洞察を提供する。
関連論文リスト
- Visual Counter Turing Test (VCT^2): Discovering the Challenges for AI-Generated Image Detection and Introducing Visual AI Index (V_AI) [5.8695051911828555]
最近のAI生成画像検出(AGID)には、CNN検出、NPR、DM画像検出、フェイク画像検出、DIRE、LASTED、GAN画像検出、AIDE、SP、DRCT、RINE、OCC-CLIP、De-Fake、Deep Fake Detectionが含まれる。
本稿では,テキスト・ツー・イメージ・モデルによって生成される130K画像からなるベンチマークであるVisual Counter Turing Test (VCT2)を紹介する。
VCT$2$ベンチマークで前述のAGID技術の性能を評価し、AI生成の検出におけるその非効率性を強調した。
論文 参考訳(メタデータ) (2024-11-24T06:03:49Z) - SONAR: A Synthetic AI-Audio Detection Framework and Benchmark [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供することを目的としている。
従来のモデルとファンデーションベースのディープフェイク検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - Detecting Machine-Generated Long-Form Content with Latent-Space Variables [54.07946647012579]
既存のゼロショット検出器は主に、現実世界のドメインシフトに弱いトークンレベルの分布に焦点を当てている。
本稿では,イベント遷移などの抽象的要素を機械対人文検出の鍵となる要因として組み込んだ,より堅牢な手法を提案する。
論文 参考訳(メタデータ) (2024-10-04T18:42:09Z) - A Preliminary Study on Using Large Language Models in Software
Pentesting [2.0551676463612636]
大規模言語モデル(LLM)は、セキュリティタスクを自動化するための有望な可能性を提供すると考えられている。
ソフトウェアペンテスティングにおけるLLMの使用について検討し,ソースコード中のソフトウェアセキュリティ脆弱性を自動的に識別する作業を行う。
論文 参考訳(メタデータ) (2024-01-30T21:42:59Z) - Intrusion Detection System with Machine Learning and Multiple Datasets [0.0]
本稿では,機械学習(ML)を利用した拡張侵入検知システム(IDS)について検討する。
最終的に、この改良されたシステムは、非倫理的なハッカーによる攻撃に対抗するために使用できる。
論文 参考訳(メタデータ) (2023-12-04T14:58:19Z) - KECOR: Kernel Coding Rate Maximization for Active 3D Object Detection [48.66703222700795]
我々は、ラベルの取得に最も有用なポイントクラウドを特定するために、新しいカーネル戦略を利用する。
1段目(SECOND)と2段目(SECOND)の両方に対応するため、アノテーションに選択した境界ボックスの総数と検出性能のトレードオフをよく組み込んだ分類エントロピー接点を組み込んだ。
その結果,ボックスレベルのアノテーションのコストは約44%,計算時間は26%削減された。
論文 参考訳(メタデータ) (2023-07-16T04:27:03Z) - Dialogue-Contextualized Re-ranking for Medical History-Taking [5.039849340960835]
本稿では,第1段階の質問候補を再ランク付けすることで,トレーニングと推論のギャップを埋める2段階の再ランク付け手法を提案する。
専門家システムと比較して,提案するトランスフォーマーバックボーンを用いたグローバルリランカにより,最高の性能が得られることがわかった。
論文 参考訳(メタデータ) (2023-04-04T17:31:32Z) - Paraphrasing evades detectors of AI-generated text, but retrieval is an
effective defense [56.077252790310176]
本稿では,パラフレーズ生成モデル(DIPPER)を提案する。
DIPPERを使って3つの大きな言語モデル(GPT3.5-davinci-003)で生成されたテキストを言い換えると、透かしを含むいくつかの検出器を回避できた。
我々は,言語モデルAPIプロバイダによって維持されなければならない,意味論的に類似した世代を検索するシンプルなディフェンスを導入する。
論文 参考訳(メタデータ) (2023-03-23T16:29:27Z) - TRUST XAI: Model-Agnostic Explanations for AI With a Case Study on IIoT
Security [0.0]
我々は,トランスパラシー・アポン・統計理論(XAI)という普遍的XAIモデルを提案する。
TRUST XAIが, 平均成功率98%の新しいランダムサンプルについて, どのように説明するかを示す。
最後に、TRUSTがユーザに対してどのように説明されるかを示す。
論文 参考訳(メタデータ) (2022-05-02T21:44:27Z) - DialogVED: A Pre-trained Latent Variable Encoder-Decoder Model for
Dialog Response Generation [80.45816053153722]
DialogVEDは、拡張エンコーダデコーダ事前トレーニングフレームワークに連続潜伏変数を導入し、応答の関連性と多様性を高める。
我々は,PersonaChat,DailyDialog,DSTC7-AVSDベンチマークを用いて応答生成実験を行った。
論文 参考訳(メタデータ) (2022-04-27T16:18:15Z) - AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses [97.50616524350123]
機能エンジニアリングなしで、どの発話やトークンが退屈であるかを動的に認識する対話モデルを構築します。
最初のモデルMinAvgOutは、各バッチの出力分布を通して、ダイバーシティスコアを直接最大化する。
第2のモデルであるラベルファインチューニング(LFT)は、多様性スコアによって連続的にスケールされたラベルをソースシーケンスにプリペイドし、多様性レベルを制御する。
3つ目のモデルであるRLは強化学習を採用し、多様性スコアを報奨信号として扱う。
論文 参考訳(メタデータ) (2020-01-15T18:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。