論文の概要: Dye4AI: Assuring Data Boundary on Generative AI Services
- arxiv url: http://arxiv.org/abs/2406.14114v1
- Date: Thu, 20 Jun 2024 08:55:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-21 14:40:46.095456
- Title: Dye4AI: Assuring Data Boundary on Generative AI Services
- Title(参考訳): Dye4AI: 生成AIサービスにおけるデータバウンダリの保証
- Authors: Shu Wang, Kun Sun, Yan Zhai,
- Abstract要約: サードパーティのAIベンダによるセキュリティとプライバシに関する懸念は、センシティブなシナリオで広く採用されることを妨げる。
本研究では,人工トリガデータをAI対話に注入する染料試験システムDie4AIを提案する。
染料試験はトリガー生成,トリガー挿入,トリガー検索の3段階を含む。
- 参考スコア(独自算出の注目度): 12.49976555077629
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative artificial intelligence (AI) is versatile for various applications, but security and privacy concerns with third-party AI vendors hinder its broader adoption in sensitive scenarios. Hence, it is essential for users to validate the AI trustworthiness and ensure the security of data boundaries. In this paper, we present a dye testing system named Dye4AI, which injects crafted trigger data into human-AI dialogue and observes AI responses towards specific prompts to diagnose data flow in AI model evolution. Our dye testing procedure contains 3 stages: trigger generation, trigger insertion, and trigger retrieval. First, to retain both uniqueness and stealthiness, we design a new trigger that transforms a pseudo-random number to a intelligible format. Second, with a custom-designed three-step conversation strategy, we insert each trigger item into dialogue and confirm the model memorizes the new trigger knowledge in the current session. Finally, we routinely try to recover triggers with specific prompts in new sessions, as triggers can present in new sessions only if AI vendors leverage user data for model fine-tuning. Extensive experiments on six LLMs demonstrate our dye testing scheme is effective in ensuring the data boundary, even for models with various architectures and parameter sizes. Also, larger and premier models tend to be more suitable for Dye4AI, e.g., trigger can be retrieved in OpenLLaMa-13B even with only 2 insertions per trigger item. Moreover, we analyze the prompt selection in dye testing, providing insights for future testing systems on generative AI services.
- Abstract(参考訳): 生成人工知能(AI)は、さまざまなアプリケーションに汎用性があるが、サードパーティのAIベンダによるセキュリティとプライバシに関する懸念は、センシティブなシナリオへの導入を妨げている。
したがって、AIの信頼性を検証し、データバウンダリのセキュリティを確保することは、ユーザにとって不可欠である。
本稿では,AIモデル進化におけるデータフローの診断のために,人工的なトリガーデータを人-AI対話に注入し,AI応答を特定のプロンプトに向けて観察する染料試験システムDie4AIを提案する。
染料試験はトリガー生成,トリガー挿入,トリガー検索の3段階を含む。
まず、ユニークさとステルス性の両方を維持するために、擬似ランダム番号を不可知形式に変換する新しいトリガーを設計する。
第2に、カスタム設計の3段階会話戦略により、各トリガー項目を対話に挿入し、モデルが現在のセッションで新しいトリガー知識を記憶することを確認した。
最後に、AIベンダがモデル微調整にユーザデータを活用する場合にのみ、新たなセッションにトリガーが現れるため、新たなセッションで特定のプロンプトでトリガーを定期的にリカバリしようとします。
6つのLCMの大規模実験により,種々のアーキテクチャやパラメータサイズを持つモデルであっても,染料試験方式はデータ境界の確保に有効であることが示された。
また、大きくてプレミアなモデルの方がDie4AIに適している傾向があり、例えばトリガーはOpenLLaMa-13Bで1トリガーアイテムあたり2回しか挿入できない。
さらに、染料試験における迅速な選択を分析し、生成型AIサービスの将来のテストシステムに対する洞察を提供する。
関連論文リスト
- A Preliminary Study on Using Large Language Models in Software
Pentesting [2.0551676463612636]
大規模言語モデル(LLM)は、セキュリティタスクを自動化するための有望な可能性を提供すると考えられている。
ソフトウェアペンテスティングにおけるLLMの使用について検討し,ソースコード中のソフトウェアセキュリティ脆弱性を自動的に識別する作業を行う。
論文 参考訳(メタデータ) (2024-01-30T21:42:59Z) - Intrusion Detection System with Machine Learning and Multiple Datasets [0.0]
本稿では,機械学習(ML)を利用した拡張侵入検知システム(IDS)について検討する。
最終的に、この改良されたシステムは、非倫理的なハッカーによる攻撃に対抗するために使用できる。
論文 参考訳(メタデータ) (2023-12-04T14:58:19Z) - Getting pwn'd by AI: Penetration Testing with Large Language Models [0.0]
本稿では,GPT3.5のような大規模言語モデルによるAIスパーリングパートナーによる浸透テストの強化の可能性について検討する。
セキュリティテストの課題のためのハイレベルなタスクプランニングと、脆弱な仮想マシン内での低レベルな脆弱性ハンティングである。
論文 参考訳(メタデータ) (2023-07-24T19:59:22Z) - KECOR: Kernel Coding Rate Maximization for Active 3D Object Detection [48.66703222700795]
我々は、ラベルの取得に最も有用なポイントクラウドを特定するために、新しいカーネル戦略を利用する。
1段目(SECOND)と2段目(SECOND)の両方に対応するため、アノテーションに選択した境界ボックスの総数と検出性能のトレードオフをよく組み込んだ分類エントロピー接点を組み込んだ。
その結果,ボックスレベルのアノテーションのコストは約44%,計算時間は26%削減された。
論文 参考訳(メタデータ) (2023-07-16T04:27:03Z) - Dialogue-Contextualized Re-ranking for Medical History-Taking [5.039849340960835]
本稿では,第1段階の質問候補を再ランク付けすることで,トレーニングと推論のギャップを埋める2段階の再ランク付け手法を提案する。
専門家システムと比較して,提案するトランスフォーマーバックボーンを用いたグローバルリランカにより,最高の性能が得られることがわかった。
論文 参考訳(メタデータ) (2023-04-04T17:31:32Z) - Paraphrasing evades detectors of AI-generated text, but retrieval is an
effective defense [56.077252790310176]
本稿では,パラフレーズ生成モデル(DIPPER)を提案する。
DIPPERを使って3つの大きな言語モデル(GPT3.5-davinci-003)で生成されたテキストを言い換えると、透かしを含むいくつかの検出器を回避できた。
我々は,言語モデルAPIプロバイダによって維持されなければならない,意味論的に類似した世代を検索するシンプルなディフェンスを導入する。
論文 参考訳(メタデータ) (2023-03-23T16:29:27Z) - Can AI-Generated Text be Reliably Detected? [54.670136179857344]
LLMの規制されていない使用は、盗作、偽ニュースの生成、スパムなど、悪意のある結果をもたらす可能性がある。
最近の研究は、生成されたテキスト出力に存在する特定のモデルシグネチャを使用するか、透かし技術を適用してこの問題に対処しようとしている。
本稿では,これらの検出器は実用シナリオにおいて信頼性が低いことを示す。
論文 参考訳(メタデータ) (2023-03-17T17:53:19Z) - TRUST XAI: Model-Agnostic Explanations for AI With a Case Study on IIoT
Security [0.0]
我々は,トランスパラシー・アポン・統計理論(XAI)という普遍的XAIモデルを提案する。
TRUST XAIが, 平均成功率98%の新しいランダムサンプルについて, どのように説明するかを示す。
最後に、TRUSTがユーザに対してどのように説明されるかを示す。
論文 参考訳(メタデータ) (2022-05-02T21:44:27Z) - DialogVED: A Pre-trained Latent Variable Encoder-Decoder Model for
Dialog Response Generation [80.45816053153722]
DialogVEDは、拡張エンコーダデコーダ事前トレーニングフレームワークに連続潜伏変数を導入し、応答の関連性と多様性を高める。
我々は,PersonaChat,DailyDialog,DSTC7-AVSDベンチマークを用いて応答生成実験を行った。
論文 参考訳(メタデータ) (2022-04-27T16:18:15Z) - When Liebig's Barrel Meets Facial Landmark Detection: A Practical Model [87.25037167380522]
正確で、堅牢で、効率的で、一般化可能で、エンドツーエンドのトレーニングが可能なモデルを提案する。
精度を向上させるために,2つの軽量モジュールを提案する。
DQInitは、インプットからデコーダのクエリを動的に初期化し、複数のデコーダ層を持つものと同じ精度でモデルを実現する。
QAMemは、共有するクエリではなく、それぞれのクエリに別々のメモリ値を割り当てることで、低解像度のフィーチャーマップ上のクエリの識別能力を高めるように設計されている。
論文 参考訳(メタデータ) (2021-05-27T13:51:42Z) - AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses [97.50616524350123]
機能エンジニアリングなしで、どの発話やトークンが退屈であるかを動的に認識する対話モデルを構築します。
最初のモデルMinAvgOutは、各バッチの出力分布を通して、ダイバーシティスコアを直接最大化する。
第2のモデルであるラベルファインチューニング(LFT)は、多様性スコアによって連続的にスケールされたラベルをソースシーケンスにプリペイドし、多様性レベルを制御する。
3つ目のモデルであるRLは強化学習を採用し、多様性スコアを報奨信号として扱う。
論文 参考訳(メタデータ) (2020-01-15T18:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。