論文の概要: Lessons from Defending Gemini Against Indirect Prompt Injections
- arxiv url: http://arxiv.org/abs/2505.14534v1
- Date: Tue, 20 May 2025 15:54:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:53.548245
- Title: Lessons from Defending Gemini Against Indirect Prompt Injections
- Title(参考訳): 間接的プロンプト注入に対する防御ジェミニからの教訓
- Authors: Chongyang Shi, Sharon Lin, Shuang Song, Jamie Hayes, Ilia Shumailov, Itay Yona, Juliette Pluto, Aneesh Pappu, Christopher A. Choquette-Choo, Milad Nasr, Chawin Sitawarin, Gena Gibson, Andreas Terzis, John "Four" Flynn,
- Abstract要約: Google DeepMindのアプローチで、Geminiモデルの対角的堅牢性を評価することにしました。
我々は,敵対的評価フレームワークを用いて,ジェミニが高度な敵に対してどのように機能するかを検証する。
これらの継続的な評価が、Geminiの操作に対する耐性を高めるのにどのように役立つかを説明している。
- 参考スコア(独自算出の注目度): 35.71262470624052
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Gemini is increasingly used to perform tasks on behalf of users, where function-calling and tool-use capabilities enable the model to access user data. Some tools, however, require access to untrusted data introducing risk. Adversaries can embed malicious instructions in untrusted data which cause the model to deviate from the user's expectations and mishandle their data or permissions. In this report, we set out Google DeepMind's approach to evaluating the adversarial robustness of Gemini models and describe the main lessons learned from the process. We test how Gemini performs against a sophisticated adversary through an adversarial evaluation framework, which deploys a suite of adaptive attack techniques to run continuously against past, current, and future versions of Gemini. We describe how these ongoing evaluations directly help make Gemini more resilient against manipulation.
- Abstract(参考訳): Geminiは、関数呼び出しとツール使用機能によって、モデルがユーザデータにアクセスできるようにする、ユーザに代わってタスクを実行するために、ますます使用されている。
しかし、いくつかのツールは、リスクをもたらす信頼できないデータにアクセスする必要がある。
管理者は信頼できないデータに悪意のある命令を埋め込むことができ、モデルがユーザの期待から逸脱し、データやパーミッションを誤った扱いをする。
本稿では,Google DeepMindのアプローチを用いて,Geminiモデルの対角的堅牢性を評価し,そのプロセスから学んだ主な教訓を説明する。
我々は、Geminiの過去、現在、将来のバージョンに対して継続的に実行される適応的な攻撃テクニックのスイートをデプロイする、敵評価フレームワークを通じて、高度な敵に対して、Geminiがどのように機能するかをテストする。
これらの継続的な評価が、Geminiの操作に対する耐性を高めるのにどのように役立つかを説明している。
関連論文リスト
- Privacy Attacks in Decentralized Learning [10.209045867868674]
Decentralized Gradient Descent (D-GD)は、データを共有することなく、複数のユーザが協調学習を行うことを可能にする。
本稿では,D-GDに対する最初の攻撃を提案する。
実際のグラフやデータセットに対する攻撃の有効性を検証することで、単一の攻撃者や少数の攻撃者によって侵入されたユーザの数が驚くほど大きいことを示しています。
論文 参考訳(メタデータ) (2024-02-15T15:06:33Z) - Protecting Model Adaptation from Trojans in the Unlabeled Data [120.42853706967188]
本稿では,よく設計された毒物標的データによるモデル適応に対するトロイの木馬攻撃の可能性について検討する。
本稿では,既存の適応アルゴリズムとシームレスに統合可能なDiffAdaptというプラグイン・アンド・プレイ手法を提案する。
論文 参考訳(メタデータ) (2024-01-11T16:42:10Z) - Adversarial Attacks are a Surprisingly Strong Baseline for Poisoning
Few-Shot Meta-Learners [28.468089304148453]
これにより、システムの学習アルゴリズムを騙すような、衝突する入力セットを作れます。
ホワイトボックス環境では、これらの攻撃は非常に成功しており、ターゲットモデルの予測が偶然よりも悪化する可能性があることを示す。
攻撃による「過度な対応」と、攻撃が生成されたモデルと攻撃が転送されたモデルとのミスマッチという2つの仮説を探索する。
論文 参考訳(メタデータ) (2022-11-23T14:55:44Z) - Debiasing Learning for Membership Inference Attacks Against Recommender
Systems [79.48353547307887]
学習されたレコメンデータシステムは、トレーニングデータに関する情報を不注意に漏洩させ、プライバシー侵害につながる可能性がある。
我々は,推薦者システムによるプライバシー上の脅威を,会員推定のレンズを通して調査する。
本稿では,4つの主要コンポーネントを持つリコメンダシステム(DL-MIA)フレームワークに対する,メンバシップ推論攻撃に対するバイアス学習を提案する。
論文 参考訳(メタデータ) (2022-06-24T17:57:34Z) - A Unified Evaluation of Textual Backdoor Learning: Frameworks and
Benchmarks [72.7373468905418]
我々は,テキストバックドア学習の実装と評価を促進するオープンソースツールキットOpenBackdoorを開発した。
また,単純なクラスタリングに基づく防御ベースラインであるCUBEを提案する。
論文 参考訳(メタデータ) (2022-06-17T02:29:23Z) - Sampling Attacks: Amplification of Membership Inference Attacks by
Repeated Queries [74.59376038272661]
本手法は,他の標準メンバーシップ相手と異なり,被害者モデルのスコアにアクセスできないような厳格な制限の下で動作可能な,新しいメンバーシップ推論手法であるサンプリングアタックを導入する。
ラベルのみを公開している被害者モデルでは,攻撃のサンプリングが引き続き可能であり,攻撃者はその性能の最大100%を回復できることを示す。
防衛においては,被害者モデルのトレーニング中の勾配摂動と予測時の出力摂動の形式で差分プライバシーを選択する。
論文 参考訳(メタデータ) (2020-09-01T12:54:54Z) - Revisiting Adversarially Learned Injection Attacks Against Recommender
Systems [6.920518936054493]
本稿では,逆学習型インジェクションアタック問題を再考する。
我々は、最適化問題として偽ユーザーを生成するための正確な解決策が、はるかに大きな影響をもたらすことを示している。
論文 参考訳(メタデータ) (2020-08-11T17:30:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。