論文の概要: Self-interpreting Adversarial Images
- arxiv url: http://arxiv.org/abs/2407.08970v3
- Date: Mon, 27 Jan 2025 23:57:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-30 02:41:34.896698
- Title: Self-interpreting Adversarial Images
- Title(参考訳): 自己解釈型逆画像
- Authors: Tingwei Zhang, Collin Zhang, John X. Morris, Eugene Bagdasarian, Vitaly Shmatikov,
- Abstract要約: 視覚言語モデルに対する間接的・相互モーダルなインジェクション攻撃を新たに導入する。
画像には隠れた「メタインストラクション」が含まれており、モデルがユーザーのイメージに関する質問にどう答えるかを制御する。
- 参考スコア(独自算出の注目度): 7.985140438089331
- License:
- Abstract: We introduce a new type of indirect, cross-modal injection attacks against visual language models that enable creation of self-interpreting images. These images contain hidden "meta-instructions" that control how models answer users' questions about the image and steer their outputs to express an adversary-chosen style, sentiment, or point of view. Self-interpreting images act as soft prompts, conditioning the model to satisfy the adversary's (meta-)objective while still producing answers based on the image's visual content. Meta-instructions are thus a stronger form of prompt injection. Adversarial images look natural and the model's answers are coherent and plausible--yet they also follow the adversary-chosen interpretation, e.g., political spin, or even objectives that are not achievable with explicit text instructions. We evaluate the efficacy of self-interpreting images for a variety of models, interpretations, and user prompts. We describe how these attacks could cause harm by enabling creation of self-interpreting content that carries spam, misinformation, or spin. Finally, we discuss defenses.
- Abstract(参考訳): 本稿では,視覚言語モデルに対する間接的・相互モーダルな新たなインジェクション・アタックを導入し,自己解釈画像の作成を可能にする。
これらの画像には隠れた「メタインストラクション」が含まれており、モデルがユーザーのイメージに関する質問にどう答えるかを制御し、相手のスタイル、感情、視点を表現するためにアウトプットを操る。
自己解釈画像はソフトプロンプトとして機能し、画像の視覚的内容に基づいて答えを生成しながら、相手の(メタ-)対象を満足するようにモデルを条件付ける。
したがってメタインストラクションはプロンプトインジェクションのより強力な形式である。
敵対的イメージは自然に見え、モデルの答えは一貫性があり、妥当である。
我々は,様々なモデル,解釈,ユーザプロンプトに対する自己解釈画像の有効性を評価する。
これらの攻撃が、スパム、誤情報、スピンを含む自己解釈コンテンツの作成を可能にすることによって、どのように害を引き起こすかを説明する。
最後に、防衛について論じる。
関連論文リスト
- Natural Language Induced Adversarial Images [14.415478695871604]
本稿では,自然言語による逆画像攻撃手法を提案する。
中心となる考え方は、入力プロンプトが与えられた逆画像を生成するために、テキスト・ツー・イメージモデルを活用することである。
実験の結果,"foggy","humid","stretching"などの高周波意味情報が誤りを生じやすいことがわかった。
論文 参考訳(メタデータ) (2024-10-11T08:36:07Z) - Backdooring Bias into Text-to-Image Models [16.495996266157274]
敵がバックドア攻撃によって任意のバイアスを加えることで、良質なユーザーが画像を生成することさえも影響することを示した。
私たちの攻撃は、テキストプロンプトで与えられた意味情報を保存しているため、ステルス状態のままです。
我々は、現在の最先端の生成モデルが、この攻撃を安価かつあらゆる敵に対して実現可能であることを示す。
論文 参考訳(メタデータ) (2024-06-21T14:53:19Z) - Lyrics: Boosting Fine-grained Language-Vision Alignment and Comprehension via Semantic-aware Visual Objects [11.117055725415446]
LVLM(Large Vision Language Models)は、様々な視覚言語対話シナリオにおいて、印象的なゼロショット機能を示す。
きめ細かい視覚オブジェクト検出がないことは、画像の詳細を理解するのを妨げ、不可分な視覚幻覚や事実的誤りを引き起こす。
リリックス(Lyrics)は、視覚言語アライメントを微粒なクロスモーダル協調からブートストラップする、新しいマルチモーダル事前学習および微調整パラダイムである。
論文 参考訳(メタデータ) (2023-12-08T09:02:45Z) - InstructTA: Instruction-Tuned Targeted Attack for Large Vision-Language Models [13.21813503235793]
大規模視覚言語モデル(LVLM)は、画像理解と応答生成において、その驚くべき能力を示した。
本稿では,被害者LVLMの視覚エンコーダのみを敵が知ることのできる,新規で実用的な攻撃シナリオを定式化する。
本研究では,LVLMに対して高い転送性を有する目標対向攻撃を実現するために,命令調整型ターゲットアタック(dubed textscInstructTA)を提案する。
論文 参考訳(メタデータ) (2023-12-04T13:40:05Z) - ImageBrush: Learning Visual In-Context Instructions for Exemplar-Based
Image Manipulation [49.07254928141495]
我々は、より正確な画像編集のための視覚的指示を学習する、ImageBrushと呼ばれる新しい操作手法を提案する。
私たちのキーとなるアイデアは、人間の意図を正確に捉えた2つの変換画像を視覚的指示として使うことです。
提案モデルでは,ポーズ伝達,画像翻訳,映像インパインティングなどの下流タスクに対して,ロバストな一般化機能を示す。
論文 参考訳(メタデータ) (2023-08-02T01:57:11Z) - Goal Representations for Instruction Following: A Semi-Supervised
Language Interface to Control [58.06223121654735]
本稿では,少数の言語データのみを用いて,共同画像と目標条件のポリシーを言語と併用する手法を提案する。
本手法は,言語を目標画像と一致させないラベル付きデータから埋め込みを学習することにより,実世界のロバストな性能を実現する。
ラベル付きデータの外部の言語命令に一般化して,様々な操作タスクをさまざまな場面で追従する命令を示す。
論文 参考訳(メタデータ) (2023-06-30T20:09:39Z) - Perceptual Grouping in Contrastive Vision-Language Models [59.1542019031645]
画像内の物体の位置を視覚言語モデルで理解し,画像の視覚的関連部分をグループ化する方法について述べる。
本稿では,意味情報と空間情報の両方を一意に学習するモデルとして,最小限の修正を提案する。
論文 参考訳(メタデータ) (2022-10-18T17:01:35Z) - Visual Clues: Bridging Vision and Language Foundations for Image
Paragraph Captioning [78.07495777674747]
我々は、視覚的手がかりを用いて、大きな事前訓練された視覚基盤モデルと言語モデルをブリッジすることで、余分なクロスモーダルトレーニングなしでそれを行うことができると論じる。
基礎モデルの強力なゼロショット機能のおかげで、画像のリッチなセマンティック表現を構築することから始める。
大規模言語モデルを用いて視覚的コンテンツを包括的に記述し、視覚モデルによって再度検証し、画像に最適な候補を選択する。
論文 参考訳(メタデータ) (2022-06-03T22:33:09Z) - Caption Enriched Samples for Improving Hateful Memes Detection [78.5136090997431]
憎しみのあるミームの挑戦は、ミームが憎悪であるか否かを決定するのが困難であることを示している。
ユニモーダル言語モデルとマルチモーダル視覚言語モデルの両方が人間のパフォーマンスレベルに到達できない。
論文 参考訳(メタデータ) (2021-09-22T10:57:51Z) - Probing Contextual Language Models for Common Ground with Visual
Representations [76.05769268286038]
我々は、マッチングと非マッチングの視覚表現を区別する上で、テキストのみの表現がいかに効果的かを評価するための探索モデルを設計する。
以上の結果から,言語表現だけでは,適切な対象カテゴリから画像パッチを検索する強力な信号が得られることがわかった。
視覚的に接地された言語モデルは、例えば検索においてテキストのみの言語モデルよりわずかに優れているが、人間よりもはるかに低い。
論文 参考訳(メタデータ) (2020-05-01T21:28:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。