論文の概要: Soft Prompts Go Hard: Steering Visual Language Models with Hidden Meta-Instructions
- arxiv url: http://arxiv.org/abs/2407.08970v2
- Date: Fri, 6 Sep 2024 20:46:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-11 01:51:43.161188
- Title: Soft Prompts Go Hard: Steering Visual Language Models with Hidden Meta-Instructions
- Title(参考訳): ソフトプロンプトは難しい - 隠れたメタ命令でビジュアル言語モデルをステアリングする
- Authors: Tingwei Zhang, Collin Zhang, John X. Morris, Eugene Bagdasarian, Vitaly Shmatikov,
- Abstract要約: 画像上で動作する言語モデルに対して,新しいタイプの間接的インジェクションアタックを導入する。
ソフトプロンプトとして機能する画像を生成することによってメタ命令を生成する方法について説明する。
複数の視覚言語モデルと対向的メタオブジェクトに対するメタインストラクションの有効性を評価する。
- 参考スコア(独自算出の注目度): 7.985140438089331
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a new type of indirect injection attacks against language models that operate on images: hidden ''meta-instructions'' that influence how the model interprets the image and steer the model's outputs to express an adversary-chosen style, sentiment, or point of view. We explain how to create meta-instructions by generating images that act as soft prompts. In contrast to jailbreaking attacks and adversarial examples, outputs produced in response to these images are plausible and based on the visual content of the image, yet also satisfy the adversary's (meta-)objective. We evaluate the efficacy of meta-instructions for multiple visual language models and adversarial meta-objectives, and demonstrate how they can ''unlock'' capabilities of the underlying language models that are unavailable via explicit text instructions. We describe how meta-instruction attacks could cause harm by enabling creation of malicious, self-interpreting content that carries spam, misinformation, and spin. Finally, we discuss defenses.
- Abstract(参考訳): 隠れた「メタインストラクション」は、モデルがどのようにイメージを解釈し、モデルの出力を逆長線スタイル、感情、視点を表現するかに影響を与える。
ソフトプロンプトとして機能する画像を生成することによってメタ命令を生成する方法について説明する。
ジェイルブレイク攻撃や敵の例とは対照的に、これらの画像に反応して生成された出力は、画像の視覚的内容に基づいているが、敵の(メタ)目的も満たしている。
複数の視覚的言語モデルと対向的メタオブジェクトに対するメタインストラクションの有効性を評価し、明示的なテキスト命令で利用できない基礎言語モデルの「アンロック」機能について実証する。
スパム、誤情報、スピンを含む悪意のある自己解釈コンテンツの作成を可能にすることによって、メタインストラクション攻撃が害を引き起こす可能性について説明する。
最後に、防衛について論じる。
関連論文リスト
- Natural Language Induced Adversarial Images [14.415478695871604]
本稿では,自然言語による逆画像攻撃手法を提案する。
中心となる考え方は、入力プロンプトが与えられた逆画像を生成するために、テキスト・ツー・イメージモデルを活用することである。
実験の結果,"foggy","humid","stretching"などの高周波意味情報が誤りを生じやすいことがわかった。
論文 参考訳(メタデータ) (2024-10-11T08:36:07Z) - Backdooring Bias into Text-to-Image Models [16.495996266157274]
敵がバックドア攻撃によって任意のバイアスを加えることで、良質なユーザーが画像を生成することさえも影響することを示した。
私たちの攻撃は、テキストプロンプトで与えられた意味情報を保存しているため、ステルス状態のままです。
我々は、現在の最先端の生成モデルが、この攻撃を安価かつあらゆる敵に対して実現可能であることを示す。
論文 参考訳(メタデータ) (2024-06-21T14:53:19Z) - Lyrics: Boosting Fine-grained Language-Vision Alignment and Comprehension via Semantic-aware Visual Objects [11.117055725415446]
LVLM(Large Vision Language Models)は、様々な視覚言語対話シナリオにおいて、印象的なゼロショット機能を示す。
きめ細かい視覚オブジェクト検出がないことは、画像の詳細を理解するのを妨げ、不可分な視覚幻覚や事実的誤りを引き起こす。
リリックス(Lyrics)は、視覚言語アライメントを微粒なクロスモーダル協調からブートストラップする、新しいマルチモーダル事前学習および微調整パラダイムである。
論文 参考訳(メタデータ) (2023-12-08T09:02:45Z) - InstructTA: Instruction-Tuned Targeted Attack for Large Vision-Language Models [13.21813503235793]
大規模視覚言語モデル(LVLM)は、画像理解と応答生成において、その驚くべき能力を示した。
本稿では,被害者LVLMの視覚エンコーダのみを敵が知ることのできる,新規で実用的な攻撃シナリオを定式化する。
本研究では,LVLMに対して高い転送性を有する目標対向攻撃を実現するために,命令調整型ターゲットアタック(dubed textscInstructTA)を提案する。
論文 参考訳(メタデータ) (2023-12-04T13:40:05Z) - ImageBrush: Learning Visual In-Context Instructions for Exemplar-Based
Image Manipulation [49.07254928141495]
我々は、より正確な画像編集のための視覚的指示を学習する、ImageBrushと呼ばれる新しい操作手法を提案する。
私たちのキーとなるアイデアは、人間の意図を正確に捉えた2つの変換画像を視覚的指示として使うことです。
提案モデルでは,ポーズ伝達,画像翻訳,映像インパインティングなどの下流タスクに対して,ロバストな一般化機能を示す。
論文 参考訳(メタデータ) (2023-08-02T01:57:11Z) - Goal Representations for Instruction Following: A Semi-Supervised
Language Interface to Control [58.06223121654735]
本稿では,少数の言語データのみを用いて,共同画像と目標条件のポリシーを言語と併用する手法を提案する。
本手法は,言語を目標画像と一致させないラベル付きデータから埋め込みを学習することにより,実世界のロバストな性能を実現する。
ラベル付きデータの外部の言語命令に一般化して,様々な操作タスクをさまざまな場面で追従する命令を示す。
論文 参考訳(メタデータ) (2023-06-30T20:09:39Z) - Perceptual Grouping in Contrastive Vision-Language Models [59.1542019031645]
画像内の物体の位置を視覚言語モデルで理解し,画像の視覚的関連部分をグループ化する方法について述べる。
本稿では,意味情報と空間情報の両方を一意に学習するモデルとして,最小限の修正を提案する。
論文 参考訳(メタデータ) (2022-10-18T17:01:35Z) - Visual Clues: Bridging Vision and Language Foundations for Image
Paragraph Captioning [78.07495777674747]
我々は、視覚的手がかりを用いて、大きな事前訓練された視覚基盤モデルと言語モデルをブリッジすることで、余分なクロスモーダルトレーニングなしでそれを行うことができると論じる。
基礎モデルの強力なゼロショット機能のおかげで、画像のリッチなセマンティック表現を構築することから始める。
大規模言語モデルを用いて視覚的コンテンツを包括的に記述し、視覚モデルによって再度検証し、画像に最適な候補を選択する。
論文 参考訳(メタデータ) (2022-06-03T22:33:09Z) - Caption Enriched Samples for Improving Hateful Memes Detection [78.5136090997431]
憎しみのあるミームの挑戦は、ミームが憎悪であるか否かを決定するのが困難であることを示している。
ユニモーダル言語モデルとマルチモーダル視覚言語モデルの両方が人間のパフォーマンスレベルに到達できない。
論文 参考訳(メタデータ) (2021-09-22T10:57:51Z) - Probing Contextual Language Models for Common Ground with Visual
Representations [76.05769268286038]
我々は、マッチングと非マッチングの視覚表現を区別する上で、テキストのみの表現がいかに効果的かを評価するための探索モデルを設計する。
以上の結果から,言語表現だけでは,適切な対象カテゴリから画像パッチを検索する強力な信号が得られることがわかった。
視覚的に接地された言語モデルは、例えば検索においてテキストのみの言語モデルよりわずかに優れているが、人間よりもはるかに低い。
論文 参考訳(メタデータ) (2020-05-01T21:28:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。