論文の概要: Protect, Show, Attend and Tell: Empowering Image Captioning Models with
Ownership Protection
- arxiv url: http://arxiv.org/abs/2008.11009v2
- Date: Tue, 31 Aug 2021 09:36:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 04:28:56.297179
- Title: Protect, Show, Attend and Tell: Empowering Image Captioning Models with
Ownership Protection
- Title(参考訳): Protect, Show, Attend and Tell: イメージキャプションモデルとオーナシップ保護
- Authors: Jian Han Lim, Chee Seng Chan, Kam Woh Ng, Lixin Fan, Qiang Yang
- Abstract要約: 本稿では,現在の電子透かしフレームワークが画像キャプション作業を保護するには不十分であることを実証する。
本稿では,リカレントニューラルネットワークの隠れメモリ状態に2つの異なる埋め込み方式を提案する。
我々の知る限りでは、画像キャプションタスクの所有権保護を最初に提案する作業である。
- 参考スコア(独自算出の注目度): 24.50702655120905
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: By and large, existing Intellectual Property (IP) protection on deep neural
networks typically i) focus on image classification task only, and ii) follow a
standard digital watermarking framework that was conventionally used to protect
the ownership of multimedia and video content. This paper demonstrates that the
current digital watermarking framework is insufficient to protect image
captioning tasks that are often regarded as one of the frontiers AI problems.
As a remedy, this paper studies and proposes two different embedding schemes in
the hidden memory state of a recurrent neural network to protect the image
captioning model. From empirical points, we prove that a forged key will yield
an unusable image captioning model, defeating the purpose of infringement. To
the best of our knowledge, this work is the first to propose ownership
protection on image captioning task. Also, extensive experiments show that the
proposed method does not compromise the original image captioning performance
on all common captioning metrics on Flickr30k and MS-COCO datasets, and at the
same time it is able to withstand both removal and ambiguity attacks. Code is
available at https://github.com/jianhanlim/ipr-imagecaptioning
- Abstract(参考訳): 通常、ディープニューラルネットワークに対する既存の知的財産(ip)保護
一 画像分類タスクのみに注目すること、及び
二 従来、マルチメディア及びビデオコンテンツの所有権を保護するために用いられてきた標準的なデジタル透かしフレームワークに従うこと。
本稿では,現在のデジタル透かしフレームワークは,フロンティアのAI問題の1つと見なされるイメージキャプションタスクを保護するには不十分であることを示す。
本稿では,再帰型ニューラルネットワークの隠れメモリ状態における2つの異なる埋め込み方式について検討し,画像キャプションモデルを保護する。
経験的な点から、偽造鍵は使用不能な画像キャプションモデルをもたらし、侵害の目的を打ち破ることを証明する。
我々の知る限りでは、画像キャプションタスクの所有権保護を最初に提案する作業である。
また,提案手法がflickr30kおよびms-cocoデータセット上の一般的なキャプション指標すべてにおいて,オリジナルのキャプション性能を損なわないことを示すとともに,削除と曖昧性攻撃の両方に耐えられることを示した。
コードはhttps://github.com/jianhanlim/ipr-imagecaptioningで入手できる。
関連論文リスト
- The Brittleness of AI-Generated Image Watermarking Techniques: Examining Their Robustness Against Visual Paraphrasing Attacks [5.708967043277477]
画像から透かしを除去できるビジュアルパラフレーズを提案する。
まず, KOSMOS-2 を用いた画像のキャプションを生成する。
拡散パイプラインのデノイングステップの間、システムはテキストキャプションによってガイドされる視覚的に類似した画像を生成する。
実験の結果,視覚的パラフレーズ攻撃は画像から透かしを効果的に除去できることが示された。
論文 参考訳(メタデータ) (2024-08-19T22:58:30Z) - AI-Based Copyright Detection Of An Image In a Video Using Degree Of Similarity And Image Hashing [0.0]
報告では、著作権のある画像の利用を識別する戦略が計画されている。
それでもわれわれは、著作権のある画像をビデオに含めるという問題を解決したい。
機械学習(ML)と人工知能(AI)は、この問題に対処するために不可欠である。
論文 参考訳(メタデータ) (2024-06-14T09:47:07Z) - Learning text-to-video retrieval from image captioning [59.81537951811595]
本稿では,未収録ビデオを用いたテキスト・ビデオ検索訓練のプロトコルについて述べる。
i) ビデオのラベルにアクセスできず、(ii) テキスト形式でラベル付き画像にアクセスすると仮定する。
画像キャプションによるビデオフレームの自動ラベル付けにより,テキスト対ビデオ検索のトレーニングが可能になることを示す。
論文 参考訳(メタデータ) (2024-04-26T15:56:08Z) - Recoverable Privacy-Preserving Image Classification through Noise-like
Adversarial Examples [26.026171363346975]
分類などのクラウドベースの画像関連サービスが重要になっている。
本研究では,新しいプライバシー保護画像分類手法を提案する。
暗号化された画像は、秘密鍵を使用して、高い忠実度(保存可能な)で元の形式に復号することができる。
論文 参考訳(メタデータ) (2023-10-19T13:01:58Z) - I See Dead People: Gray-Box Adversarial Attack on Image-To-Text Models [0.0]
我々は、画像からテキストへのグレーボックスの逆攻撃を、未ターゲティングとターゲットの両方に提示する。
攻撃はグレーボックス方式で実行され、デコーダモジュールに関する知識は不要です。
また、私たちの攻撃は人気のあるオープンソースプラットフォームHugging Faceを騙していることも示しています。
論文 参考訳(メタデータ) (2023-06-13T07:35:28Z) - Human-imperceptible, Machine-recognizable Images [76.01951148048603]
より良い開発AIシステムと、センシティブなトレーニングデータから距離を置くことの間の、ソフトウェアエンジニアに関する大きな対立が露呈している。
画像が暗号化され、人間に認識され、機械に認識される」という、効率的なプライバシー保護学習パラダイムを提案する。
提案手法は,機械が認識可能な情報を保存しながら,暗号化された画像が人間に認識されなくなることを保証できることを示す。
論文 参考訳(メタデータ) (2023-06-06T13:41:37Z) - Docmarking: Real-Time Screen-Cam Robust Document Image Watermarking [97.77394585669562]
提案されたアプローチは、そもそもリークを防ぐのではなく、リークのソースを決定することを目的としている。
メソッドは、透かしを半透明画像と識別するユニークな透かしをスクリーンに印加することで機能する。
透かし画像は静止しており、常に画面上に留まっているので、撮影したすべての写真に透かしが表示される。
論文 参考訳(メタデータ) (2023-04-25T09:32:11Z) - Exploring Discrete Diffusion Models for Image Captioning [104.69608826164216]
DDCapと呼ばれる拡散型キャプションモデルを提案する。
本稿では,ベストファースト推論,集中注意マスク,テキスト長予測,画像のないトレーニングなど,いくつかの重要な手法を提案する。
4Mビジョン言語による事前学習画像とベースサイズのモデルを用いて,COCO上のCIDErスコア125.1に達する。
論文 参考訳(メタデータ) (2022-11-21T18:12:53Z) - Controlled Caption Generation for Images Through Adversarial Attacks [85.66266989600572]
画像特徴抽出には畳み込みニューラルネットワーク(CNN)、キャプション生成にはリカレントニューラルネットワーク(RNN)が使用される。
特に、その後の再帰的ネットワークに供給される視覚エンコーダの隠蔽層に対する攻撃について検討する。
本稿では、CNNの内部表現を模倣したニューラルネットワークキャプションの逆例を作成するためのGANベースのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-07-07T07:22:41Z) - Intrinsic Image Captioning Evaluation [53.51379676690971]
I2CE(Intrinsic Image Captioning Evaluation)と呼ばれる画像キャプションのための学習ベースメトリクスを提案する。
実験の結果,提案手法は頑健な性能を維持し,意味的類似表現やアライメントの少ない意味論に遭遇した場合,候補キャプションに対してより柔軟なスコアを与えることができた。
論文 参考訳(メタデータ) (2020-12-14T08:36:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。