論文の概要: Counterfeit Answers: Adversarial Forgery against OCR-Free Document Visual Question Answering
- arxiv url: http://arxiv.org/abs/2512.04554v1
- Date: Thu, 04 Dec 2025 08:15:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:46.061826
- Title: Counterfeit Answers: Adversarial Forgery against OCR-Free Document Visual Question Answering
- Title(参考訳): OCRフリーのビジュアル質問応答に対する反論
- Authors: Marco Pintore, Maura Pintor, Dimosthenis Karatzas, Battista Biggio,
- Abstract要約: 本稿では,視覚的に理解できないが意味論的にターゲットされた方法で文書コンテンツを偽造することを目的とした,新たな攻撃シナリオを提案する。
我々は、異なる攻撃者の目標に合わせて、敵に偽造された文書を生成できる特殊な攻撃アルゴリズムを開発した。
本研究は,現在のDocVQAシステムにおける重大な脆弱性を浮き彫りにして,より堅牢なディフェンスの開発を求めるものである。
- 参考スコア(独自算出の注目度): 16.56389670983349
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Document Visual Question Answering (DocVQA) enables end-to-end reasoning grounded on information present in a document input. While recent models have shown impressive capabilities, they remain vulnerable to adversarial attacks. In this work, we introduce a novel attack scenario that aims to forge document content in a visually imperceptible yet semantically targeted manner, allowing an adversary to induce specific or generally incorrect answers from a DocVQA model. We develop specialized attack algorithms that can produce adversarially forged documents tailored to different attackers' goals, ranging from targeted misinformation to systematic model failure scenarios. We demonstrate the effectiveness of our approach against two end-to-end state-of-the-art models: Pix2Struct, a vision-language transformer that jointly processes image and text through sequence-to-sequence modeling, and Donut, a transformer-based model that directly extracts text and answers questions from document images. Our findings highlight critical vulnerabilities in current DocVQA systems and call for the development of more robust defenses.
- Abstract(参考訳): Document Visual Question Answering (DocVQA)は、文書入力に存在する情報に基づいてエンドツーエンドの推論を可能にする。
最近のモデルは印象的な能力を示しているが、敵の攻撃に弱いままである。
本研究では,視覚的に理解できないが意味論的にターゲットされた方法で文書コンテンツを偽造することを目的とした,新たな攻撃シナリオを提案する。
我々は,攻撃者の目標に合わせて,標的の誤情報から体系的なモデル故障シナリオまで,敵に偽造された文書を生成できる特殊な攻撃アルゴリズムを開発した。
Pix2Structはシーケンス・ツー・シーケンス・モデリングにより画像とテキストを共同処理する視覚言語トランスフォーマーであり、Donutは文書画像から直接テキストと回答を抽出するトランスフォーマー・モデルである。
本研究は,現在のDocVQAシステムにおける重大な脆弱性を浮き彫りにして,より堅牢なディフェンスの開発を求めるものである。
関連論文リスト
- Manipulating Multimodal Agents via Cross-Modal Prompt Injection [34.35145839873915]
マルチモーダルエージェントにおいて、これまで見過ごされていた重要なセキュリティ脆弱性を特定します。
攻撃者が複数のモードにまたがって敵の摂動を埋め込む新たな攻撃フレームワークであるCrossInjectを提案する。
本手法は,攻撃成功率を少なくとも30.1%向上させることで,最先端の攻撃よりも優れる。
論文 参考訳(メタデータ) (2025-04-19T16:28:03Z) - DocMIA: Document-Level Membership Inference Attacks against DocVQA Models [52.13818827581981]
DocVQAモデルに特化された2つの新しいメンバーシップ推論攻撃を導入する。
提案手法は,さまざまなDocVQAモデルやデータセットに対して,既存の最先端メンバシップ推論よりも優れている。
論文 参考訳(メタデータ) (2025-02-06T00:58:21Z) - Illusions of Relevance: Using Content Injection Attacks to Deceive Retrievers, Rerankers, and LLM Judges [52.96987928118327]
検索,リランカー,大型言語モデル(LLM)の埋め込みモデルは,コンテンツインジェクション攻撃に対して脆弱であることがわかった。
主な脅威は,(1) 意味不明な内容や有害な内容の挿入,(2) 関連性を高めるために,問合せ全体あるいはキークエリ用語の挿入,の2つである。
本研究は, 注射内容の配置や関連物質と非関連物質とのバランスなど, 攻撃の成功に影響を与える要因を系統的に検討した。
論文 参考訳(メタデータ) (2025-01-30T18:02:15Z) - Mind Your Questions! Towards Backdoor Attacks on Text-to-Visualization Models [21.2448592823259]
VisPoisonは、これらのテキスト・ツー・ビジュアライゼーションモデルの脆弱性を体系的に識別するように設計されたフレームワークである。
我々は、VisPoisonが90%以上の攻撃成功率を達成したことを示し、現在のテキスト・ツー・ビジターモデルのセキュリティ問題を強調した。
論文 参考訳(メタデータ) (2024-10-09T11:22:03Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。
また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。
我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - Controllable Fake Document Infilling for Cyber Deception [31.734574811062053]
そこで本稿では,Fake Document Infilling (FDI) という新しいモデルを提案する。
FDIは、重要な情報を保護し、敵を欺くために、適度な修正を施した、信頼性の高い偽物を生成する上で、ベースラインよりも優れています。
論文 参考訳(メタデータ) (2022-10-18T14:59:38Z) - Fact-Saboteurs: A Taxonomy of Evidence Manipulation Attacks against
Fact-Verification Systems [80.3811072650087]
証拠のクレームサレントスニペットを微調整し,多様かつクレームアラインな証拠を生成することが可能であることを示す。
この攻撃は、主張のポストホックな修正に対しても堅牢である。
これらの攻撃は、インスペクタブルとヒューマン・イン・ザ・ループの使用シナリオに有害な影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2022-09-07T13:39:24Z) - Attacking Open-domain Question Answering by Injecting Misinformation [116.25434773461465]
質問応答モデル(QA)に対する誤報のリスクについて,オープンドメインQAモデルの誤報文書に対する感度について検討した。
実験により、QAモデルは誤情報による少量の証拠汚染に対して脆弱であることが示されている。
質問応答と誤情報検出を統合した誤情報認識型QAシステムの構築の必要性について論じる。
論文 参考訳(メタデータ) (2021-10-15T01:55:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。