論文の概要: Counterfeit Answers: Adversarial Forgery against OCR-Free Document Visual Question Answering
- arxiv url: http://arxiv.org/abs/2512.04554v1
- Date: Thu, 04 Dec 2025 08:15:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:46.061826
- Title: Counterfeit Answers: Adversarial Forgery against OCR-Free Document Visual Question Answering
- Title(参考訳): OCRフリーのビジュアル質問応答に対する反論
- Authors: Marco Pintore, Maura Pintor, Dimosthenis Karatzas, Battista Biggio,
- Abstract要約: 本稿では,視覚的に理解できないが意味論的にターゲットされた方法で文書コンテンツを偽造することを目的とした,新たな攻撃シナリオを提案する。
我々は、異なる攻撃者の目標に合わせて、敵に偽造された文書を生成できる特殊な攻撃アルゴリズムを開発した。
本研究は,現在のDocVQAシステムにおける重大な脆弱性を浮き彫りにして,より堅牢なディフェンスの開発を求めるものである。
- 参考スコア(独自算出の注目度): 16.56389670983349
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Document Visual Question Answering (DocVQA) enables end-to-end reasoning grounded on information present in a document input. While recent models have shown impressive capabilities, they remain vulnerable to adversarial attacks. In this work, we introduce a novel attack scenario that aims to forge document content in a visually imperceptible yet semantically targeted manner, allowing an adversary to induce specific or generally incorrect answers from a DocVQA model. We develop specialized attack algorithms that can produce adversarially forged documents tailored to different attackers' goals, ranging from targeted misinformation to systematic model failure scenarios. We demonstrate the effectiveness of our approach against two end-to-end state-of-the-art models: Pix2Struct, a vision-language transformer that jointly processes image and text through sequence-to-sequence modeling, and Donut, a transformer-based model that directly extracts text and answers questions from document images. Our findings highlight critical vulnerabilities in current DocVQA systems and call for the development of more robust defenses.
- Abstract(参考訳): Document Visual Question Answering (DocVQA)は、文書入力に存在する情報に基づいてエンドツーエンドの推論を可能にする。
最近のモデルは印象的な能力を示しているが、敵の攻撃に弱いままである。
本研究では,視覚的に理解できないが意味論的にターゲットされた方法で文書コンテンツを偽造することを目的とした,新たな攻撃シナリオを提案する。
我々は,攻撃者の目標に合わせて,標的の誤情報から体系的なモデル故障シナリオまで,敵に偽造された文書を生成できる特殊な攻撃アルゴリズムを開発した。
Pix2Structはシーケンス・ツー・シーケンス・モデリングにより画像とテキストを共同処理する視覚言語トランスフォーマーであり、Donutは文書画像から直接テキストと回答を抽出するトランスフォーマー・モデルである。
本研究は,現在のDocVQAシステムにおける重大な脆弱性を浮き彫りにして,より堅牢なディフェンスの開発を求めるものである。
関連論文リスト
- DocMIA: Document-Level Membership Inference Attacks against DocVQA Models [52.13818827581981]
DocVQAモデルに特化された2つの新しいメンバーシップ推論攻撃を導入する。
提案手法は,さまざまなDocVQAモデルやデータセットに対して,既存の最先端メンバシップ推論よりも優れている。
論文 参考訳(メタデータ) (2025-02-06T00:58:21Z) - Mind Your Questions! Towards Backdoor Attacks on Text-to-Visualization Models [21.2448592823259]
VisPoisonは、これらのテキスト・ツー・ビジュアライゼーションモデルの脆弱性を体系的に識別するように設計されたフレームワークである。
我々は、VisPoisonが90%以上の攻撃成功率を達成したことを示し、現在のテキスト・ツー・ビジターモデルのセキュリティ問題を強調した。
論文 参考訳(メタデータ) (2024-10-09T11:22:03Z) - Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。
また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。
我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - Controllable Fake Document Infilling for Cyber Deception [31.734574811062053]
そこで本稿では,Fake Document Infilling (FDI) という新しいモデルを提案する。
FDIは、重要な情報を保護し、敵を欺くために、適度な修正を施した、信頼性の高い偽物を生成する上で、ベースラインよりも優れています。
論文 参考訳(メタデータ) (2022-10-18T14:59:38Z) - Fact-Saboteurs: A Taxonomy of Evidence Manipulation Attacks against
Fact-Verification Systems [80.3811072650087]
証拠のクレームサレントスニペットを微調整し,多様かつクレームアラインな証拠を生成することが可能であることを示す。
この攻撃は、主張のポストホックな修正に対しても堅牢である。
これらの攻撃は、インスペクタブルとヒューマン・イン・ザ・ループの使用シナリオに有害な影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2022-09-07T13:39:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。