論文の概要: Robustness Evaluation of OCR-based Visual Document Understanding under Multi-Modal Adversarial Attacks
- arxiv url: http://arxiv.org/abs/2506.16407v1
- Date: Thu, 19 Jun 2025 15:38:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:05.144074
- Title: Robustness Evaluation of OCR-based Visual Document Understanding under Multi-Modal Adversarial Attacks
- Title(参考訳): マルチモーダル・アタックによるOCRに基づく視覚的文書理解のロバスト性評価
- Authors: Dong Nguyen Tien, Dung D. Le,
- Abstract要約: 我々は,OCRベースのVDUモデルに対するマルチモーダル攻撃の生成と評価を行うための,最初の統一フレームワークを提案する。
本手法では, OCR境界ボックス, ピクセル, テキストの操作を単語と行の粒度に組み込んだ, 勾配に基づく6つのレイアウト攻撃シナリオを網羅する。
- 参考スコア(独自算出の注目度): 4.166623313248681
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual Document Understanding (VDU) systems have achieved strong performance in information extraction by integrating textual, layout, and visual signals. However, their robustness under realistic adversarial perturbations remains insufficiently explored. We introduce the first unified framework for generating and evaluating multi-modal adversarial attacks on OCR-based VDU models. Our method covers six gradient-based layout attack scenarios, incorporating manipulations of OCR bounding boxes, pixels, and texts across both word and line granularities, with constraints on layout perturbation budget (e.g., IoU >= 0.6) to preserve plausibility. Experimental results across four datasets (FUNSD, CORD, SROIE, DocVQA) and six model families demonstrate that line-level attacks and compound perturbations (BBox + Pixel + Text) yield the most severe performance degradation. Projected Gradient Descent (PGD)-based BBox perturbations outperform random-shift baselines in all investigated models. Ablation studies further validate the impact of layout budget, text modification, and adversarial transferability.
- Abstract(参考訳): Visual Document Understanding (VDU) システムは、テキスト、レイアウト、視覚信号を統合することで、情報抽出において強力なパフォーマンスを実現している。
しかし、現実的な逆転摂動下での頑健さはいまだに十分に調査されていない。
我々は,OCRベースのVDUモデルに対するマルチモーダル攻撃の生成と評価を行うための,最初の統一フレームワークを提案する。
提案手法では,OCR境界ボックス,画素,テキストを単語および行の粒度にわたって操作し,レイアウト摂動予算(例えば,IoU >= 0.6)に制約を加えることで,信頼性の維持を図る。
4つのデータセット(FUNSD, CORD, SROIE, DocVQA)と6つのモデルファミリーによる実験結果から, ラインレベルの攻撃と複合摂動(BBox + Pixel + Text)が最も深刻なパフォーマンス劣化をもたらすことが示された。
PGD(Gdient Descent)に基づくBBox摂動は、すべてのモデルにおいてランダムシフトベースラインよりも優れていた。
アブレーション研究は、レイアウト予算、テキスト修正、および対向移動性の影響をさらに検証する。
関連論文リスト
- From Controlled Scenarios to Real-World: Cross-Domain Degradation Pattern Matching for All-in-One Image Restoration [2.997052569698842]
All-in-One Image Restoration (AiOIR) は、統一されたパラメータを持つ単一モデルを用いて、複数の劣化パターンによる画像復元を実現することを目的としている。
UDAIRフレームワークは、ソースドメインからターゲットドメインへの学習知識を活用することにより、AiOIRを効果的に実現するために提案されている。
10のオープンソースデータセットの実験結果は、UDAIRがAiOIRタスクのための新しい最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2025-05-28T12:22:00Z) - CPA-RAG:Covert Poisoning Attacks on Retrieval-Augmented Generation in Large Language Models [15.349703228157479]
Retrieval-Augmented Generation (RAG)は、外部知識を取り入れた大規模言語モデル(LLM)を強化する。
既存のRAGシステムに対する中毒法には、一般化の欠如や、敵のテキストにおける流布の欠如など、制限がある。
CPA-RAGは,検索プロセスを操作することで,対象の回答を誘導するクエリ関連テキストを生成するブラックボックスの対向フレームワークである。
論文 参考訳(メタデータ) (2025-05-26T11:48:32Z) - Multi-Modality Driven LoRA for Adverse Condition Depth Estimation [61.525312117638116]
逆条件深さ推定のためのMulti-Modality Driven LoRA(MMD-LoRA)を提案する。
Prompt Driven Domain Alignment (PDDA) と Visual-Text Consistent Contrastive Learning (VTCCL) の2つのコアコンポーネントで構成されている。
nuScenesとOxford RobotCarデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-12-28T14:23:58Z) - Sample-agnostic Adversarial Perturbation for Vision-Language Pre-training Models [7.350203999073509]
AIセキュリティに関する最近の研究は、画像やテキストの微妙で意図的に設計された摂動に対するビジョンランゲージ事前学習モデルの脆弱性を強調している。
私たちの知る限りでは、どんな画像にも当てはまる普遍的でサンプルに依存しない摂動の生成を探索する、マルチモーダルな決定境界による最初の研究である。
論文 参考訳(メタデータ) (2024-08-06T06:25:39Z) - Benchmark Granularity and Model Robustness for Image-Text Retrieval [44.045767657945895]
データセットの粒度とクエリの摂動が検索性能とロバスト性にどのように影響するかを示す。
よりリッチなキャプションは、特にテキスト・ツー・イメージタスクにおいて、検索を継続的に強化することを示す。
本研究は, モデル頑健性の変化とキャプション粒度と感度摂動のデータセット依存的関係に着目した。
論文 参考訳(メタデータ) (2024-07-21T18:08:44Z) - Benchmarking and Improving Bird's Eye View Perception Robustness in Autonomous Driving [55.93813178692077]
本稿では,BEVアルゴリズムのレジリエンスを評価するためのベンチマークスイートであるRoboBEVを紹介する。
検出,マップセグメンテーション,深さ推定,占有予測といったタスクにまたがる33の最先端のBEVベースの知覚モデルを評価する。
また, 事前学習や深度自由なBEVトランスフォーメーションなどの戦略が, アウト・オブ・ディストリビューションデータに対するロバスト性を高める上で有効であることを示す。
論文 参考訳(メタデータ) (2024-05-27T17:59:39Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - CARLA-GeAR: a Dataset Generator for a Systematic Evaluation of
Adversarial Robustness of Vision Models [61.68061613161187]
本稿では,合成データセットの自動生成ツールであるCARLA-GeARについて述べる。
このツールは、Python APIを使用して、CARLAシミュレータ上に構築されており、自律運転のコンテキストにおいて、いくつかのビジョンタスク用のデータセットを生成することができる。
本稿では,CARLA-GeARで生成されたデータセットが,現実世界の敵防衛のベンチマークとして今後どのように利用されるかを示す。
論文 参考訳(メタデータ) (2022-06-09T09:17:38Z) - Bridge the Gap Between CV and NLP! A Gradient-based Textual Adversarial
Attack Framework [17.17479625646699]
そこで本研究では,テキストの敵対的サンプルを作成するための統一的なフレームワークを提案する。
本稿では,T-PGD(Textual Projected Gradient Descent)という攻撃アルゴリズムを用いて,我々のフレームワークをインスタンス化する。
論文 参考訳(メタデータ) (2021-10-28T17:31:51Z) - Bridging the Gap Between Clean Data Training and Real-World Inference
for Spoken Language Understanding [76.89426311082927]
既存のモデルはクリーンデータに基づいてトレーニングされ、クリーンデータトレーニングと現実世界の推論の間にtextitgapが発生する。
本稿では,良質なサンプルと低品質のサンプルの両方が類似ベクトル空間に埋め込まれた領域適応法を提案する。
広く使用されているデータセット、スニップス、および大規模な社内データセット(1000万のトレーニング例)に関する実験では、この方法は実世界の(騒々しい)コーパスのベースラインモデルを上回るだけでなく、堅牢性、すなわち、騒々しい環境下で高品質の結果を生み出すことを実証しています。
論文 参考訳(メタデータ) (2021-04-13T17:54:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。