論文の概要: TopoReformer: Mitigating Adversarial Attacks Using Topological Purification in OCR Models
- arxiv url: http://arxiv.org/abs/2511.15807v1
- Date: Wed, 19 Nov 2025 19:01:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.341
- Title: TopoReformer: Mitigating Adversarial Attacks Using Topological Purification in OCR Models
- Title(参考訳): TopoReformer:OCRモデルにおけるトポロジカルパーフィケーションを用いた敵攻撃の軽減
- Authors: Bhagyesh Kumar, A S Aravinthakashan, Akshat Satyanarayan, Ishaan Gakhar, Ujjwal Verma,
- Abstract要約: テキストの逆摂動画像は、OCRシステムが人間の目に見えない変化から誤った書き起こしや誤った書き起こしを発生させる可能性がある。
既存の防御、例えば、敵の訓練、入力前処理、あるいは認識後の補正は、しばしばモデル固有であり、計算的に高価であり、摂動しない入力のパフォーマンスに影響する。
TopoReformerは、テキストイメージの構造的整合性を保ちながら、敵対的摂動を緩和するモデルに依存しない改革パイプラインである。
- 参考スコア(独自算出の注目度): 2.8272661103123258
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adversarially perturbed images of text can cause sophisticated OCR systems to produce misleading or incorrect transcriptions from seemingly invisible changes to humans. Some of these perturbations even survive physical capture, posing security risks to high-stakes applications such as document processing, license plate recognition, and automated compliance systems. Existing defenses, such as adversarial training, input preprocessing, or post-recognition correction, are often model-specific, computationally expensive, and affect performance on unperturbed inputs while remaining vulnerable to unseen or adaptive attacks. To address these challenges, TopoReformer is introduced, a model-agnostic reformation pipeline that mitigates adversarial perturbations while preserving the structural integrity of text images. Topology studies properties of shapes and spaces that remain unchanged under continuous deformations, focusing on global structures such as connectivity, holes, and loops rather than exact distance. Leveraging these topological features, TopoReformer employs a topological autoencoder to enforce manifold-level consistency in latent space and improve robustness without explicit gradient regularization. The proposed method is benchmarked on EMNIST, MNIST, against standard adversarial attacks (FGSM, PGD, Carlini-Wagner), adaptive attacks (EOT, BDPA), and an OCR-specific watermark attack (FAWA).
- Abstract(参考訳): テキストの逆摂動画像は、高度なOCRシステムによって、人間の目に見えない変化から誤った書き起こしや誤った書き起こしを発生させる可能性がある。
これらの混乱の中には、文書処理、ライセンスプレート認識、自動コンプライアンスシステムなどの高度なアプリケーションにセキュリティ上のリスクを生じさせるような、物理的なキャプチャも生き残るものもあった。
既存の防御、例えば、敵の訓練、入力前処理、または認識後修正は、しばしばモデル固有であり、計算コストがかかる。
これらの課題に対処するため、TopoReformerは、テキストイメージの構造的整合性を維持しながら、敵対的摂動を緩和するモデルに依存しない改革パイプラインである。
トポロジーは連続的な変形の下で変化しない形状や空間の性質を研究し、正確な距離ではなく、接続性、穴、ループのような大域的な構造に焦点をあてる。
これらのトポロジカル特徴を活用して、トポレフォーマーはトポロジカルオートエンコーダを用いて、潜在空間における多様体レベルの一貫性を強制し、明示的な勾配正規化なしにロバスト性を向上させる。
提案手法は, EMNIST, MNIST, FGSM, PGD, Carlini-Wagner, Adaptive attack (EOT, BDPA), OCR固有の透かし攻撃 (FAWA) に対してベンチマークを行った。
関連論文リスト
- Noise & pattern: identity-anchored Tikhonov regularization for robust structural anomaly detection [58.535473924035365]
異常検出は自動産業検査において重要な役割を担い、他の均一な視覚パターンの微妙な欠陥や稀な欠陥を識別することを目的としている。
自己教師型オートエンコーダを用いて, 破損した入力の修復を学習する構造的異常検出に取り組む。
構造欠陥を模倣した画像に人工的破壊を注入する汚職モデルを導入する。
論文 参考訳(メタデータ) (2025-11-10T15:48:50Z) - Bridging Symmetry and Robustness: On the Role of Equivariance in Enhancing Adversarial Robustness [9.013874391203453]
敵対的な例では、知覚不能な入力摂動に対する感度を利用して、ディープニューラルネットワークの重大な脆弱性を明らかにしている。
本研究では,群-同変畳み込みを組込み,対向ロバスト性に対するアーキテクチャ的アプローチについて検討する。
これらの層は、モデル行動と入力空間の構造化変換を整合させる対称性の先行を符号化し、よりスムーズな決定境界を促進する。
論文 参考訳(メタデータ) (2025-10-17T19:26:58Z) - $φ^{\infty}$: Clause Purification, Embedding Realignment, and the Total Suppression of the Em Dash in Autoregressive Language Models [0.0]
自動回帰変換言語モデルにおいて,エムダッシュトークンがセマンティックドリフトを引き起こす重大な脆弱性を同定する。
本稿では,フィインフィニティ演算子とターゲット埋め込み行列を併用した記号節の浄化法を提案する。
論文 参考訳(メタデータ) (2025-06-22T18:27:39Z) - A Watermark for Auto-Regressive Image Generation Models [50.599325258178254]
画像生成モデル用に明示的に設計された歪みのない透かし法であるC-reweightを提案する。
C-reweightは画像の忠実性を維持しながら再起動ミスマッチを緩和する。
論文 参考訳(メタデータ) (2025-06-13T00:15:54Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - Overlap-Aware Feature Learning for Robust Unsupervised Domain Adaptation for 3D Semantic Segmentation [9.578322021478426]
3Dポイントクラウドセマンティックセグメンテーション(PCSS)は、ロボットシステムと自律運転における環境認識の基礎である。
既存の方法は、現実の摂動(例えば、雪、霧、雨)と敵の歪みに固有の脆弱性を批判的に見落としている。
この研究は、まず、現在のPCSS-UDAロバスト性を損なう2つの本質的な制限を特定する。
1) 強靭性指標による敵攻撃・破壊タイプに対するレジリエンスを定量化する頑健性評価モデル,2) 注意誘導重複抑制による識別構造を維持しつつ,双方向のドメインマッピングを可能にする非可逆的注意アライメントモジュール(IAAM) とからなる三部構成のフレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-02T12:16:23Z) - Self-Supervised Training with Autoencoders for Visual Anomaly Detection [61.62861063776813]
我々は, 正規サンプルの分布を低次元多様体で支持する異常検出において, 特定のユースケースに焦点を当てた。
我々は、訓練中に識別情報を活用する自己指導型学習体制に適応するが、通常の例のサブ多様体に焦点をあてる。
製造領域における視覚異常検出のための挑戦的なベンチマークであるMVTec ADデータセットで、最先端の新たな結果を達成する。
論文 参考訳(メタデータ) (2022-06-23T14:16:30Z) - Policy Smoothing for Provably Robust Reinforcement Learning [109.90239627115336]
入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。
我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
論文 参考訳(メタデータ) (2021-06-21T21:42:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。