論文の概要: Leveraging Contrastive Learning for a Similarity-Guided Tampered Document Data Generation Pipeline
- arxiv url: http://arxiv.org/abs/2602.17322v1
- Date: Thu, 19 Feb 2026 12:39:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:29.029923
- Title: Leveraging Contrastive Learning for a Similarity-Guided Tampered Document Data Generation Pipeline
- Title(参考訳): 類似性誘導型文書データ生成パイプラインにおけるコントラスト学習の活用
- Authors: Mohamed Dhouib, Davide Buscaldi, Sonia Vanier, Aymen Shabou,
- Abstract要約: 高品質な文書画像を生成するための新しい手法を提案する。
まず、テキスト作物の比較のための補助的ネットワークをトレーニングし、対照的な学習と、正のペアと対応する負のペアを定義するための新しい戦略を活用する。
慎重に設計した生成パイプラインを用いて、多種多様な高品質な文書画像を生成することができるフレームワークを導入する。
- 参考スコア(独自算出の注目度): 6.066442015301665
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Detecting tampered text in document images is a challenging task due to data scarcity. To address this, previous work has attempted to generate tampered documents using rule-based methods. However, the resulting documents often suffer from limited variety and poor visual quality, typically leaving highly visible artifacts that are rarely observed in real-world manipulations. This undermines the model's ability to learn robust, generalizable features and results in poor performance on real-world data. Motivated by this discrepancy, we propose a novel method for generating high-quality tampered document images. We first train an auxiliary network to compare text crops, leveraging contrastive learning with a novel strategy for defining positive pairs and their corresponding negatives. We also train a second auxiliary network to evaluate whether a crop tightly encloses the intended characters, without cutting off parts of characters or including parts of adjacent ones. Using a carefully designed generation pipeline that leverages both networks, we introduce a framework capable of producing diverse, high-quality tampered document images. We assess the effectiveness of our data generation pipeline by training multiple models on datasets derived from the same source images, generated using our method and existing approaches, under identical training protocols. Evaluating these models on various open-source datasets shows that our pipeline yields consistent performance improvements across architectures and datasets.
- Abstract(参考訳): 文書画像中の改ざんされたテキストを検出することは、データの不足のため難しい課題である。
これを解決するために、以前の研究はルールベースの手法を用いて改ざんされた文書を作成しようと試みてきた。
しかし、結果として得られた文書は、しばしば限られた多様性と視覚的品質に悩まされ、通常、現実の操作ではほとんど見られない、目に見える成果物を残している。
これにより、モデルが堅牢で一般化可能な機能を学ぶ能力が損なわれ、結果として実際のデータの性能が低下する。
そこで本研究では,高品質な改ざん文書画像を生成する新しい手法を提案する。
まず、テキスト作物の比較のための補助的ネットワークをトレーニングし、対照的な学習と、正のペアと対応する負のペアを定義するための新しい戦略を活用する。
また、作物が意図した文字をしっかりと囲むかどうかを評価するために第2補助ネットワークを訓練する。
両ネットワークを巧みに設計した生成パイプラインを用いて,多種多様な高品質な文書画像を生成することができるフレームワークを提案する。
提案手法と既存の手法を用いて,同一のトレーニングプロトコルを用いて,同一のソース画像から得られたデータセットに対して,複数のモデルをトレーニングすることで,データ生成パイプラインの有効性を評価する。
これらのモデルをさまざまなオープンソースデータセットで評価することは、私たちのパイプラインがアーキテクチャやデータセット間で一貫したパフォーマンス向上を実現していることを示している。
関連論文リスト
- Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。
第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。
第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文 参考訳(メタデータ) (2024-10-03T14:33:34Z) - DECDM: Document Enhancement using Cycle-Consistent Diffusion Models [3.3813766129849845]
近年の拡散モデルに触発された文書レベルの画像変換手法であるDECDMを提案する。
本手法は,ソース(ノイズ入力)とターゲット(クリーン出力)モデルを独立にトレーニングすることで,ペアトレーニングの限界を克服する。
また、翻訳中の文字・グリフ保存を改善するための単純なデータ拡張戦略も導入する。
論文 参考訳(メタデータ) (2023-11-16T07:16:02Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - GVdoc: Graph-based Visual Document Classification [17.350393956461783]
グラフに基づく文書分類モデルであるGVdocを提案する。
提案手法では,そのレイアウトに基づいて文書グラフを生成し,グラフニューラルネットワークを用いてノードとグラフの埋め込みを学習する。
パラメータが少なくても、我々のモデルは分布外データ上で最先端のモデルより優れていることを示す。
論文 参考訳(メタデータ) (2023-05-26T19:23:20Z) - The Role of Data Curation in Image Captioning [26.61662352061468]
本論文は, サンプルの総数を増やすことなく, データセット中の難しいサンプルを積極的にキュレートすることによって, この方向性に寄与する。
BLIPとBEiT-3モデルを用いたFlickr30KとCOCOデータセットの実験は、これらのキュレーション手法が実際に改善された画像キャプションモデルをもたらすことを示した。
論文 参考訳(メタデータ) (2023-05-05T15:16:07Z) - Multiple Document Datasets Pre-training Improves Text Line Detection
With Deep Neural Networks [2.5352713493505785]
本稿では,文書レイアウト解析タスクのための完全畳み込みネットワークを提案する。
Doc-UFCNは、歴史的文書から物体を検出するためにゼロから訓練されたU字型モデルを用いています。
Doc-UFCNが様々なデータセットの最先端のメソッドより優れていることを示す。
論文 参考訳(メタデータ) (2020-12-28T09:48:33Z) - From ImageNet to Image Classification: Contextualizing Progress on
Benchmarks [99.19183528305598]
ImageNet作成プロセスにおける特定の設計選択が、結果のデータセットの忠実性に与える影響について検討する。
私たちの分析では、ノイズの多いデータ収集パイプラインが、結果のベンチマークと、それがプロキシとして機能する実世界のタスクとの間に、体系的なミスアライメントをもたらす可能性があることを指摘しています。
論文 参考訳(メタデータ) (2020-05-22T17:39:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。