Fugu-MT 論文翻訳(概要): Explainable Tampered Text Detection via Multimodal Large Models

論文の概要: Explainable Tampered Text Detection via Multimodal Large Models

arxiv url: http://arxiv.org/abs/2412.14816v2
Date: Sat, 21 Dec 2024 08:53:10 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-24 13:08:33.387798
Title: Explainable Tampered Text Detection via Multimodal Large Models
Title（参考訳）: マルチモーダル大モデルによる説明可能なテキスト検出
Authors: Chenfan Qu, Jian Liu, Haoxing Chen, Baihan Yu, Jingjing Liu, Weiqiang Wang, Lianwen Jin,
Abstract要約: 本稿では,大規模なマルチモーダルモデルを用いて,自然言語による改ざんテキスト検出の基礎を説明する。本稿では,テキスト領域の改ざんを示す画素レベルのアノテーションを含む大規模かつ包括的なデータセットETTDを提案する。我々はまた,GPT4oに改ざんされたテキストを認識し,OCRの精度が低い応答をフィルタリングすることを提案する。
参考スコア（独自算出の注目度）: 49.88698441048043
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently, tampered text detection has attracted increasing attention due to its essential role in information security. Although existing methods can detect the tampered text region, the interpretation of such detection remains unclear, making the prediction unreliable. To address this black-box problem, we propose to explain the basis of tampered text detection with natural language via large multimodal models. To fill the data gap for this task, we propose a large-scale, comprehensive dataset, ETTD, which contains both pixel-level annotations indicating the tampered text region and natural language annotations describing the anomaly of the tampered text. Multiple methods are employed to improve the quality of the proposed data. For example, a fused mask prompt is proposed to reduce confusion when querying GPT4o to generate anomaly descriptions. By weighting the input image with the mask annotation, the tampered region can be clearly indicated and the content in and around the tampered region can also be preserved. We also propose prompting GPT4o to recognize tampered texts and filtering out the responses with low OCR accuracy, which can effectively improve annotation quality in an automatic manner. To further improve explainable tampered text detection, we propose a simple yet effective model called TTD, which benefits from improved fine-grained perception by paying attention to the suspected region with auxiliary reference grounding query. Extensive experiments on both the ETTD dataset and the public dataset have verified the effectiveness of the proposed methods. In-depth analysis is also provided to inspire further research. The dataset and code will be made publicly available.
Abstract（参考訳）: 近年,情報セキュリティにおいて重要な役割を担っているため,テキスト検出の改ざんが注目されている。既存の手法では改ざんされたテキスト領域を検出できるが、そのような検出の解釈はいまだに不明であり、予測は信頼性が低い。このブラックボックス問題に対処するために,大規模なマルチモーダルモデルを用いて,自然言語による改ざんテキスト検出の基礎を説明する。このタスクのデータギャップを埋めるために,テキスト領域を示すピクセルレベルのアノテーションと,テキストの異常を記述した自然言語アノテーションの両方を含む,大規模で包括的なデータセットであるETTDを提案する。提案したデータの品質を向上させるために,複数の手法が用いられている。例えば、混合マスクプロンプトは、GPT4oを問合せして異常記述を生成する際の混乱を軽減するために提案される。入力画像をマスクアノテーションで重み付けすることにより、改ざん領域を明確に示することができ、改ざん領域内及び周辺の内容も保存することができる。我々はまた,GPT4oに改ざんされたテキストの認識を促し,OCRの精度が低い応答をフィルタリングすることで,アノテーションの品質を効果的に自動的に向上させる方法を提案する。さらに説明可能な改ざんテキストの検出を改善するため,補助的な参照グラウンドクエリで疑わしい領域に注意を払って,きめ細かな認識を改善することによるTTDと呼ばれる簡易かつ効果的なモデルを提案する。 ETTDデータセットと公開データセットの両方に対する大規模な実験により,提案手法の有効性が検証された。さらなる研究を促すために、詳細な分析も提供される。データセットとコードは公開されます。

関連論文リスト

Fine-Grained Open-Vocabulary Object Detection with Fined-Grained Prompts: Task, Dataset and Benchmark [6.93847426808971]
3F-OVDは、教師付ききめ細かい物体検出をオープン語彙設定に拡張する新しいタスクである。両方の設定で、データセット上で最先端のオブジェクト検出器をベンチマークします。
論文参考訳（メタデータ） (2025-03-19T03:41:46Z)
Detecting Document-level Paraphrased Machine Generated Content: Mimicking Human Writing Style and Involving Discourse Features [57.34477506004105]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。これらの課題を克服するために、新しい方法論とデータセットを導入します。人間の筆記スタイルをエミュレートするエンコーダデコーダモデルであるMhBARTを提案する。また,PDTB前処理による談話解析を統合し,構造的特徴を符号化するモデルであるDTransformerを提案する。
論文参考訳（メタデータ） (2024-12-17T08:47:41Z)
Generalized Tampered Scene Text Detection in the era of Generative AI [33.38946428507517]
提案手法は,視覚的および見えない偽造型の両方を識別する能力について,法医学モデルの評価を行う。本稿では,画像中の選択したテキストのテクスチャを微調整し,これらの領域を特定するためにモデルを訓練する,新しい,効果的な事前学習パラダイムを提案する。また,テキストの特徴を識別することで,オープンセットの一般化を改善するフレームワークであるDAFを提案する。
論文参考訳（メタデータ） (2024-07-31T08:17:23Z)
Spotting AI's Touch: Identifying LLM-Paraphrased Spans in Text [61.22649031769564]
我々は、新しいフレームワーク、パラフレーズテキストスパン検出(PTD)を提案する。 PTDは、テキスト内でパラフレーズ付きテキストを識別することを目的としている。パラフレーズ付きテキストスパン検出のための専用データセットであるPASTEDを構築した。
論文参考訳（メタデータ） (2024-05-21T11:22:27Z)
DetToolChain: A New Prompting Paradigm to Unleash Detection Ability of MLLM [81.75988648572347]
DetToolChainはマルチモーダル大言語モデル(MLLM)のゼロショットオブジェクト検出能力を解き放つ新しいパラダイムである。提案手法は,高精度検出にヒントを得た検出プロンプトツールキットと,これらのプロンプトを実装するための新しいChain-of-Thoughtから構成される。 DetToolChainを用いたGPT-4Vは,オープン語彙検出のための新しいクラスセットにおいて,最先端のオブジェクト検出器を+21.5%AP50で改善することを示す。
論文参考訳（メタデータ） (2024-03-19T06:54:33Z)
Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文参考訳（メタデータ） (2023-07-31T10:22:33Z)
Watermarking Conditional Text Generation for AI Detection: Unveiling Challenges and a Semantic-Aware Watermark Remedy [52.765898203824975]
本研究では,条件付きテキスト生成と入力コンテキストの特性を考慮した意味認識型透かしアルゴリズムを提案する。実験結果から,提案手法は様々なテキスト生成モデルに対して大幅な改善をもたらすことが示された。
論文参考訳（メタデータ） (2023-07-25T20:24:22Z)
TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。 TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文参考訳（メタデータ） (2023-06-06T03:37:41Z)
On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。 GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文参考訳（メタデータ） (2023-04-10T17:47:39Z)
DEER: Detection-agnostic End-to-End Recognizer for Scene Text Spotting [11.705454066278898]
本稿では,新しい検出非依存のエンド・ツー・エンド認識フレームワークDEERを提案する。提案手法は,検出モジュールと認識モジュール間の密接な依存関係を低減する。通常のテキストスポッティングベンチマークと任意の形のテキストスポッティングベンチマークで競合する結果を得る。
論文参考訳（メタデータ） (2022-03-10T02:41:05Z)
On Exploring and Improving Robustness of Scene Text Detection Models [20.15225372544634]
我々はシーンテキスト検出モデル ICDAR2015-C (IC15-C) と CTW1500-C (CTW-C) を評価した。我々は、事前学習データ、バックボーン、機能融合モジュール、マルチスケール予測、テキストインスタンスの表現、損失関数の6つの重要なコンポーネントのロバストネス分析を行う。本研究では,背景と前景を融合することでテキスト領域の滑らかさを破壊する,シンプルで効果的なデータベース手法を提案する。
論文参考訳（メタデータ） (2021-10-12T02:36:48Z)
Bidirectional Regression for Arbitrary-Shaped Text Detection [16.30976392505236]
本稿では,前景情報と背景情報の両方をパイプラインに統合した新しいテキストインスタンス表現を提案する。対応する後処理アルゴリズムは、4つの予測結果を逐次組み合わせてテキストインスタンスを正確に再構築するように設計されている。本手法は,曲面および多目的テキストデータセットを含む,いくつかの挑戦的なシーンテキストベンチマークで評価する。
論文参考訳（メタデータ） (2021-07-13T14:29:09Z)
Text Recognition -- Real World Data and Where to Find Them [36.10220484561196]
本稿では,弱い注釈付き画像を利用してテキスト抽出パイプラインを改善する手法を提案する。このアプローチでは、任意のエンドツーエンドのテキスト認識システムを使用して、テキスト領域の提案と、おそらく誤った書き起こしを取得する。シーンテキストのほとんどエラーのないローカライズされたインスタンスを生成し、これが"擬似基底真理"(PGT)として扱う。
論文参考訳（メタデータ） (2020-07-06T22:23:27Z)
DGST : Discriminator Guided Scene Text detector [11.817428636084305]
本稿では,シーンテキスト検出のセグメンテーション効果を改善するために,条件付き生成逆数ネットワークに基づく検出フレームワークを提案する。標準データセットの実験では、提案されたDGSTが顕著なゲインをもたらし、最先端の手法より優れていることが示されている。
論文参考訳（メタデータ） (2020-02-28T01:47:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。