論文の概要: TextShield-R1: Reinforced Reasoning for Tampered Text Detection
- arxiv url: http://arxiv.org/abs/2602.19828v1
- Date: Mon, 23 Feb 2026 13:26:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.828925
- Title: TextShield-R1: Reinforced Reasoning for Tampered Text Detection
- Title(参考訳): TextShield-R1: タンパーテキスト検出のための強化推論
- Authors: Chenfan Qu, Yiwu Zhong, Jian Liu, Xuekang Zhu, Bohan Yu, Lianwen Jin,
- Abstract要約: TextShield-R1は、最初の強化学習ベースのMLLMソリューションである。
本稿では,テキスト検出のためのMLLMを十分に準備した,手軽でハードなカリキュラムであるForensic Continual Pre-trainingを紹介する。
また、テキストフォレスシクス推論(TFR)ベンチマークを導入し、16言語で45万以上の実画像と改ざん画像を比較した。
- 参考スコア(独自算出の注目度): 48.66129052598456
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The growing prevalence of tampered images poses serious security threats, highlighting the urgent need for reliable detection methods. Multimodal large language models (MLLMs) demonstrate strong potential in analyzing tampered images and generating interpretations. However, they still struggle with identifying micro-level artifacts, exhibit low accuracy in localizing tampered text regions, and heavily rely on expensive annotations for forgery interpretation. To this end, we introduce TextShield-R1, the first reinforcement learning based MLLM solution for tampered text detection and reasoning. Specifically, our approach introduces Forensic Continual Pre-training, an easy-to-hard curriculum that well prepares the MLLM for tampered text detection by harnessing the large-scale cheap data from natural image forensic and OCR tasks. During fine-tuning, we perform Group Relative Policy Optimization with novel reward functions to reduce annotation dependency and improve reasoning capabilities. At inference time, we enhance localization accuracy via OCR Rectification, a method that leverages the MLLM's strong text recognition abilities to refine its predictions. Furthermore, to support rigorous evaluation, we introduce the Text Forensics Reasoning (TFR) benchmark, comprising over 45k real and tampered images across 16 languages, 10 tampering techniques, and diverse domains. Rich reasoning-style annotations are included, allowing for comprehensive assessment. Our TFR benchmark simultaneously addresses seven major limitations of existing benchmarks and enables robust evaluation under cross-style, cross-method, and cross-language conditions. Extensive experiments demonstrate that TextShield-R1 significantly advances the state of the art in interpretable tampered text detection.
- Abstract(参考訳): 改ざん画像の出現は深刻なセキュリティ上の脅威を招き、信頼性の高い検出方法が緊急に必要であることを示している。
マルチモーダル大言語モデル (MLLM) は、改ざんされた画像を分析し、解釈を生成する強力な可能性を示す。
しかし、彼らはいまだにマイクロレベルのアーティファクトの特定に苦労し、改ざんされたテキスト領域のローカライズに低い精度を示し、偽造解釈のための高価なアノテーションに強く依存している。
この目的のために,最初の強化学習に基づくMLLMソリューションであるTextShield-R1を導入する。
具体的には、自然画像法とOCRタスクから大規模で安価なデータを活用することで、テキスト検出の改ざんのためのMLLMを十分に準備する、簡単でハードなカリキュラムであるForensic Continual Pre-trainingを導入する。
微調整中、アノテーションの依存性を減らし推論能力を向上させるため、新しい報酬関数を用いてグループ相対ポリシー最適化を行う。
提案手法は,MLLMの強いテキスト認識能力を利用して予測を洗練させる手法であるOCR Rectificationを用いて,推定時に局所化精度を向上させる。
さらに,厳密な評価を支援するために,テキストフォレスシクス推論(TFR)ベンチマークを導入する。
リッチな推論スタイルのアノテーションが含まれており、包括的なアセスメントが可能である。
我々のTFRベンチマークは、既存のベンチマークの7つの大きな制限に同時に対処し、クロススタイル、クロスメソッド、およびクロスランゲージ条件下で堅牢な評価を可能にする。
大規模な実験により、TextShield-R1は、解釈可能なタンパー付きテキスト検出の最先端性を著しく向上することが示された。
関連論文リスト
- Towards General Visual-Linguistic Face Forgery Detection(V2) [90.6600794602029]
顔操作技術は大きな進歩を遂げ、セキュリティと社会的信頼に深刻な課題を呈している。
近年の研究では、マルチモーダルモデルを活用することで、顔偽造検出の一般化と解釈可能性を高めることが示されている。
初期領域と型識別にフォージェリマスクを活用することで,正確なテキスト記述を生成する新しいアノテーションパイプラインである Face Forgery Text Generator (FFTG) を提案する。
論文 参考訳(メタデータ) (2025-02-28T04:15:36Z) - Semantic Consistency Regularization with Large Language Models for Semi-supervised Sentiment Analysis [20.503153899462323]
本稿では,半教師付き感情分析のためのフレームワークを提案する。
テキストを意味的に拡張する2つのプロンプト戦略を導入する。
実験により,従来の半教師付き手法よりも優れた性能が得られた。
論文 参考訳(メタデータ) (2025-01-29T12:03:11Z) - TextSleuth: Towards Explainable Tampered Text Detection [49.88698441048043]
本稿では,大規模なマルチモーダルモデルを用いて,自然言語による改ざんテキスト検出の基礎を説明する。
このタスクのデータギャップを埋めるため,大規模な包括的データセットETTDを提案する。
GPT4oで高品質な異常記述を生成するために、共同クエリが導入された。
低品質なアノテーションを自動的にフィルタリングするために、GPT4oに改ざんされたテキストを認識するよう促すことも提案する。
論文 参考訳(メタデータ) (2024-12-19T13:10:03Z) - SEFD: Semantic-Enhanced Framework for Detecting LLM-Generated Text [12.639191350218528]
大規模言語モデル(LLM)生成テキスト(SEFD)を検出するための新しい意味強化フレームワークを提案する。
本フレームワークは,検索技術と従来の検出手法を体系的に統合することにより,既存の検出方法を改善する。
本稿では,オンラインフォーラムやQ&Aプラットフォームなど,現実のアプリケーションに共通するシーケンシャルテキストシナリオにおけるアプローチの有効性を示す。
論文 参考訳(メタデータ) (2024-11-17T20:13:30Z) - Unveiling Large Language Models Generated Texts: A Multi-Level Fine-Grained Detection Framework [9.976099891796784]
大型言語モデル (LLM) は文法の修正、内容の拡張、文体の改良によって人間の書き方を変えてきた。
既存の検出方法は、主に単一機能分析とバイナリ分類に依存しているが、学術的文脈においてLLM生成テキストを効果的に識別することができないことが多い。
低レベル構造, 高レベル意味, 深層言語的特徴を統合することで, LLM生成テキストを検出する多レベルきめ細粒度検出フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-18T07:25:00Z) - Training-free LLM-generated Text Detection by Mining Token Probability Sequences [18.955509967889782]
大規模言語モデル(LLM)は、様々な領域にまたがる高品質なテキストを生成する際、顕著な能力を示した。
統計的特徴を慎重に設計することで、固有の相違に焦点をあてたトレーニングフリーな手法は、一般化と解釈性の向上を提供する。
局所的および大域的統計を相乗化して検出を増強する,新しいトレーニング不要検出器である textbfLastde を導入する。
論文 参考訳(メタデータ) (2024-10-08T14:23:45Z) - Who Wrote This? The Key to Zero-Shot LLM-Generated Text Detection Is GECScore [51.65730053591696]
我々は,人文テキストがLLM生成テキストよりも文法的誤りを多く含んでいるという観察に基づく,シンプルで効果的なブラックボックスゼロショット検出手法を提案する。
実験結果から,本手法はゼロショット法や教師あり手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-05-07T12:57:01Z) - MOST: A Multi-Oriented Scene Text Detector with Localization Refinement [67.35280008722255]
シーンテキスト検出のための新しいアルゴリズムを提案し、テキストローカリゼーションの品質を大幅に向上させる一連の戦略を提案する。
具体的には,テキスト・フィーチャー・アライメント・モジュール (TFAM) を提案し,特徴の受容領域を動的に調整する。
信頼できないものを排除するために、位置認識非最大抑制(PA-NMS)モジュールを考案する。
論文 参考訳(メタデータ) (2021-04-02T14:34:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。