論文の概要: LogicLens: Visual-Logical Co-Reasoning for Text-Centric Forgery Analysis
- arxiv url: http://arxiv.org/abs/2512.21482v1
- Date: Thu, 25 Dec 2025 03:02:27 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-29 12:01:05.892831
- Title: LogicLens: Visual-Logical Co-Reasoning for Text-Centric Forgery Analysis
- Title(参考訳): LogicLens: テキスト中心の偽造分析のためのビジュアル論理的共推論
- Authors: Fanwei Zeng, Changtao Miao, Jing Huang, Zhiya Tan, Shutao Gong, Xiaoming Yu, Yang Wang, Huazhe Tan, Weibin Yao, Jianshu Li,
- Abstract要約: テキスト中心の偽造は、社会保障と情報認証に重大な脅威をもたらす。
テキスト中心の偽造分析の現在の手法は、粗い粒度の視覚分析に限られることが多い。
LogicLens は Visual-Textual Co-reasoning のための統合フレームワークである。
- 参考スコア(独自算出の注目度): 10.305807834419765
- License:
- Abstract: Sophisticated text-centric forgeries, fueled by rapid AIGC advancements, pose a significant threat to societal security and information authenticity. Current methods for text-centric forgery analysis are often limited to coarse-grained visual analysis and lack the capacity for sophisticated reasoning. Moreover, they typically treat detection, grounding, and explanation as discrete sub-tasks, overlooking their intrinsic relationships for holistic performance enhancement. To address these challenges, we introduce LogicLens, a unified framework for Visual-Textual Co-reasoning that reformulates these objectives into a joint task. The deep reasoning of LogicLens is powered by our novel Cross-Cues-aware Chain of Thought (CCT) mechanism, which iteratively cross-validates visual cues against textual logic. To ensure robust alignment across all tasks, we further propose a weighted multi-task reward function for GRPO-based optimization. Complementing this framework, we first designed the PR$^2$ (Perceiver, Reasoner, Reviewer) pipeline, a hierarchical and iterative multi-agent system that generates high-quality, cognitively-aligned annotations. Then, we constructed RealText, a diverse dataset comprising 5,397 images with fine-grained annotations, including textual explanations, pixel-level segmentation, and authenticity labels for model training. Extensive experiments demonstrate the superiority of LogicLens across multiple benchmarks. In a zero-shot evaluation on T-IC13, it surpasses the specialized framework by 41.4% and GPT-4o by 23.4% in macro-average F1 score. Moreover, on the challenging dense-text T-SROIE dataset, it establishes a significant lead over other MLLM-based methods in mF1, CSS, and the macro-average F1. Our dataset, model, and code will be made publicly available.
- Abstract(参考訳): AIGCの急速な進歩によって加速された、高度化されたテキスト中心の偽造は、社会保障と情報の真正性に重大な脅威をもたらす。
テキスト中心の偽造分析の現在の手法は、しばしば粗い粒度の視覚分析に限られ、洗練された推論の能力が欠如している。
さらに、検出、接地、説明を個別のサブタスクとして扱い、本質的な関係を見越して総合的なパフォーマンス向上を行うのが一般的である。
これらの課題に対処するために、我々は、これらの目的を共同タスクに再構成するVisual-Textual Co-reasoningのための統合フレームワークLogicLensを紹介します。
LogicLensの深い推論は、私たちの新しいCCT(Cross-Cues-aware Chain of Thought)メカニズムによって実現されています。
タスク間のロバストなアライメントを確保するため,GRPOに基づく最適化のための重み付きマルチタスク報酬関数を提案する。
このフレームワークを補完し、私たちはまず、高品質で認知に整合したアノテーションを生成する階層的で反復的なマルチエージェントシステムであるPR$^2$(Perceiver, Reasoner, Reviewer)パイプラインを設計しました。
そして,テキストによる説明,ピクセルレベルのセグメンテーション,モデルのトレーニングのための認証ラベルなど,詳細なアノテーションを備えた5,397のイメージからなる多種多様なデータセットであるRealTextを構築した。
大規模な実験は、複数のベンチマークでLogicLensの優位性を実証している。
T-IC13のゼロショット評価では、特定のフレームワークを41.4%、GPT-4oを23.4%上回っている。
さらに、挑戦的な高密度テキストT-SROIEデータセットでは、mF1、CSS、マクロ平均F1の他のMLLMベースのメソッドよりも大きなリードを確立している。
私たちのデータセット、モデル、コードは公開されます。
関連論文リスト
- ViSS-R1: Self-Supervised Reinforcement Video Reasoning [84.1180294023835]
本稿では,新しい自己教師付き強化学習GRPOアルゴリズム(Pretext-GRPO)を標準R1パイプライン内に導入する。
また、プリテキストタスクに基づく自己教師型学習をMLLMのR1ポストトレーニングパラダイムに直接統合するViSS-R1フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-17T07:00:42Z) - CIR-CoT: Towards Interpretable Composed Image Retrieval via End-to-End Chain-of-Thought Reasoning [93.05917922306196]
Composed Image Retrieval (CIR) は、参照画像と修正テキストから対象画像を見つけることを目的としている。
CIR-CoTは、明示的なChain-of-Thought (CoT)推論を統合するために設計された最初のエンドツーエンド検索指向MLLMである。
論文 参考訳(メタデータ) (2025-10-09T09:41:45Z) - Logic Unseen: Revealing the Logical Blindspots of Vision-Language Models [58.456656119178064]
VLM(Vision-Language Models)は、マルチモーダルインテリジェンスの基礎として登場した。
しかし、その論理的理解能力は依然として明らかに過小評価されている。
LogicBenchは9つの論理カテゴリと4つの多様なシナリオにまたがる5万以上の視覚言語ペアを備えたベンチマークである。
VLMの論理感度を高めるためのトレーニングフレームワークであるLogicCLIPを提案する。
論文 参考訳(メタデータ) (2025-08-15T08:40:13Z) - Large Language Models Meet Symbolic Provers for Logical Reasoning Evaluation [24.081573908824353]
一階述語論理(FOL)推論はインテリジェントシステムにおいて重要である。
既存のベンチマークは、広範囲の人間のアノテーションや手作りテンプレートに依存していることが多い。
本稿では,大言語モデルの生成強度を記号型プローサの厳密性と精度で相乗化するProverGenという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-10T15:31:54Z) - Meta-Chunking: Learning Text Segmentation and Semantic Completion via Logical Perception [10.614437503578856]
本稿では,チャンキング品質を特に向上させるメタチャンキングフレームワークを提案する。
我々は不確実性に基づく2つの適応的チャンキング手法、すなわちPerplexity ChunkingとMargin Sampling Chunkingを設計する。
我々は,2段階の階層的要約生成プロセスと3段階のテキストチャンク書き換え手順を含むグローバル情報補償機構を確立する。
論文 参考訳(メタデータ) (2024-10-16T17:59:32Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - MURMUR: Modular Multi-Step Reasoning for Semi-Structured Data-to-Text
Generation [102.20036684996248]
多段階推論を用いた半構造化データからテキストを生成するための,ニューロシンボリックなモジュラーアプローチであるMURMURを提案する。
WebNLG や LogicNLG のような2つのデータ・テキスト生成タスクについて実験を行った。
論文 参考訳(メタデータ) (2022-12-16T17:36:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。