論文の概要: Detecting Text Manipulation in Images using Vision Language Models
- arxiv url: http://arxiv.org/abs/2509.10278v1
- Date: Fri, 12 Sep 2025 14:20:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 16:03:08.118036
- Title: Detecting Text Manipulation in Images using Vision Language Models
- Title(参考訳): 視覚言語モデルを用いた画像中のテキスト操作の検出
- Authors: Vidit Vidit, Pavel Korshunov, Amir Mohammadi, Christophe Ecabert, Ketan Kotwal, Sébastien Marcel,
- Abstract要約: 我々は、クローズドおよびオープンソーステキスト操作データセットを分析し、知識ギャップを橋渡しする。
我々の結果は、オープンソースモデルは近づきつつあるが、まだGPT-4oのようなクローズドソースモデルに遅れを取っていることを示唆している。
テキスト操作検出のための画像操作特定VLMのベンチマークを行い、一般化問題に悩まされていることを示す。
- 参考スコア(独自算出の注目度): 29.256013225255156
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent works have shown the effectiveness of Large Vision Language Models (VLMs or LVLMs) in image manipulation detection. However, text manipulation detection is largely missing in these studies. We bridge this knowledge gap by analyzing closed- and open-source VLMs on different text manipulation datasets. Our results suggest that open-source models are getting closer, but still behind closed-source ones like GPT- 4o. Additionally, we benchmark image manipulation detection-specific VLMs for text manipulation detection and show that they suffer from the generalization problem. We benchmark VLMs for manipulations done on in-the-wild scene texts and on fantasy ID cards, where the latter mimic a challenging real-world misuse.
- Abstract(参考訳): 近年の研究では、画像操作検出におけるLVLM(Large Vision Language Models)の有効性が示されている。
しかし、これらの研究にはテキスト操作検出がほとんど欠落している。
我々は、異なるテキスト操作データセット上で、クローズドおよびオープンソースVLMを分析することで、この知識ギャップを橋渡しする。
我々の結果は、オープンソースモデルは近づきつつあるが、まだGPT-4oのようなクローズドソースモデルに遅れを取っていることを示唆している。
さらに、テキスト操作検出のための画像操作特定VLMのベンチマークを行い、一般化問題に悩まされていることを示す。
我々は、現場のテキストやファンタジーIDカードの操作のためにVLMをベンチマークし、後者は現実世界の誤用を模倣する。
関連論文リスト
- MLLM-Enhanced Face Forgery Detection: A Vision-Language Fusion Solution [36.79921476565535]
VLF-FFDはMLLM強化顔偽造検出のための新しいビジョン・ランゲージ・フュージョン・ソリューションである。
EFF++は、広く使用されているFaceForensics++データセットのフレームレベル、説明可能性駆動拡張である。
VLF-FFDは、クロスデータセットおよびイントラデータセット評価の両方において、最先端(SOTA)性能を達成する。
論文 参考訳(メタデータ) (2025-05-04T06:58:21Z) - AlignVLM: Bridging Vision and Language Latent Spaces for Multimodal Understanding [63.09928907734156]
AlignVLMは視覚的特徴をテキスト埋め込みの重み付き平均値にマッピングする視覚テキストアライメント手法である。
実験の結果,AlignVLMは先行アライメント法と比較して最先端の性能を実現していることがわかった。
論文 参考訳(メタデータ) (2025-02-03T13:34:51Z) - Measuring and Mitigating Hallucinations in Vision-Language Dataset Generation for Remote Sensing [19.344890308208555]
本稿では,地図を外部データソースとして統合することで,遠隔センシングのための視覚言語データセットを強化する手法を提案する。
本稿では、衛星画像、地図、メタデータ、テキストアノテーションを組み込んだマルチモーダルデータセットであるfMoW-mmを紹介する。
論文 参考訳(メタデータ) (2025-01-24T20:13:29Z) - The Narrow Gate: Localized Image-Text Communication in Vision-Language Models [36.33608889682152]
本研究では,視覚言語モデルが画像理解タスクをどのように扱うかを検討する。
マルチモーダルな出力を持つモデルでは、画像とテキストの埋め込みは残留ストリーム内でより分離される。
対照的に、画像生成とテキスト生成のために訓練されたモデルは、視覚情報の狭いゲートとして機能する単一のトークンに依存する傾向がある。
論文 参考訳(メタデータ) (2024-12-09T16:39:40Z) - GigaCheck: Detecting LLM-generated Content [72.27323884094953]
本稿では,GigaCheckを提案することによって生成したテキスト検出の課題について検討する。
本研究は,LLM生成テキストとLLM生成テキストを区別する手法と,Human-Machine協調テキストにおけるLLM生成間隔を検出する手法について検討する。
具体的には,テキスト内のAI生成間隔をローカライズするために,コンピュータビジョンから適応したDETRのような検出モデルと組み合わせて,微調整の汎用LLMを用いる。
論文 参考訳(メタデータ) (2024-10-31T08:30:55Z) - Attention Prompting on Image for Large Vision-Language Models [63.794304207664176]
本稿では,画像上の注意喚起という新しいプロンプト手法を提案する。
我々は,CLIPのような補助モデルを用いて,テキストクエリに依存する入力画像に対するアテンションヒートマップを生成する。
各種バイソン言語ベンチマークの実験により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-09-25T17:59:13Z) - AdaptVision: Dynamic Input Scaling in MLLMs for Versatile Scene Understanding [96.01726275876548]
本稿では,様々な解像度の入力画像を動的に処理するマルチモーダルな大規模言語モデルAdaptVisionを提案する。
画像のサイズやアスペクト比に応じて視覚トークンの数を調整する動的画像分割モジュールを考案する。
私たちのモデルは、解像度1008倍の1008ドルまでの画像を処理できます。
論文 参考訳(メタデータ) (2024-08-30T03:16:49Z) - LDEdit: Towards Generalized Text Guided Image Manipulation via Latent
Diffusion Models [12.06277444740134]
フレキシブルテキスト入力を持つ単一モデルを用いた汎用画像操作は非常に望ましい。
最近の研究は、事前学習された視覚言語エンコーダを用いて、ジェネリックイメージで訓練された生成モデルを導くことで、この課題に対処している。
本稿では,テキストプロンプトから画像の汎用的な操作を行うための最適化不要な手法を提案する。
論文 参考訳(メタデータ) (2022-10-05T13:26:15Z) - StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery [71.1862388442953]
StyleGAN画像操作のためのテキストベースのインターフェースを開発しています。
まず,ユーザが提案するテキストプロンプトに応答して,CLIPに基づく損失を利用して入力潜時ベクトルを変更する最適化手法を提案する。
次に、与えられた入力画像に対してテキスト誘導の潜時操作ステップを推論し、より高速で安定したテキストベースの操作を可能にする潜時マッパーについて述べる。
論文 参考訳(メタデータ) (2021-03-31T17:51:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。