論文の概要: Bridging Semantic Logic Gaps: A Cognition-Inspired Multimodal Boundary-Preserving Network for Image Manipulation Localization
- arxiv url: http://arxiv.org/abs/2508.07216v1
- Date: Sun, 10 Aug 2025 07:36:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.759197
- Title: Bridging Semantic Logic Gaps: A Cognition-Inspired Multimodal Boundary-Preserving Network for Image Manipulation Localization
- Title(参考訳): Bridging Semantic Logic Gaps:画像操作の局所化のための認知型マルチモーダル境界保存ネットワーク
- Authors: Songlin Li, Zhiqing Guo, Yuanman Li, Zeyu Li, Yunfeng Diao, Gaobo Yang, Liejun Wang,
- Abstract要約: 認知にインスパイアされたマルチモーダル境界保存ネットワーク(CMB-Net)を提案する。
CMB-Netは、視覚情報における意味的関係の欠如を補うために、プロンプトベースのテキスト情報を生成する。
テキスト特徴と画像特徴のあいまいさを定量化することで、テキスト特徴に重みを割り当てる。
- 参考スコア(独自算出の注目度): 16.167656321779635
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The existing image manipulation localization (IML) models mainly relies on visual cues, but ignores the semantic logical relationships between content features. In fact, the content semantics conveyed by real images often conform to human cognitive laws. However, image manipulation technology usually destroys the internal relationship between content features, thus leaving semantic clues for IML. In this paper, we propose a cognition-inspired multimodal boundary-preserving network (CMB-Net). Specifically, CMB-Net utilizes large language models (LLMs) to analyze manipulated regions within images and generate prompt-based textual information to compensate for the lack of semantic relationships in the visual information. Considering that the erroneous texts induced by hallucination from LLMs will damage the accuracy of IML, we propose an image-text central ambiguity module (ITCAM). It assigns weights to the text features by quantifying the ambiguity between text and image features, thereby ensuring the beneficial impact of textual information. We also propose an image-text interaction module (ITIM) that aligns visual and text features using a correlation matrix for fine-grained interaction. Finally, inspired by invertible neural networks, we propose a restoration edge decoder (RED) that mutually generates input and output features to preserve boundary information in manipulated regions without loss. Extensive experiments show that CMB-Net outperforms most existing IML models.
- Abstract(参考訳): 既存の画像操作ローカライゼーション(IML)モデルは、主に視覚的手がかりに依存しているが、コンテンツ特徴間の意味論的論理的関係を無視している。
実際、実際の画像によって伝達される内容の意味は、しばしば人間の認知法則に従っている。
しかし、画像操作技術は、通常、コンテンツ機能間の内部関係を破壊し、IMLのセマンティックなヒントを残す。
本稿では,認知にインスパイアされたマルチモーダル境界保存ネットワーク(CMB-Net)を提案する。
具体的には,大規模な言語モデル(LLM)を用いて画像内の操作された領域を分析し,視覚情報における意味的関係の欠如を補うために,プロンプトベースのテキスト情報を生成する。
LLMからの幻覚によって引き起こされる誤テキストがIMLの精度を損なうことを考慮し、画像テキスト中央曖昧度モジュール(ITCAM)を提案する。
テキスト特徴と画像特徴のあいまいさを定量化することでテキスト特徴に重みを割り当て、テキスト情報の有益な影響を確実にする。
また,細粒度インタラクションのための相関行列を用いて,視覚的特徴とテキスト的特徴を整列する画像-テキストインタラクションモジュール(ITIM)を提案する。
最後に,非可逆ニューラルネットワークにインスパイアされたリカバリエッジデコーダ(RED)を提案する。
大規模な実験の結果、CMB-Netは既存のMLモデルよりも優れていた。
関連論文リスト
- SmartCLIP: Modular Vision-language Alignment with Identification Guarantees [59.16312652369709]
Contrastive Language-Image Pre-Traiing (CLIP)citepradford2021 Learningは、コンピュータビジョンとマルチモーダル学習において重要なモデルとして登場した。
CLIPは、多くの画像テキストデータセットにおける潜在的な情報ミスアライメントに苦労し、絡み合った表現に悩まされている。
モジュラー方式で、最も関連性の高い視覚的およびテキスト的表現を特定し、調整する新しいアプローチである。
論文 参考訳(メタデータ) (2025-07-29T22:26:20Z) - TeSG: Textual Semantic Guidance for Infrared and Visible Image Fusion [55.34830989105704]
Infrared and visible image fusion (IVF) は、画像モダリティの相補的な情報を組み合わせることを目的としている。
テキスト意味論は,マスクの意味レベルとテキスト意味レベルという2つのレベルで導入する。
画像合成プロセスのガイドとなる赤外線・可視画像融合のためのテクスチュアル・セマンティック・ガイダンスを提案する。
論文 参考訳(メタデータ) (2025-06-20T03:53:07Z) - Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - EntityCLIP: Entity-Centric Image-Text Matching via Multimodal Attentive Contrastive Learning [35.87830182497944]
本稿では,textbfEntity中心の textbfImage-textbfText textbfMatching (EITM) 問題について検討する。
このタスクの課題は、主にエンティティ・アソシエーション・モデリングにおける大きなセマンティック・ギャップにある。
我々は,EITM問題に適応するマルチモーダル注意型コントラスト学習フレームワークを考案し,EntityCLIPというモデルを開発した。
論文 参考訳(メタデータ) (2024-10-23T12:12:56Z) - CLIM: Contrastive Language-Image Mosaic for Region Representation [58.05870131126816]
Contrastive Language-Image Mosaic (CLIM) は、領域とテキストの表現を整合させる新しいアプローチである。
CLIMは、異なるオープン語彙オブジェクト検出方法を一貫して改善する。
視覚言語モデルの領域表現を効果的に強化することができる。
論文 参考訳(メタデータ) (2023-12-18T17:39:47Z) - CtxMIM: Context-Enhanced Masked Image Modeling for Remote Sensing Image Understanding [38.53988682814626]
リモートセンシング画像理解のためのコンテキスト強化マスク画像モデリング手法(CtxMIM)を提案する。
CtxMIMは、オリジナルのイメージパッチを再構成テンプレートとして定式化し、2セットのイメージパッチを操作するために、Siameseフレームワークを使用している。
シンプルでエレガントな設計により、CtxMIMは、大規模データセットでオブジェクトレベルまたはピクセルレベルの機能を学ぶための事前トレーニングモデルを奨励する。
論文 参考訳(メタデータ) (2023-09-28T18:04:43Z) - LD-ZNet: A Latent Diffusion Approach for Text-Based Image Segmentation [10.623430999818925]
本稿では,インターネット規模のデータセットに基づいて学習した潜在拡散モデル(LDM)を用いて,実画像とAI画像のセグメンテーションを行う手法を提案する。
自然画像のテキストと画像のセグメンテーションにおいて,標準ベースラインよりも6%向上することを示す。
AI生成画像では、最先端技術と比較して20%近く改善されている。
論文 参考訳(メタデータ) (2023-03-22T06:55:01Z) - Fine-Grained Semantically Aligned Vision-Language Pre-Training [151.7372197904064]
大規模な視覚言語による事前学習は、幅広い下流タスクにおいて顕著な進歩を見せている。
既存の手法は主に、画像とテキストのグローバルな表現の類似性によって、モーダル間のアライメントをモデル化する。
ゲーム理論的相互作用の新たな視点から, 微粒なセマンティックアライメントを学習する, 微粒なセマンティックなvisiOn-langUage PrEトレーニングフレームワークであるLOを導入する。
論文 参考訳(メタデータ) (2022-08-04T07:51:48Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。