論文の概要: CIEC: Coupling Implicit and Explicit Cues for Multimodal Weakly Supervised Manipulation Localization
- arxiv url: http://arxiv.org/abs/2602.02175v2
- Date: Tue, 03 Feb 2026 04:22:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 13:28:03.738834
- Title: CIEC: Coupling Implicit and Explicit Cues for Multimodal Weakly Supervised Manipulation Localization
- Title(参考訳): CIEC:マルチモーダル弱監視マニピュレーションローカライゼーションのためのインプシットと明示的キューの結合
- Authors: Xinquan Yu, Wei Lu, Xiangyang Luo, Rui Yang,
- Abstract要約: Implicit と Explicit Cues (CIEC) の結合は、画像とテキストのペアに対するマルチモーダルな弱い教師付き操作のローカライゼーションを実現することを目的としている。
視覚とテキストの両方の観点から偽造の手がかりを統合し、空間的先行によって助けられた疑わしい領域にロックする。
後者では、意味のあるコンテンツワードに焦点を当て、相対的な視覚バイアスを利用してトークンのローカライゼーションを支援する。
- 参考スコア(独自算出の注目度): 25.78477436147408
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To mitigate the threat of misinformation, multimodal manipulation localization has garnered growing attention. Consider that current methods rely on costly and time-consuming fine-grained annotations, such as patch/token-level annotations. This paper proposes a novel framework named Coupling Implicit and Explicit Cues (CIEC), which aims to achieve multimodal weakly-supervised manipulation localization for image-text pairs utilizing only coarse-grained image/sentence-level annotations. It comprises two branches, image-based and text-based weakly-supervised localization. For the former, we devise the Textual-guidance Refine Patch Selection (TRPS) module. It integrates forgery cues from both visual and textual perspectives to lock onto suspicious regions aided by spatial priors. Followed by the background silencing and spatial contrast constraints to suppress interference from irrelevant areas. For the latter, we devise the Visual-deviation Calibrated Token Grounding (VCTG) module. It focuses on meaningful content words and leverages relative visual bias to assist token localization. Followed by the asymmetric sparse and semantic consistency constraints to mitigate label noise and ensure reliability. Extensive experiments demonstrate the effectiveness of our CIEC, yielding results comparable to fully supervised methods on several evaluation metrics.
- Abstract(参考訳): 誤報の脅威を軽減するため、マルチモーダル操作のローカライゼーションが注目を集めている。
現在のメソッドは、パッチ/トークンレベルのアノテーションのような、コストと時間を要するきめ細かいアノテーションに依存しています。
本稿では,大まかな粒度の画像/文レベルのアノテーションのみを用いて,画像テキストペアに対するマルチモーダル弱教師付き操作のローカライゼーションを実現することを目的とした,CIEC(Coupling Implicit and Explicit Cues)という新しいフレームワークを提案する。
イメージベースとテキストベースの弱い教師付きローカライゼーションの2つのブランチで構成されている。
前者に対しては,テキストガイダンス・リファイン・パッチ・セレクション(TRPS)モジュールを考案する。
視覚とテキストの両方の観点から偽造の手がかりを統合し、空間的先行によって助けられた疑わしい領域にロックする。
無関係領域からの干渉を抑制するために、背景のサイレンシングと空間コントラスト制約に追従した。
後者では,視覚的自由度校正Token Grounding (VCTG) モジュールを考案する。
意味のあるコンテンツワードに焦点を当て、トークンのローカライゼーションを支援するために相対的な視覚バイアスを活用する。
非対称スパースとセマンティック一貫性の制約に追従してラベルノイズを緩和し、信頼性を確保する。
広範囲な実験によりCIECの有効性が示され、いくつかの評価指標で完全に監督された手法に匹敵する結果が得られた。
関連論文リスト
- SAPL: Semantic-Agnostic Prompt Learning in CLIP for Weakly Supervised Image Manipulation Localization [45.19935082419337]
悪意のある画像操作は公衆の安全を脅かし、効率的な位置決め方法を必要とする。
既存の弱教師付き手法は画像レベルのバイナリラベルに依存し、グローバルな分類に重点を置いている。
本稿では,CLIPにおける意味非依存型プロンプト学習(SAPL)を提案し,非意味的,境界中心的なキューを意図的に符号化するテキストプロンプトを学習する。
論文 参考訳(メタデータ) (2026-01-09T07:25:55Z) - Learning by Neighbor-Aware Semantics, Deciding by Open-form Flows: Towards Robust Zero-Shot Skeleton Action Recognition [41.77490816513839]
ゼロショットスケルトン動作認識のための新しい手法を,$texttt$textbfFlora$$として提案する。
具体的には、方向対応の地域意味論と相互整合性目標を取り入れたテキスト意味論を実践する。
3つのベンチマークデータセットによる実験により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2025-11-12T14:54:53Z) - SEPS: Semantic-enhanced Patch Slimming Framework for fine-grained cross-modal alignment [8.657941729790599]
本稿では,パッチの冗長性と曖昧性に体系的に対処するセマンティック・エンハンスト・パッチ・スライミング(SEPS)フレームワークを紹介する。
提案手法では,密文と疎文の両方から統合されたセマンティクスを統合するための2段階の機構を用いて,視覚的パッチを識別する。
Flickr30KとMS-COCOデータセットの実験は、SEPSが優れたパフォーマンスを達成することを検証する。
論文 参考訳(メタデータ) (2025-11-03T09:41:32Z) - Explaining multimodal LLMs via intra-modal token interactions [55.27436637894534]
MLLM(Multimodal Large Language Models)は、様々な視覚言語タスクにおいて顕著な成功を収めているが、その内部決定機構は十分に理解されていない。
モーダル内相互作用を利用した解釈可能性の向上を提案する。
論文 参考訳(メタデータ) (2025-09-26T14:39:13Z) - DIAL: Dense Image-text ALignment for Weakly Supervised Semantic Segmentation [8.422110274212503]
弱教師付きセマンティックセグメンテーションアプローチは通常、初期シード生成にクラスアクティベーションマップ(CAM)に依存する。
DALNetは、テキストの埋め込みを利用して、さまざまなレベルの粒度のオブジェクトの包括的理解と正確な位置決めを強化する。
このアプローチは特に、シングルステージの手法として、より効率的なエンドツーエンドプロセスを可能にします。
論文 参考訳(メタデータ) (2024-09-24T06:51:49Z) - Spatial Semantic Recurrent Mining for Referring Image Segmentation [63.34997546393106]
高品質なクロスモーダリティ融合を実現するために,Stextsuperscript2RMを提案する。
これは、言語特徴の分散、空間的意味的再帰的分離、パーセマンティック・セマンティック・バランシングという三部作の作業戦略に従う。
提案手法は他の最先端アルゴリズムに対して好適に機能する。
論文 参考訳(メタデータ) (2024-05-15T00:17:48Z) - Boosting Few-shot Fine-grained Recognition with Background Suppression
and Foreground Alignment [53.401889855278704]
FS-FGR (Few-shot Fine-fine Recognition) は、限られたサンプルの助けを借りて、新しいきめ細かなカテゴリを認識することを目的としている。
本研究では,背景アクティベーション抑制 (BAS) モジュール,フォアグラウンドオブジェクトアライメント (FOA) モジュール,および局所的局所的(L2L) 類似度測定器からなる2段階の背景アライメントとフォアグラウンドアライメントフレームワークを提案する。
複数のベンチマークで行った実験により,提案手法は既存の最先端技術よりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2022-10-04T07:54:40Z) - Convex Combination Consistency between Neighbors for Weakly-supervised Action Localization [26.63463867095924]
我々は、近隣住民間の凸結合一貫性(C$3$BN)という新しいWTALアプローチを提案する。
C$3$BNは、隣接するスニペット間の多様性を高めるマイクロデータ拡張戦略と、マクロ-マイクロ整合性正規化の2つの重要な要素で構成されている。
ビデオレベルとポイントレベルの監督を行うWTALの各種ベースライン上でのC$3$BNの有効性を実験的に実証した。
論文 参考訳(メタデータ) (2022-05-01T05:30:53Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。