論文の概要: SGS: Segmentation-Guided Scoring for Global Scene Inconsistencies
- arxiv url: http://arxiv.org/abs/2509.26039v1
- Date: Tue, 30 Sep 2025 10:15:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:45:00.095556
- Title: SGS: Segmentation-Guided Scoring for Global Scene Inconsistencies
- Title(参考訳): SGS:グローバルなシーン不整合のためのセグメンテーションガイド付きスコーリング
- Authors: Gagandeep Singh, Samudi Amarsinghe, Urawee Thani, Ki Fung Wong, Priyanka Singh, Xue Li,
- Abstract要約: HAMMERはマルチモーダル操作検出のための最先端モデルである。
主主題が文脈的に不明瞭な背景に置かれると、それは一貫して失敗する。
本稿では,軽量なセグメンテーション誘導型スコアリングパイプラインを提案する。
- 参考スコア(独自算出の注目度): 12.411852993988672
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We extend HAMMER, a state-of-the-art model for multimodal manipulation detection, to handle global scene inconsistencies such as foreground-background (FG-BG) mismatch. While HAMMER achieves strong performance on the DGM4 dataset, it consistently fails when the main subject is contextually misplaced into an implausible background. We diagnose this limitation as a combination of label-space bias, local attention focus, and spurious text-foreground alignment. To remedy this without retraining, we propose a lightweight segmentation-guided scoring (SGS) pipeline. SGS uses person/face segmentation masks to separate foreground and background regions, extracts embeddings with a joint vision-language model, and computes region-aware coherence scores. These scores are fused with HAMMER's original prediction to improve binary detection, grounding, and token-level explanations. SGS is inference-only, incurs negligible computational overhead, and significantly enhances robustness to global manipulations. This work demonstrates the importance of region-aware reasoning in multimodal disinformation detection. We release scripts for segmentation and scoring at https://github.com/Gaganx0/HAMMER-sgs
- Abstract(参考訳): 我々は,マルチモーダルな操作検出のための最先端モデルであるHAMMERを拡張し,FG-BGミスマッチのような世界的シーンの不整合を処理する。
HAMMERはDGM4データセット上で高いパフォーマンスを達成するが、主主題がコンテキスト的に不適切な背景に置かれると、常に失敗する。
我々は,この限界をラベル空間バイアス,局所的注意焦点,および刺激的なテキスト地上アライメントの組み合わせとして診断する。
そこで本研究では,SGS(Segration-Guided score)パイプラインを提案する。
SGSは人/顔のセグメンテーションマスクを使用して前景と背景領域を分離し、共同視覚言語モデルで埋め込みを抽出し、地域対応のコヒーレンススコアを計算する。
これらのスコアは、バイナリ検出、接地、トークンレベルの説明を改善するためのHAMMERの当初の予測と融合している。
SGSは推論のみであり、無視可能な計算オーバーヘッドを発生させ、グローバルな操作に対するロバスト性を大幅に向上させる。
本研究は,マルチモーダル情報検出における領域認識推論の重要性を示す。
セグメンテーションとスコア付けのためのスクリプトをhttps://github.com/Gaganx0/HAMMER-sgsでリリースします。
関連論文リスト
- DGM4+: Dataset Extension for Global Scene Inconsistency [13.811302082721715]
創作されたイメージと操作されたキャプションは、説得力のある偽の物語を生み出すために、ますます共起的になっている。
我々はDGM4を5000の高品質なサンプルで拡張し、FG-BGのミスマッチとテキスト操作によるハイブリッドを取り入れた。
このリソースは、現在FG-BGの不整合に苦しんでいるHAMMERのようなマルチモーダルモデルの評価を強化することを目的としている。
論文 参考訳(メタデータ) (2025-09-30T10:24:21Z) - CAGS: Open-Vocabulary 3D Scene Understanding with Context-Aware Gaussian Splatting [18.581169318975046]
3D Gaussian Splatting (3DGS) はシーン再構築のための強力な表現を提供するが、相互視の粒度の不整合は問題である。
空間コンテキストを3DGSに組み込んだ新しいフレームワークCAGSを提案する。
CAGSは3Dインスタンスのセグメンテーションを大幅に改善し、LERF-OVSやScanNetといったデータセットのフラグメンテーションエラーを低減する。
論文 参考訳(メタデータ) (2025-04-16T09:20:03Z) - RG-SAN: Rule-Guided Spatial Awareness Network for End-to-End 3D Referring Expression Segmentation [72.95147072227998]
3D参照式は、参照式と点雲を関連付けて3Dオブジェクトをセグメントすることを目的としている。
従来のアプローチでは、インスタンスの空間情報に重点が置かれていないため、過剰なセグメンテーションや誤ったセグメンテーションといった問題に頻繁に遭遇する。
本稿では,ルールガイド型空間認識ネットワーク(RG-SAN)を導入する。
論文 参考訳(メタデータ) (2024-12-03T11:50:16Z) - Progressive Feature Self-reinforcement for Weakly Supervised Semantic
Segmentation [55.69128107473125]
Weakly Supervised Semantic (WSSS) のイメージレベルラベルを用いたシングルステージアプローチを提案する。
我々は、画像内容が決定論的領域(例えば、自信ある前景と背景)と不確実領域(例えば、オブジェクト境界と誤分類されたカテゴリ)に適応的に分割して、別々の処理を行う。
そこで我々は,これらの自信のある領域と同一のクラスラベルを持つ拡張画像とのセマンティック一貫性を制約する補完的な自己強調手法を提案する。
論文 参考訳(メタデータ) (2023-12-14T13:21:52Z) - PWISeg: Point-based Weakly-supervised Instance Segmentation for Surgical
Instruments [27.89003436883652]
我々はPWISeg (Point-based Weakly-supervised Instance) という,弱制御型手術器具セグメンテーション手法を提案する。
PWISegは、特徴点とバウンディングボックスの関係をモデル化するために、ポイント・ツー・ボックスとポイント・ツー・マスクのブランチを備えたFCNベースのアーキテクチャを採用している。
そこで本研究では,キー・ツー・マスク・ブランチを駆動し,より正確なセグメンテーション予測を生成するキー・ピクセル・アソシエーション・ロスとキー・ピクセル・アソシエーション・ロスを提案する。
論文 参考訳(メタデータ) (2023-11-16T11:48:29Z) - Anomaly Detection via Gumbel Noise Score Matching [19.61640396236456]
Gumbel Noise Score Matching (GNSM) は分類データの異常を検出する教師なしの手法である。
GNSMは全ての実験において一貫して高い性能を達成する。
本稿では,GNSMが活用するスコアマッチング学習目標の概要と,そのオープンソース実装について述べる。
論文 参考訳(メタデータ) (2023-04-06T16:52:00Z) - OAMatcher: An Overlapping Areas-based Network for Accurate Local Feature
Matching [9.006654114778073]
OAMatcherは、人間の動作を模倣して、密集した正確な一致を生成する、検知不要な手法である。
OAMatcherは重複する領域を予測し、効果的でクリーンなグローバルコンテキストアグリゲーションを促進する。
総合的な実験により、OAMatcherはいくつかのベンチマークで最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-02-12T03:32:45Z) - Fully and Weakly Supervised Referring Expression Segmentation with
End-to-End Learning [50.40482222266927]
Referring Expression(RES)は、与えられた言語表現に従ってターゲットをローカライズし、セグメンテーションすることを目的としている。
そこで我々は,カーネル分割パイプラインを並列に構築し,より分離し,局所化とセグメント化のステップと相互作用する。
我々の手法は単純だが驚くほど効果的であり、完全に教師された設定と弱い設定において、従来の最先端のRES手法よりも優れている。
論文 参考訳(メタデータ) (2022-12-17T08:29:33Z) - Global Learnable Attention for Single Image Super-Resolution [68.2129989450593]
本稿では,非局所的なテクスチャの類似度スコアを適応的に修正するグローバル学習型注意(GLA)を提案する。
GLAは、低相似性を持つ非局所的なテクスチャを探索できるが、より正確なディテールにより、深刻な損傷のあるテクスチャを修復することができる。
GLAに基づいて、SISRタスクの最先端性能を実現するためのDLSN(Deep Learnable similarity Network)を構築した。
論文 参考訳(メタデータ) (2022-12-02T09:47:21Z) - PGL: Prior-Guided Local Self-supervised Learning for 3D Medical Image
Segmentation [87.50205728818601]
本稿では,潜在特徴空間における局所的一貫性を学習するPGL(PresideedGuided Local)自己教師モデルを提案する。
我々のPGLモデルは、局所領域の特異な表現を学習し、したがって構造情報を保持できる。
論文 参考訳(メタデータ) (2020-11-25T11:03:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。