論文の概要: Image Difference Grounding with Natural Language
- arxiv url: http://arxiv.org/abs/2504.01952v1
- Date: Wed, 02 Apr 2025 17:56:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:21:11.953846
- Title: Image Difference Grounding with Natural Language
- Title(参考訳): 自然言語による画像差分接地
- Authors: Wenxuan Wang, Zijia Zhao, Yisi Zhang, Yepeng Tang, Erdong Hu, Xinlong Wang, Jing Liu,
- Abstract要約: ユーザの指示に基づいて視覚的差分を正確に局所化するタスクである画像差分グラウンド(IDG)を提案する。
我々は,IDGの大規模かつ高品質なデータセットであるDiffGroundを紹介した。
DiffTrackerというIDGのベースラインモデルを提案し、特徴差分拡張と共通抑制を効果的に統合し、差分を正確に特定する。
- 参考スコア(独自算出の注目度): 34.6184261751568
- License:
- Abstract: Visual grounding (VG) typically focuses on locating regions of interest within an image using natural language, and most existing VG methods are limited to single-image interpretations. This limits their applicability in real-world scenarios like automatic surveillance, where detecting subtle but meaningful visual differences across multiple images is crucial. Besides, previous work on image difference understanding (IDU) has either focused on detecting all change regions without cross-modal text guidance, or on providing coarse-grained descriptions of differences. Therefore, to push towards finer-grained vision-language perception, we propose Image Difference Grounding (IDG), a task designed to precisely localize visual differences based on user instructions. We introduce DiffGround, a large-scale and high-quality dataset for IDG, containing image pairs with diverse visual variations along with instructions querying fine-grained differences. Besides, we present a baseline model for IDG, DiffTracker, which effectively integrates feature differential enhancement and common suppression to precisely locate differences. Experiments on the DiffGround dataset highlight the importance of our IDG dataset in enabling finer-grained IDU. To foster future research, both DiffGround data and DiffTracker model will be publicly released.
- Abstract(参考訳): 視覚的グラウンドリング(VG)は一般的に、自然言語を用いて画像内の関心領域を特定することに重点を置いており、既存のVG法は単一画像の解釈に限られている。
これは、複数の画像間で微妙に、意味のある視覚的違いを検出することが重要となる、自動監視のような現実のシナリオにおける適用性を制限する。
さらに、画像差分理解(IDU)に関するこれまでの研究は、クロスモーダルテキストガイダンスを使わずにすべての変化領域を検出すること、あるいは、相違点の粗い記述を提供することに重点を置いてきた。
そこで本研究では,より詳細な視覚言語知覚に向けて,ユーザ指示に基づいて視覚的差分を高精度にローカライズするタスクである画像差分グラウンド(IDG)を提案する。
我々は,IDGの大規模かつ高品質なデータセットであるDiffGroundを紹介した。
さらに,DiffTrackerというIDGのベースラインモデルを提案する。
DiffGroundデータセットの実験では、よりきめ細かいIDUを可能にする上で、IDGデータセットの重要性を強調しています。
将来の研究を促進するため、DiffGroundデータとDiffTrackerモデルの両方が公開される。
関連論文リスト
- Img-Diff: Contrastive Data Synthesis for Multimodal Large Language Models [49.439311430360284]
コントラスト学習と画像差分キャプションにインスパイアされた新しいデータ合成手法を提案する。
私たちのキーとなるアイデアは、マッチングと異なる要素の両方を識別するためにモデルに挑戦することです。
我々は、この生成されたデータセットを利用して、最先端(SOTA)MLLMを微調整する。
論文 参考訳(メタデータ) (2024-08-08T17:10:16Z) - OneDiff: A Generalist Model for Image Difference Captioning [5.71214984158106]
画像差分キャプション(IDC)は、近縁な画像間の変化を正確に記述するために重要である。
OneDiffは、堅牢な視覚言語モデルアーキテクチャを利用する新しいジェネラリストアプローチである。
OneDiffは、既存の最先端モデルを精度と適応性で一貫して上回っている。
論文 参考訳(メタデータ) (2024-07-08T06:14:37Z) - Multi-Granularity Language-Guided Multi-Object Tracking [95.91263758294154]
本稿では,多目的追跡フレームワークLG-MOTを提案する。
推測では、LG-MOTは注釈付き言語記述に頼ることなく、標準的な視覚機能を使用します。
我々のLG-MOTは、視覚的特徴のみを用いたベースラインと比較して、目標対象関連(IDF1スコア)において、絶対的な2.2%のゲインを達成している。
論文 参考訳(メタデータ) (2024-06-07T11:18:40Z) - WIDIn: Wording Image for Domain-Invariant Representation in Single-Source Domain Generalization [63.98650220772378]
We present WIDIn, Wording Images for Domain-Invariant representation, to disentangleative discriminative visual representation。
まず、ドメイン固有の言語を適応的に識別し、削除するために使用可能な、きめ細かいアライメントを組み込んだ言語を推定する。
WIDInは、CLIPのような事前訓練された視覚言語モデルと、MoCoやBERTのような個別訓練されたユニモーダルモデルの両方に適用可能であることを示す。
論文 参考訳(メタデータ) (2024-05-28T17:46:27Z) - Language Guided Domain Generalized Medical Image Segmentation [68.93124785575739]
単一ソースドメインの一般化は、より信頼性が高く一貫性のあるイメージセグメンテーションを現実の臨床環境にわたって約束する。
本稿では,テキストエンコーダ機能によって案内されるコントラスト学習機構を組み込むことで,テキスト情報を明確に活用する手法を提案する。
文献における既存手法に対して,本手法は良好な性能を発揮する。
論文 参考訳(メタデータ) (2024-04-01T17:48:15Z) - A Transformer-Based Adaptive Semantic Aggregation Method for UAV Visual
Geo-Localization [2.1462492411694756]
本稿では,無人航空機(UAV)の視覚的ジオローカライゼーションの課題について述べる。
部分レベルの表現は、画像の詳細をキャプチャし、シーンの意味情報を理解するのに役立つため、UAVの視覚的ジオローカライゼーションには、パートマッチングが不可欠である。
画像中の最も代表的な意味論として部品を考慮に入れた変換器に基づく適応的意味的アグリゲーション手法を提案する。
論文 参考訳(メタデータ) (2024-01-03T06:58:52Z) - Describing Differences in Image Sets with Natural Language [101.80939666230168]
モデルの振る舞いを理解し、データセットを分析するためには、セットレベルの差異を識別することが不可欠である。
本稿では、まずイメージをキャプションし、言語モデルに差分記述を提案するVisDiffを紹介する。
データセットとモデルにこれまで知られていなかった興味深い違いを見つけることができ、微妙な洞察を明らかにする上で、VisDiffの実用性を示すことができます。
論文 参考訳(メタデータ) (2023-12-05T18:59:16Z) - Fine-grained Recognition with Learnable Semantic Data Augmentation [68.48892326854494]
きめ細かい画像認識は、長年続くコンピュータビジョンの課題である。
本稿では,識別領域損失問題を軽減するため,特徴レベルのトレーニングデータを多様化することを提案する。
本手法は,いくつかの人気分類ネットワーク上での一般化性能を著しく向上させる。
論文 参考訳(メタデータ) (2023-09-01T11:15:50Z) - Unsupervised Domain Adaptive Fundus Image Segmentation with Few Labeled
Source Data [17.106866501665916]
unsupervised domain adapt(UDA)メソッドは、未ラベルのターゲットファンドデータセット上のモデルの一般化能力を高める。
UDAメソッドは常にソースドメインからの十分なラベル付きデータを必要とし、補助的なデータ取得とアノテーションコストをもたらす。
本稿では,ソースデータスタイルを多様化し,データ量を増加させる検索型マルチスタイル不変機構を提案する。
提案手法は,UDAファウンダス・セグメンテーションに基づく最先端のUDAセグメンテーション法と,ラベル付き情報源データとを比較検討した。
論文 参考訳(メタデータ) (2022-10-10T00:30:48Z) - Unsupervised Domain Adaptation with Histogram-gated Image Translation
for Delayered IC Image Analysis [2.720699926154399]
Histogram-gated Image Translation (HGIT)は、特定のソースデータセットからターゲットデータセットのドメインに変換する、教師なしのドメイン適応フレームワークである。
提案手法は,報告したドメイン適応手法と比較して最高の性能を達成し,完全教師付きベンチマークに適当に近い。
論文 参考訳(メタデータ) (2022-09-27T15:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。