論文の概要: OmniDiff: A Comprehensive Benchmark for Fine-grained Image Difference Captioning
- arxiv url: http://arxiv.org/abs/2503.11093v1
- Date: Fri, 14 Mar 2025 05:34:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:07:25.315130
- Title: OmniDiff: A Comprehensive Benchmark for Fine-grained Image Difference Captioning
- Title(参考訳): OmniDiff: きめ細かい画像差分キャプションのための総合ベンチマーク
- Authors: Yuan Liu, Saihui Hou, Saijie Hou, Jiabao Du, Shibei Meng, Yongzhen Huang,
- Abstract要約: OmniDiffは324の多様なシナリオスパンニング現実環境と3D合成環境からなる包括的データセットである。
M$3$Diffは、MDP(Multi-scale Differential Perception)モジュールによって拡張されたMultiModalの大型言語モデルである。
M$3$Diffは、Spot-the-Diff、IEdit、CLEVR-Change、CLEVR-DC、OmniDiffなど、複数のベンチマークで最先端のパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 8.438910952889854
- License:
- Abstract: Image Difference Captioning (IDC) aims to generate natural language descriptions of subtle differences between image pairs, requiring both precise visual change localization and coherent semantic expression. Despite recent advancements, existing datasets often lack breadth and depth, limiting their applicability in complex and dynamic environments: (1) from a breadth perspective, current datasets are constrained to limited variations of objects in specific scenes, and (2) from a depth perspective, prior benchmarks often provide overly simplistic descriptions. To address these challenges, we introduce OmniDiff, a comprehensive dataset comprising 324 diverse scenarios-spanning real-world complex environments and 3D synthetic settings-with fine-grained human annotations averaging 60 words in length and covering 12 distinct change types. Building on this foundation, we propose M$^3$Diff, a MultiModal large language model enhanced by a plug-and-play Multi-scale Differential Perception (MDP) module. This module improves the model's ability to accurately identify and describe inter-image differences while maintaining the foundational model's generalization capabilities. With the addition of the OmniDiff dataset, M$^3$Diff achieves state-of-the-art performance across multiple benchmarks, including Spot-the-Diff, IEdit, CLEVR-Change, CLEVR-DC, and OmniDiff, demonstrating significant improvements in cross-scenario difference recognition accuracy compared to existing methods. The dataset, code, and models will be made publicly available to support further research.
- Abstract(参考訳): 画像差分キャプション(IDC)は、画像ペア間の微妙な差異を自然言語で記述することを目的としており、正確な視覚的変化のローカライゼーションとコヒーレントなセマンティック表現の両方を必要とする。
最近の進歩にもかかわらず、既存のデータセットは、しばしば幅と深さを欠き、複雑でダイナミックな環境での適用性を制限する:(1)幅の観点では、現在のデータセットは特定のシーンにおけるオブジェクトの限られたバリエーションに制限され、(2)深さの観点では、以前のベンチマークはしばしば過度に単純化された説明を提供する。
これらの課題に対処するために、OmniDiffという324の多様なシナリオスパンニング現実世界の複雑な環境と3D合成設定からなる包括的なデータセットを紹介します。
本稿では,M$^3$Diffを提案する。M$^3$Diffは,MDP(Multi-scale Differential Perception)モジュールによって拡張されたマルチモーダルな大規模言語モデルである。
このモジュールは、基礎モデルの一般化能力を維持しながら、画像間の違いを正確に識別し記述するモデルの能力を向上させる。
OmniDiffデータセットを追加することで、M$^3$Diffは、Spot-the-Diff、IEdit、CLEVR-Change、CLEVR-DC、OmniDiffなど、複数のベンチマークで最先端のパフォーマンスを実現し、既存の方法と比較して、クロスシナリオの差分認識精度が大幅に向上した。
データセット、コード、モデルは公開され、さらなる研究をサポートする。
関連論文リスト
- SM3Det: A Unified Model for Multi-Modal Remote Sensing Object Detection [73.49799596304418]
本稿では,リモートセンシングのためのマルチモーダルデータセットとマルチタスクオブジェクト検出(M2Det)という新しいタスクを提案する。
水平方向または指向方向の物体を、あらゆるセンサーから正確に検出するように設計されている。
この課題は、1)マルチモーダルモデリングの管理に関わるトレードオフ、2)マルチタスク最適化の複雑さに起因する。
論文 参考訳(メタデータ) (2024-12-30T02:47:51Z) - HMGIE: Hierarchical and Multi-Grained Inconsistency Evaluation for Vision-Language Data Cleansing [54.970275599061594]
我々は階層的・多階層的不整合評価(HMGIE)と呼ばれる適応的評価フレームワークを設計する。
HMGIEは、様々な画像キャプチャー対の精度と完全性の両方をカバーする多粒度評価を提供する。
提案手法の有効性と柔軟性を検証するため,様々なタイプの画像キャプチャー・データセットであるMVTIDを構築した。
論文 参考訳(メタデータ) (2024-12-07T15:47:49Z) - CCExpert: Advancing MLLM Capability in Remote Sensing Change Captioning with Difference-Aware Integration and a Foundational Dataset [26.056704438848985]
本稿では,新しいマルチモーダル大規模モデルフレームワークであるCCExpertを提案する。
まず,両時間画像間のマルチスケール差をキャプチャする差分認識統合モジュールを設計する。
第2に、20万の画像対と120万のキャプションを含む、CC-Foundationと呼ばれる高品質で多様なデータセットを構築しました。
最後に,3段階のプログレッシブ・トレーニング・プロセスを用いて,事前学習したMLLMと差認識統合モジュールの深い統合を保証した。
論文 参考訳(メタデータ) (2024-11-18T08:10:49Z) - Large Spatial Model: End-to-end Unposed Images to Semantic 3D [79.94479633598102]
大空間モデル(LSM)は、RGB画像を直接意味的放射場に処理する。
LSMは、単一のフィードフォワード操作における幾何学、外観、意味を同時に推定する。
新しい視点で言語と対話することで、多目的ラベルマップを生成することができる。
論文 参考訳(メタデータ) (2024-10-24T17:54:42Z) - Img-Diff: Contrastive Data Synthesis for Multimodal Large Language Models [49.439311430360284]
コントラスト学習と画像差分キャプションにインスパイアされた新しいデータ合成手法を提案する。
私たちのキーとなるアイデアは、マッチングと異なる要素の両方を識別するためにモデルに挑戦することです。
我々は、この生成されたデータセットを利用して、最先端(SOTA)MLLMを微調整する。
論文 参考訳(メタデータ) (2024-08-08T17:10:16Z) - OneDiff: A Generalist Model for Image Difference Captioning [5.71214984158106]
画像差分キャプション(IDC)は、近縁な画像間の変化を正確に記述するために重要である。
OneDiffは、堅牢な視覚言語モデルアーキテクチャを利用する新しいジェネラリストアプローチである。
OneDiffは、既存の最先端モデルを精度と適応性で一貫して上回っている。
論文 参考訳(メタデータ) (2024-07-08T06:14:37Z) - MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。
結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文 参考訳(メタデータ) (2024-06-13T17:59:30Z) - Multi-Granularity Language-Guided Multi-Object Tracking [95.91263758294154]
本稿では,多目的追跡フレームワークLG-MOTを提案する。
推測では、LG-MOTは注釈付き言語記述に頼ることなく、標準的な視覚機能を使用します。
我々のLG-MOTは、視覚的特徴のみを用いたベースラインと比較して、目標対象関連(IDF1スコア)において、絶対的な2.2%のゲインを達成している。
論文 参考訳(メタデータ) (2024-06-07T11:18:40Z) - SM$^3$: Self-Supervised Multi-task Modeling with Multi-view 2D Images
for Articulated Objects [24.737865259695006]
そこで本研究では, SM$3$と呼ばれる自己教師型相互作用認識手法を提案する。
取得した2次元画像から3次元の幾何学とテクスチャを構築することで、SM$3$は可動部と関節パラメータの統合最適化を実現する。
SM$3$は、様々なカテゴリやオブジェクトにわたる既存のベンチマークを上回り、実際のシナリオにおける適応性は、徹底的に検証されている。
論文 参考訳(メタデータ) (2024-01-17T11:15:09Z) - Dynamic Visual Semantic Sub-Embeddings and Fast Re-Ranking [0.5242869847419834]
情報エントロピーを低減するために動的ビジュアルセマンティックサブエンベッドディングフレームワーク(DVSE)を提案する。
生成した候補埋め込みに様々な意味的変動を捉えるよう促すため,混合分布を構築した。
3つのベンチマークデータセット上の4つの画像特徴エンコーダと2つのテキスト特徴エンコーダを用いて,既存のセットベース手法と比較した。
論文 参考訳(メタデータ) (2023-09-15T04:39:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。