論文の概要: Describing and Localizing Multiple Changes with Transformers
- arxiv url: http://arxiv.org/abs/2103.14146v1
- Date: Thu, 25 Mar 2021 21:52:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-29 12:48:11.660886
- Title: Describing and Localizing Multiple Changes with Transformers
- Title(参考訳): 変圧器による複数変化の記述と位置決め
- Authors: Yue Qiu and Shintaro Yamamoto and Kodai Nakashima and Ryota Suzuki and
Kenji Iwata and Hirokatsu Kataoka and Yutaka Satoh
- Abstract要約: 変更キャプションタスクは、シーン変更前後で観察されるイメージペアの変化を検出することを目的としている。
CGに基づくマルチチェンジキャプションデータセットを提案する。
マルチチェンジキャプションにおける単一変更キャプションの既存手法をベンチマークする。
- 参考スコア(独自算出の注目度): 24.138480002212994
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Change captioning tasks aim to detect changes in image pairs observed before
and after a scene change and generate a natural language description of the
changes. Existing change captioning studies have mainly focused on scenes with
a single change. However, detecting and describing multiple changed parts in
image pairs is essential for enhancing adaptability to complex scenarios. We
solve the above issues from three aspects: (i) We propose a CG-based
multi-change captioning dataset; (ii) We benchmark existing state-of-the-art
methods of single change captioning on multi-change captioning; (iii) We
further propose Multi-Change Captioning transformers (MCCFormers) that identify
change regions by densely correlating different regions in image pairs and
dynamically determines the related change regions with words in sentences. The
proposed method obtained the highest scores on four conventional change
captioning evaluation metrics for multi-change captioning. In addition,
existing methods generate a single attention map for multiple changes and lack
the ability to distinguish change regions. In contrast, our proposed method can
separate attention maps for each change and performs well with respect to
change localization. Moreover, the proposed framework outperformed the previous
state-of-the-art methods on an existing change captioning benchmark,
CLEVR-Change, by a large margin (+6.1 on BLEU-4 and +9.7 on CIDEr scores),
indicating its general ability in change captioning tasks.
- Abstract(参考訳): 変更キャプションタスクは、シーン変更前後で観察された画像ペアの変化を検出し、変更の自然言語記述を生成することを目的としている。
現存する変更キャプション研究は主に1つの変更のあるシーンに焦点を当てている。
しかし、複雑なシナリオへの適応性を高めるためには、画像ペアの複数の変更部分の検出と記述が不可欠である。
以上の課題を3つの側面から解決する: (i) CGベースのマルチチェンジキャプションデータセットを提案する; (ii) 複数チェンジキャプションに基づく単一チェンジキャプションの既存手法をベンチマークする; (iii) さらに、画像ペア内の異なる領域を密に関連付け、関連する変更領域を文中の単語で動的に決定するマルチチェンジキャプション変換器(MCCFormers)を提案する。
提案手法は,従来の4つの変更キャプション評価指標の最高スコアを得た。
さらに、既存の方法は複数の変更に対して単一の注意マップを生成し、変更領域を識別する能力がない。
対照的に,提案手法は各変更に対する注意マップを分離し,変化の局所化に関して良好に機能する。
さらに,既存の変更キャプションベンチマークであるclevr-change(bleu-4では+6.1,ciderスコアでは+9.7)では,従来の最先端手法を上回っていた。
関連論文リスト
- Enhancing Perception of Key Changes in Remote Sensing Image Change Captioning [49.24306593078429]
KCFI(Key Change Features and Instruction-tuned)によるリモートセンシング画像変換キャプションのための新しいフレームワークを提案する。
KCFIは、バイテンポラルリモートセンシング画像特徴を抽出するViTsエンコーダと、重要な変化領域を識別するキー特徴知覚器と、画素レベルの変化検出デコーダとを含む。
提案手法の有効性を検証するため,LEVIR-CCデータセット上のいくつかの最新の変更キャプション手法との比較を行った。
論文 参考訳(メタデータ) (2024-09-19T09:33:33Z) - ChangeChat: An Interactive Model for Remote Sensing Change Analysis via Multimodal Instruction Tuning [0.846600473226587]
本稿では,RS変化解析に特化して設計された初めてのバイテンポラル視覚言語モデルであるChangeChatを紹介する。
ChangeChatはマルチモーダルな命令チューニングを使用して、変更キャプション、カテゴリ固有の定量化、変更ローカライゼーションといった複雑なクエリを処理できる。
実験によると、ChangeChatはRS変更分析のための包括的なインタラクティブなソリューションを提供し、特定のタスクにおける最先端(SOTA)メソッドに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-09-13T07:00:44Z) - Context-aware Difference Distilling for Multi-change Captioning [106.72151597074098]
マルチチェンジキャプションは、自然言語でイメージペア内の複雑で結合的な変化を記述することを目的としている。
そこで本稿では, 文収量に対する真の変化をすべて捉えるための, 文脈認識型差分蒸留ネットワークを提案する。
論文 参考訳(メタデータ) (2024-05-31T14:07:39Z) - MS-Former: Memory-Supported Transformer for Weakly Supervised Change
Detection with Patch-Level Annotations [50.79913333804232]
弱い教師付き変化検出のためのメモリ支援トランス (MS-Former) を提案する。
MS-Former は双方向注意ブロック (BAB) とパッチレベルの監視スキーム (PSS) から構成される。
3つのベンチマークデータセットの実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2023-11-16T09:57:29Z) - Neighborhood Contrastive Transformer for Change Captioning [80.10836469177185]
本研究では,異なる環境下での様々な変化に対するモデルの知覚能力を向上させるために,近傍のコントラスト変換器を提案する。
提案手法は,変化シナリオの異なる3つの公開データセットに対して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-03-06T14:39:54Z) - The Change You Want to See [91.3755431537592]
同じシーンの2つのイメージが与えられた場合、その変更を自動的に検出できることは、様々な領域で実用的応用をもたらす。
画像対の「オブジェクトレベル」変化を、視点や照明の違いにかかわらず検出することを目的として、変化検出問題に取り組む。
論文 参考訳(メタデータ) (2022-09-28T18:10:09Z) - Make-A-Scene: Scene-Based Text-to-Image Generation with Human Priors [58.71128866226768]
近年のテキスト・ツー・イメージ生成手法は、生成した画像の忠実度とテキスト関連性を漸進的に改善している。
i)シーンの形式でテキストを補完する単純な制御機構を実現することで,これらのギャップに対処する新しいテキスト・ツー・イメージ手法を提案する。
このモデルにより,512×512ピクセルの解像度で高忠実度画像を生成することができる。
論文 参考訳(メタデータ) (2022-03-24T15:44:50Z) - Finding It at Another Side: A Viewpoint-Adapted Matching Encoder for
Change Captioning [41.044241265804125]
本稿では,変化字幕タスクにおける意味的変化と視点的変化を明確に区別する新しいビジュアルエンコーダを提案する。
また,言語評価報酬を直接微調整する新たな強化学習手法を提案する。
提案手法は,Spot-the-DiffデータセットとCLEVR-Changeデータセットの両方において,最先端のアプローチよりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2020-09-30T00:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。