論文の概要: Context-aware Difference Distilling for Multi-change Captioning
- arxiv url: http://arxiv.org/abs/2405.20810v1
- Date: Fri, 31 May 2024 14:07:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-03 14:27:53.957259
- Title: Context-aware Difference Distilling for Multi-change Captioning
- Title(参考訳): マルチチェンジキャプションのためのコンテキスト認識差分蒸留
- Authors: Yunbin Tu, Liang Li, Li Su, Zheng-Jun Zha, Chenggang Yan, Qingming Huang,
- Abstract要約: マルチチェンジキャプションは、自然言語でイメージペア内の複雑で結合的な変化を記述することを目的としている。
そこで本稿では, 文収量に対する真の変化をすべて捉えるための, 文脈認識型差分蒸留ネットワークを提案する。
- 参考スコア(独自算出の注目度): 106.72151597074098
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-change captioning aims to describe complex and coupled changes within an image pair in natural language. Compared with single-change captioning, this task requires the model to have higher-level cognition ability to reason an arbitrary number of changes. In this paper, we propose a novel context-aware difference distilling (CARD) network to capture all genuine changes for yielding sentences. Given an image pair, CARD first decouples context features that aggregate all similar/dissimilar semantics, termed common/difference context features. Then, the consistency and independence constraints are designed to guarantee the alignment/discrepancy of common/difference context features. Further, the common context features guide the model to mine locally unchanged features, which are subtracted from the pair to distill locally difference features. Next, the difference context features augment the locally difference features to ensure that all changes are distilled. In this way, we obtain an omni-representation of all changes, which is translated into linguistic sentences by a transformer decoder. Extensive experiments on three public datasets show CARD performs favourably against state-of-the-art methods.The code is available at https://github.com/tuyunbin/CARD.
- Abstract(参考訳): マルチチェンジキャプションは、自然言語でイメージペア内の複雑で結合的な変化を記述することを目的としている。
単一変更キャプションと比較して、このタスクは任意の数の変更を推論する高いレベルの認知能力を必要とする。
本稿では,文の収量に対する真の変化をすべて捉えるために,新しい文脈対応差分蒸留(CARD)ネットワークを提案する。
イメージペアが与えられた後、CARDはコンテキスト機能を最初に分離し、共通/異なるコンテキスト機能と呼ばれる、すべての類似/異種セマンティクスを集約する。
そして、一貫性と独立性の制約は、共通/異なるコンテキスト特徴のアライメント/差分性を保証するように設計されます。
さらに、共通コンテキスト特徴は、局所的に変化しない特徴を抽出し、その特徴を局所的な差分特徴を抽出するためにペアから抽出する。
次に、差分コンテキストの特徴は、すべての変更が蒸留されることを保証するために、局所的な差分特徴を増大させる。
このようにして、変換器デコーダによって言語文に変換される全ての変化の総称表現を得る。
3つの公開データセットに関する大規模な実験は、CARDが最先端のメソッドに対して好意的に動作することを示している。コードはhttps://github.com/tuyunbin/CARDで公開されている。
関連論文リスト
- Evaluating Semantic Variation in Text-to-Image Synthesis: A Causal Perspective [50.261681681643076]
本稿では,SemVarEffectとSemVarBenchというベンチマークを用いて,テキスト・画像合成における入力のセマンティックな変化と出力の因果性を評価する。
本研究は,T2I合成コミュニティによるヒューマンインストラクション理解の探索を促進する効果的な評価枠組みを確立する。
論文 参考訳(メタデータ) (2024-10-14T08:45:35Z) - Distractors-Immune Representation Learning with Cross-modal Contrastive Regularization for Change Captioning [71.14084801851381]
変更キャプションは、類似した画像間のセマンティックな変化を簡潔に記述することを目的としている。
既存のほとんどの手法は、それらの違いを直接キャプチャし、エラーを起こしやすい特徴を得るリスクを負う。
本稿では,2つの画像表現の対応するチャネルを関連づけるイントラクタ免疫表現学習ネットワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T13:00:33Z) - Changes-Aware Transformer: Learning Generalized Changes Representation [56.917000244470174]
差分特徴の精細化のための新しい変化認識変換器(CAT)を提案する。
様々な変化の一般化表現は、差分特徴空間において容易に学習される。
精細化後、差分特徴空間における変化画素同士が近接し、変化検出を容易にする。
論文 参考訳(メタデータ) (2023-09-24T12:21:57Z) - Align, Perturb and Decouple: Toward Better Leverage of Difference
Information for RSI Change Detection [24.249552791014644]
変化検出は、リモートセンシング画像(RSI)解析において広く採用されている手法である。
そこで我々は,アライメント,摂動,デカップリングといった差分情報を完全に活用するための一連の操作を提案する。
論文 参考訳(メタデータ) (2023-05-30T03:39:53Z) - Neighborhood Contrastive Transformer for Change Captioning [80.10836469177185]
本研究では,異なる環境下での様々な変化に対するモデルの知覚能力を向上させるために,近傍のコントラスト変換器を提案する。
提案手法は,変化シナリオの異なる3つの公開データセットに対して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-03-06T14:39:54Z) - Describing and Localizing Multiple Changes with Transformers [24.138480002212994]
変更キャプションタスクは、シーン変更前後で観察されるイメージペアの変化を検出することを目的としている。
CGに基づくマルチチェンジキャプションデータセットを提案する。
マルチチェンジキャプションにおける単一変更キャプションの既存手法をベンチマークする。
論文 参考訳(メタデータ) (2021-03-25T21:52:03Z) - Finding It at Another Side: A Viewpoint-Adapted Matching Encoder for
Change Captioning [41.044241265804125]
本稿では,変化字幕タスクにおける意味的変化と視点的変化を明確に区別する新しいビジュアルエンコーダを提案する。
また,言語評価報酬を直接微調整する新たな強化学習手法を提案する。
提案手法は,Spot-the-DiffデータセットとCLEVR-Changeデータセットの両方において,最先端のアプローチよりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2020-09-30T00:13:49Z) - Same Features, Different Day: Weakly Supervised Feature Learning for
Seasonal Invariance [65.94499390875046]
「夜も昼も」は2つのことが全く違うことを暗示するためによく使われる表現である。
本研究の目的は、局所化、スパースマッチング、画像検索に使用できる高密度特徴表現を提供することである。
Deja-Vuは、画素単位の地上真実データを必要としない季節不変の特徴を学習するための弱い教師付きアプローチである。
論文 参考訳(メタデータ) (2020-03-30T12:56:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。