論文の概要: Self-supervised Cross-view Representation Reconstruction for Change
Captioning
- arxiv url: http://arxiv.org/abs/2309.16283v1
- Date: Thu, 28 Sep 2023 09:28:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-29 15:20:20.255005
- Title: Self-supervised Cross-view Representation Reconstruction for Change
Captioning
- Title(参考訳): 変化キャプションのための自己監督型クロスビュー表現再構成
- Authors: Yunbin Tu, Liang Li, Li Su, Zheng-Jun Zha, Chenggang Yan, Qingming
Huang
- Abstract要約: 変更キャプションは、類似したイメージのペアの違いを記述することを目的としている。
その主な課題は、視点変化によって引き起こされる擬似変化の下で、安定した差分表現を学習する方法である。
自己教師型クロスビュー表現再構成ネットワークを提案する。
- 参考スコア(独自算出の注目度): 113.08380679787247
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Change captioning aims to describe the difference between a pair of similar
images. Its key challenge is how to learn a stable difference representation
under pseudo changes caused by viewpoint change. In this paper, we address this
by proposing a self-supervised cross-view representation reconstruction
(SCORER) network. Concretely, we first design a multi-head token-wise matching
to model relationships between cross-view features from similar/dissimilar
images. Then, by maximizing cross-view contrastive alignment of two similar
images, SCORER learns two view-invariant image representations in a
self-supervised way. Based on these, we reconstruct the representations of
unchanged objects by cross-attention, thus learning a stable difference
representation for caption generation. Further, we devise a cross-modal
backward reasoning to improve the quality of caption. This module reversely
models a ``hallucination'' representation with the caption and ``before''
representation. By pushing it closer to the ``after'' representation, we
enforce the caption to be informative about the difference in a self-supervised
manner. Extensive experiments show our method achieves the state-of-the-art
results on four datasets. The code is available at
https://github.com/tuyunbin/SCORER.
- Abstract(参考訳): 変更キャプションは、類似したイメージのペアの違いを記述することを目的としている。
その主な課題は、視点変化によって引き起こされる擬似変化の下で、安定した差分表現を学習する方法である。
本稿では,scorer(self-supervised cross-view representation reconstruction)ネットワークを提案する。
具体的には、まず、類似/異種画像からのクロスビュー特徴間の関係をモデル化するマルチヘッドトークンワイドマッチングを設計する。
次に、SCORERは、2つの類似画像の相互参照コントラストアライメントを最大化することにより、2つのビュー不変画像表現を自己監督的に学習する。
これらの結果に基づき、変化しないオブジェクトの表現を横断的アテンションで再構成し、キャプション生成のための安定した差分表現を学習する。
さらに,キャプションの品質を向上させるために,モーダルな後方推論を考案した。
このモジュールは逆に ``hallucination'' 表現をキャプションと ``before' 表現でモデル化する。
この表現を `after' 表現に近づけることで、自己指導的な方法での違いを知らせるようにキャプションを強制する。
広範な実験により、4つのデータセットで最新の結果が得られた。
コードはhttps://github.com/tuyunbin/SCORERで公開されている。
関連論文リスト
- Distractors-Immune Representation Learning with Cross-modal Contrastive Regularization for Change Captioning [71.14084801851381]
変更キャプションは、類似した画像間のセマンティックな変化を簡潔に記述することを目的としている。
既存のほとんどの手法は、それらの違いを直接キャプチャし、エラーを起こしやすい特徴を得るリスクを負う。
本稿では,2つの画像表現の対応するチャネルを関連づけるイントラクタ免疫表現学習ネットワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T13:00:33Z) - DEADiff: An Efficient Stylization Diffusion Model with Disentangled
Representations [64.43387739794531]
現在のエンコーダベースのアプローチは、スタイルの転送中にテキスト・ツー・イメージモデルのテキスト制御性を著しく損なう。
この問題に対処するために、以下の2つの戦略を用いてDEADiffを紹介します。
DeAiffは、テキスト・ツー・イメージモデルに固有のテキスト制御性と、参照画像とスタイルの類似性との間の最適な視覚的スタイリング結果と最適なバランスを得る。
論文 参考訳(メタデータ) (2024-03-11T17:35:23Z) - CricaVPR: Cross-image Correlation-aware Representation Learning for Visual Place Recognition [73.51329037954866]
視覚的位置認識のための画像間相関認識を用いたロバストなグローバル表現手法を提案する。
本手法では,バッチ内の複数の画像の相関にアテンション機構を用いる。
本手法は,訓練時間を大幅に短縮し,最先端の手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-29T15:05:11Z) - Neighborhood Contrastive Transformer for Change Captioning [80.10836469177185]
本研究では,異なる環境下での様々な変化に対するモデルの知覚能力を向上させるために,近傍のコントラスト変換器を提案する。
提案手法は,変化シナリオの異なる3つの公開データセットに対して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-03-06T14:39:54Z) - R$^3$Net:Relation-embedded Representation Reconstruction Network for
Change Captioning [30.962341503501964]
字幕の変更は、2つの類似した画像間の微妙な相違を記述するために自然言語文を使用することである。
ビューポイントの変更は、オブジェクトのスケールと位置を変更し、実際の変更の表現を圧倒するため、このタスクにおいて最も典型的な障害である。
本稿では,R$3$NetのRelation-embedded Representation Reconstruction Network(R$3$Net)を提案する。
論文 参考訳(メタデータ) (2021-10-20T00:57:39Z) - Seed the Views: Hierarchical Semantic Alignment for Contrastive
Representation Learning [116.91819311885166]
一つの画像から生成されたビューをtextbfCross-samples や Multi-level representation に拡張することで,階層的なセマンティックアライメント戦略を提案する。
提案手法はCsMlと呼ばれ,サンプル間の多層視覚表現を堅牢な方法で統合する機能を備えている。
論文 参考訳(メタデータ) (2020-12-04T17:26:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。