論文の概要: Self-supervised Cross-view Representation Reconstruction for Change
Captioning
- arxiv url: http://arxiv.org/abs/2309.16283v1
- Date: Thu, 28 Sep 2023 09:28:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-29 15:20:20.255005
- Title: Self-supervised Cross-view Representation Reconstruction for Change
Captioning
- Title(参考訳): 変化キャプションのための自己監督型クロスビュー表現再構成
- Authors: Yunbin Tu, Liang Li, Li Su, Zheng-Jun Zha, Chenggang Yan, Qingming
Huang
- Abstract要約: 変更キャプションは、類似したイメージのペアの違いを記述することを目的としている。
その主な課題は、視点変化によって引き起こされる擬似変化の下で、安定した差分表現を学習する方法である。
自己教師型クロスビュー表現再構成ネットワークを提案する。
- 参考スコア(独自算出の注目度): 113.08380679787247
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Change captioning aims to describe the difference between a pair of similar
images. Its key challenge is how to learn a stable difference representation
under pseudo changes caused by viewpoint change. In this paper, we address this
by proposing a self-supervised cross-view representation reconstruction
(SCORER) network. Concretely, we first design a multi-head token-wise matching
to model relationships between cross-view features from similar/dissimilar
images. Then, by maximizing cross-view contrastive alignment of two similar
images, SCORER learns two view-invariant image representations in a
self-supervised way. Based on these, we reconstruct the representations of
unchanged objects by cross-attention, thus learning a stable difference
representation for caption generation. Further, we devise a cross-modal
backward reasoning to improve the quality of caption. This module reversely
models a ``hallucination'' representation with the caption and ``before''
representation. By pushing it closer to the ``after'' representation, we
enforce the caption to be informative about the difference in a self-supervised
manner. Extensive experiments show our method achieves the state-of-the-art
results on four datasets. The code is available at
https://github.com/tuyunbin/SCORER.
- Abstract(参考訳): 変更キャプションは、類似したイメージのペアの違いを記述することを目的としている。
その主な課題は、視点変化によって引き起こされる擬似変化の下で、安定した差分表現を学習する方法である。
本稿では,scorer(self-supervised cross-view representation reconstruction)ネットワークを提案する。
具体的には、まず、類似/異種画像からのクロスビュー特徴間の関係をモデル化するマルチヘッドトークンワイドマッチングを設計する。
次に、SCORERは、2つの類似画像の相互参照コントラストアライメントを最大化することにより、2つのビュー不変画像表現を自己監督的に学習する。
これらの結果に基づき、変化しないオブジェクトの表現を横断的アテンションで再構成し、キャプション生成のための安定した差分表現を学習する。
さらに,キャプションの品質を向上させるために,モーダルな後方推論を考案した。
このモジュールは逆に ``hallucination'' 表現をキャプションと ``before' 表現でモデル化する。
この表現を `after' 表現に近づけることで、自己指導的な方法での違いを知らせるようにキャプションを強制する。
広範な実験により、4つのデータセットで最新の結果が得られた。
コードはhttps://github.com/tuyunbin/SCORERで公開されている。
関連論文リスト
- DEADiff: An Efficient Stylization Diffusion Model with Disentangled
Representations [64.43387739794531]
現在のエンコーダベースのアプローチは、スタイルの転送中にテキスト・ツー・イメージモデルのテキスト制御性を著しく損なう。
この問題に対処するために、以下の2つの戦略を用いてDEADiffを紹介します。
DeAiffは、テキスト・ツー・イメージモデルに固有のテキスト制御性と、参照画像とスタイルの類似性との間の最適な視覚的スタイリング結果と最適なバランスを得る。
論文 参考訳(メタデータ) (2024-03-11T17:35:23Z) - Neighborhood Contrastive Transformer for Change Captioning [80.10836469177185]
本研究では,異なる環境下での様々な変化に対するモデルの知覚能力を向上させるために,近傍のコントラスト変換器を提案する。
提案手法は,変化シナリオの異なる3つの公開データセットに対して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-03-06T14:39:54Z) - Vision Transformer Based Model for Describing a Set of Images as a Story [26.717033245063092]
本稿では,画像の集合を物語として記述する新しいビジョントランスフォーマーベースモデルを提案する。
提案手法は視覚変換器(ViT)を用いて入力画像の特徴を抽出する。
提案モデルの性能はVisual Story-Telling dataset (VIST)を用いて評価する。
論文 参考訳(メタデータ) (2022-10-06T09:01:50Z) - Siamese Image Modeling for Self-Supervised Vision Representation
Learning [73.78790119050056]
自己教師付き学習(SSL)は、さまざまな下流視覚タスクにおいて優れたパフォーマンスを提供している。
2つのメインストリームSSLフレームワーク、すなわちインスタンス識別(ID)とマスク画像モデリング(MIM)が提案されている。
本稿では,拡張ビューの濃密な表現を予測できるSiamese Image Modeling (SIM)を提案する。
論文 参考訳(メタデータ) (2022-06-02T17:59:58Z) - SimAN: Exploring Self-Supervised Representation Learning of Scene Text
via Similarity-Aware Normalization [66.35116147275568]
自己指導型表現学習は、現場テキスト認識コミュニティからかなりの注目を集めている。
表現学習スキームを生成的手法で定式化することで,この問題に対処する。
そこで我々は,異なるパターンを識別し,対応するスタイルを誘導パッチから整列するSimANモジュールを提案する。
論文 参考訳(メタデータ) (2022-03-20T08:43:10Z) - R$^3$Net:Relation-embedded Representation Reconstruction Network for
Change Captioning [30.962341503501964]
字幕の変更は、2つの類似した画像間の微妙な相違を記述するために自然言語文を使用することである。
ビューポイントの変更は、オブジェクトのスケールと位置を変更し、実際の変更の表現を圧倒するため、このタスクにおいて最も典型的な障害である。
本稿では,R$3$NetのRelation-embedded Representation Reconstruction Network(R$3$Net)を提案する。
論文 参考訳(メタデータ) (2021-10-20T00:57:39Z) - Seed the Views: Hierarchical Semantic Alignment for Contrastive
Representation Learning [116.91819311885166]
一つの画像から生成されたビューをtextbfCross-samples や Multi-level representation に拡張することで,階層的なセマンティックアライメント戦略を提案する。
提案手法はCsMlと呼ばれ,サンプル間の多層視覚表現を堅牢な方法で統合する機能を備えている。
論文 参考訳(メタデータ) (2020-12-04T17:26:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。