論文の概要: R$^3$Net:Relation-embedded Representation Reconstruction Network for
Change Captioning
- arxiv url: http://arxiv.org/abs/2110.10328v1
- Date: Wed, 20 Oct 2021 00:57:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-24 03:38:45.734972
- Title: R$^3$Net:Relation-embedded Representation Reconstruction Network for
Change Captioning
- Title(参考訳): R$^3$Net:Relation-embedded Representation Reconstruction Network for Change Captioning
- Authors: Yunbin Tu, Liang Li, Chenggang Yan, Shengxiang Gao, Zhengtao Yu
- Abstract要約: 字幕の変更は、2つの類似した画像間の微妙な相違を記述するために自然言語文を使用することである。
ビューポイントの変更は、オブジェクトのスケールと位置を変更し、実際の変更の表現を圧倒するため、このタスクにおいて最も典型的な障害である。
本稿では,R$3$NetのRelation-embedded Representation Reconstruction Network(R$3$Net)を提案する。
- 参考スコア(独自算出の注目度): 30.962341503501964
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Change captioning is to use a natural language sentence to describe the
fine-grained disagreement between two similar images. Viewpoint change is the
most typical distractor in this task, because it changes the scale and location
of the objects and overwhelms the representation of real change. In this paper,
we propose a Relation-embedded Representation Reconstruction Network (R$^3$Net)
to explicitly distinguish the real change from the large amount of clutter and
irrelevant changes. Specifically, a relation-embedded module is first devised
to explore potential changed objects in the large amount of clutter. Then,
based on the semantic similarities of corresponding locations in the two
images, a representation reconstruction module (RRM) is designed to learn the
reconstruction representation and further model the difference representation.
Besides, we introduce a syntactic skeleton predictor (SSP) to enhance the
semantic interaction between change localization and caption generation.
Extensive experiments show that the proposed method achieves the
state-of-the-art results on two public datasets.
- Abstract(参考訳): 字幕の変更は、2つの類似した画像間の微妙な相違を記述するために自然言語文を使用することである。
ビューポイントの変更は、オブジェクトのスケールと位置を変更し、実際の変更の表現を圧倒するため、このタスクで最も典型的な邪魔になる。
本稿では,実際の変化を大量の乱雑な変化と無関係な変化と明確に区別するための関係埋め込み表現再構成ネットワーク(r$^3$net)を提案する。
特に、関係埋め込みモジュールは、まず大量のクラッタの中で変更可能なオブジェクトを探索するために考案された。
そして、2つの画像中の対応する位置のセマンティックな類似性に基づいて、表現再構成モジュール(RRM)を設計し、再構成表現を学習し、さらに差分表現をモデル化する。
さらに,変化局所化とキャプション生成のセマンティック相互作用を強化するための構文的骨格予測器(SSP)を導入する。
広汎な実験により,提案手法は2つの公開データセットに対して最先端の結果が得られることを示した。
関連論文リスト
- Distractors-Immune Representation Learning with Cross-modal Contrastive Regularization for Change Captioning [71.14084801851381]
変更キャプションは、類似した画像間のセマンティックな変化を簡潔に記述することを目的としている。
既存のほとんどの手法は、それらの違いを直接キャプチャし、エラーを起こしやすい特徴を得るリスクを負う。
本稿では,2つの画像表現の対応するチャネルを関連づけるイントラクタ免疫表現学習ネットワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T13:00:33Z) - Self-supervised Cross-view Representation Reconstruction for Change
Captioning [113.08380679787247]
変更キャプションは、類似したイメージのペアの違いを記述することを目的としている。
その主な課題は、視点変化によって引き起こされる擬似変化の下で、安定した差分表現を学習する方法である。
自己教師型クロスビュー表現再構成ネットワークを提案する。
論文 参考訳(メタデータ) (2023-09-28T09:28:50Z) - LAW-Diffusion: Complex Scene Generation by Diffusion with Layouts [107.11267074981905]
LAW拡散(LAW-Diffusion)と呼ばれる意味制御可能なレイアウト・AWare拡散モデルを提案する。
LAW拡散は、特にコヒーレントな対象関係を持つ最先端の生成性能をもたらすことを示す。
論文 参考訳(メタデータ) (2023-08-13T08:06:18Z) - Align, Perturb and Decouple: Toward Better Leverage of Difference
Information for RSI Change Detection [24.249552791014644]
変化検出は、リモートセンシング画像(RSI)解析において広く採用されている手法である。
そこで我々は,アライメント,摂動,デカップリングといった差分情報を完全に活用するための一連の操作を提案する。
論文 参考訳(メタデータ) (2023-05-30T03:39:53Z) - Neighborhood Contrastive Transformer for Change Captioning [80.10836469177185]
本研究では,異なる環境下での様々な変化に対するモデルの知覚能力を向上させるために,近傍のコントラスト変換器を提案する。
提案手法は,変化シナリオの異なる3つの公開データセットに対して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-03-06T14:39:54Z) - Part-guided Relational Transformers for Fine-grained Visual Recognition [59.20531172172135]
識別的特徴を学習し,特徴変換モジュールとの相関関係を探索するフレームワークを提案する。
提案手法は,3-of-the-levelオブジェクト認識において,部分ブランチの追加に頼らず,最先端の性能に達する。
論文 参考訳(メタデータ) (2022-12-28T03:45:56Z) - Region Similarity Representation Learning [94.88055458257081]
Region similarity Representation Learning(ReSim)は、ローカリゼーションベースのタスクに対する自己監視型表現学習の新しいアプローチである。
ReSimはローカリゼーションのための地域表現とセマンティックイメージレベルの表現の両方を学びます。
競合するMoCo-v2ベースラインと比較して、ReSimがローカリゼーションと分類性能を大幅に向上させる表現をどのように学習するかを示します。
論文 参考訳(メタデータ) (2021-03-24T00:42:37Z) - Image Captioning with Visual Object Representations Grounded in the
Textual Modality [14.797241131469486]
テキストと視覚のモダリティ間の共有埋め込み空間の可能性を探る。
本稿では,キャプションシステムの単語埋め込み空間における表現を基礎として,現在の傾向とは逆のアプローチを提案する。
論文 参考訳(メタデータ) (2020-10-19T12:21:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。