論文の概要: Distractors-Immune Representation Learning with Cross-modal Contrastive Regularization for Change Captioning
- arxiv url: http://arxiv.org/abs/2407.11683v1
- Date: Tue, 16 Jul 2024 13:00:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 15:02:09.524364
- Title: Distractors-Immune Representation Learning with Cross-modal Contrastive Regularization for Change Captioning
- Title(参考訳): クロスモーダル・コントラスト規則化による変更キャプションのためのディトラクタ・免疫表現学習
- Authors: Yunbin Tu, Liang Li, Li Su, Chenggang Yan, Qingming Huang,
- Abstract要約: 変更キャプションは、類似した画像間のセマンティックな変化を簡潔に記述することを目的としている。
既存のほとんどの手法は、それらの違いを直接キャプチャし、エラーを起こしやすい特徴を得るリスクを負う。
本稿では,2つの画像表現の対応するチャネルを関連づけるイントラクタ免疫表現学習ネットワークを提案する。
- 参考スコア(独自算出の注目度): 71.14084801851381
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Change captioning aims to succinctly describe the semantic change between a pair of similar images, while being immune to distractors (illumination and viewpoint changes). Under these distractors, unchanged objects often appear pseudo changes about location and scale, and certain objects might overlap others, resulting in perturbational and discrimination-degraded features between two images. However, most existing methods directly capture the difference between them, which risk obtaining error-prone difference features. In this paper, we propose a distractors-immune representation learning network that correlates the corresponding channels of two image representations and decorrelates different ones in a self-supervised manner, thus attaining a pair of stable image representations under distractors. Then, the model can better interact them to capture the reliable difference features for caption generation. To yield words based on the most related difference features, we further design a cross-modal contrastive regularization, which regularizes the cross-modal alignment by maximizing the contrastive alignment between the attended difference features and generated words. Extensive experiments show that our method outperforms the state-of-the-art methods on four public datasets. The code is available at https://github.com/tuyunbin/DIRL.
- Abstract(参考訳): 変更キャプションは、一対の類似した画像間の意味的変化を簡潔に記述することを目的としている。
これらの乱れの下では、変化しない物体は位置とスケールについて擬似的に変化し、ある物体は他の物体と重なり合う可能性があるため、2つの画像の間に摂動的・差別的特徴が生じる。
しかし、既存のほとんどの手法は、それらの違いを直接キャプチャし、エラーを起こしやすい特徴を得るリスクを負う。
本稿では,2つの画像表現の対応するチャネルを相互に関連付け,異なるチャネルを相互に相互に相互に相互に関連付けることで,イントラクタによる一対の安定した画像表現を実現することのできる,イントラクタ-免疫的表現学習ネットワークを提案する。
そして、モデルがよりうまく相互作用し、キャプション生成のための信頼性のある差分特徴をキャプチャする。
また,最も関連性の高い差分特徴に基づく単語を出力するために,先行する差分特徴と生成された単語との対比アライメントを最大化することにより,クロスモーダルアライメントを規則化するクロスモーダルコントラッシブアライゼーションを設計する。
大規模な実験により,提案手法は4つの公開データセット上で最先端の手法より優れていることが示された。
コードはhttps://github.com/tuyunbin/DIRLで公開されている。
関連論文リスト
- Self-supervised Cross-view Representation Reconstruction for Change
Captioning [113.08380679787247]
変更キャプションは、類似したイメージのペアの違いを記述することを目的としている。
その主な課題は、視点変化によって引き起こされる擬似変化の下で、安定した差分表現を学習する方法である。
自己教師型クロスビュー表現再構成ネットワークを提案する。
論文 参考訳(メタデータ) (2023-09-28T09:28:50Z) - Understanding Dark Scenes by Contrasting Multi-Modal Observations [20.665687608385625]
教師付きマルチモーダルコントラスト学習手法を導入し,学習したマルチモーダル特徴空間の意味的識別性を向上する。
クロスモーダルコントラストは、2つのモダリティの向こう側から同じクラスの埋め込みを促進する。
モード内コントラストは、各モード内に同じクラスまたは異なるクラスを埋め込むように強制する。
論文 参考訳(メタデータ) (2023-08-23T11:39:07Z) - Neighborhood Contrastive Transformer for Change Captioning [80.10836469177185]
本研究では,異なる環境下での様々な変化に対するモデルの知覚能力を向上させるために,近傍のコントラスト変換器を提案する。
提案手法は,変化シナリオの異なる3つの公開データセットに対して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-03-06T14:39:54Z) - Learning to Model Multimodal Semantic Alignment for Story Visualization [58.16484259508973]
ストーリービジュアライゼーションは、複数文のストーリーで各文をナレーションする一連の画像を生成することを目的としている。
現在の作業は、その固定されたアーキテクチャと入力モダリティの多様性のため、セマンティックなミスアライメントの問題に直面している。
GANに基づく生成モデルにおいて,テキストと画像表現のセマンティックアライメントを学習し,それらのセマンティックレベルを一致させる方法について検討する。
論文 参考訳(メタデータ) (2022-11-14T11:41:44Z) - Diffusion Visual Counterfactual Explanations [51.077318228247925]
VCE(Visual Counterfactual Explanations)は、画像の決定を理解するための重要なツールである。
VCEの生成に対する現在のアプローチは、逆向きに堅牢なモデルに制限されており、しばしば非現実的なアーティファクトを含んでいる。
本稿では、任意のイメージネット分類器に対して、視覚拡散対実説明(DVCE)を生成することでこれを克服する。
論文 参考訳(メタデータ) (2022-10-21T09:35:47Z) - Object-aware Contrastive Learning for Debiased Scene Representation [74.30741492814327]
オブジェクトを自己教師型でローカライズする,オブジェクト認識型コントラスト学習フレームワークを開発した。
また、コントラCAM、オブジェクト認識型乱作、背景混合に基づく2つのデータ拡張を導入し、コントラスト型自己教師型学習における文脈バイアスと背景バイアスを低減した。
論文 参考訳(メタデータ) (2021-07-30T19:24:07Z) - Contrastive Learning of Image Representations with Cross-Video
Cycle-Consistency [13.19476138523546]
ビデオ間関係は視覚表現学習ではほとんど研究されていない。
本稿では,一般画像表現学習のサイクル一貫性を利用して,映像間関係を探索する新しいコントラスト学習手法を提案する。
最先端のコントラスト学習方法よりも大幅に改善されています。
論文 参考訳(メタデータ) (2021-05-13T17:59:11Z) - Contrastive Learning for Unsupervised Image-to-Image Translation [10.091669091440396]
コントラスト学習に基づく教師なし画像から画像への翻訳手法を提案する。
一対の画像をランダムにサンプリングし、ジェネレータに元の構造を維持しながら、その外観を別の方向に変更するように訓練する。
実験結果から,本手法は視覚的品質と翻訳精度において,教師なしベースラインよりも優れていた。
論文 参考訳(メタデータ) (2021-05-07T08:43:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。