論文の概要: Neighborhood Contrastive Transformer for Change Captioning
- arxiv url: http://arxiv.org/abs/2303.03171v1
- Date: Mon, 6 Mar 2023 14:39:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-07 15:45:19.790734
- Title: Neighborhood Contrastive Transformer for Change Captioning
- Title(参考訳): チェンジキャプションのための近所コントラストトランスフォーマ
- Authors: Yunbin Tu, Liang Li, Li Su, Ke Lu, Qingming Huang
- Abstract要約: 本研究では,異なる環境下での様々な変化に対するモデルの知覚能力を向上させるために,近傍のコントラスト変換器を提案する。
提案手法は,変化シナリオの異なる3つの公開データセットに対して,最先端の性能を実現する。
- 参考スコア(独自算出の注目度): 80.10836469177185
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Change captioning is to describe the semantic change between a pair of
similar images in natural language. It is more challenging than general image
captioning, because it requires capturing fine-grained change information while
being immune to irrelevant viewpoint changes, and solving syntax ambiguity in
change descriptions. In this paper, we propose a neighborhood contrastive
transformer to improve the model's perceiving ability for various changes under
different scenes and cognition ability for complex syntax structure.
Concretely, we first design a neighboring feature aggregating to integrate
neighboring context into each feature, which helps quickly locate the
inconspicuous changes under the guidance of conspicuous referents. Then, we
devise a common feature distilling to compare two images at neighborhood level
and extract common properties from each image, so as to learn effective
contrastive information between them. Finally, we introduce the explicit
dependencies between words to calibrate the transformer decoder, which helps
better understand complex syntax structure during training. Extensive
experimental results demonstrate that the proposed method achieves the
state-of-the-art performance on three public datasets with different change
scenarios. The code is available at https://github.com/tuyunbin/NCT.
- Abstract(参考訳): 変更キャプションは、自然言語における類似した画像のペア間の意味的変化を記述することである。
これは一般的な画像キャプションよりも困難であり、無関係な視点変化に免疫されながら細かい変更情報をキャプチャし、変更記述における構文曖昧さを解決する必要がある。
本稿では,様々な場面における様々な変化に対するモデルの知覚能力と複雑な構文構造に対する認識能力を改善するために,近傍のコントラストトランスフォーマを提案する。
具体的には、まず、近隣のコンテキストを各特徴に統合するために隣接する特徴集合体を設計し、目立たしい参照者の指導の下で、目立たぬ変化を素早く見つけ出すのに役立つ。
次に,近傍の2つの画像を比較し,各画像から共通特性を抽出する共通特徴蒸留法を考案し,両者の効果的な対比情報を得る。
最後に、トランスデコーダを校正するために単語間の明示的な依存関係を導入し、トレーニング中の複雑な構文構造をよりよく理解できるようにする。
大規模な実験結果から,提案手法は変化シナリオの異なる3つの公開データセット上での最先端性能を実現することが示された。
コードはhttps://github.com/tuyunbin/NCTで公開されている。
関連論文リスト
- VIXEN: Visual Text Comparison Network for Image Difference Captioning [59.907924668417934]
画像間の視覚的差異をテキストで簡潔に要約する手法であるVIXENを提案する。
提案するネットワークは,事前学習された大規模言語モデルに対するソフトプロンプトを構築し,画像特徴を一対にマッピングする。
論文 参考訳(メタデータ) (2024-02-29T12:56:18Z) - Self-supervised Cross-view Representation Reconstruction for Change
Captioning [113.08380679787247]
変更キャプションは、類似したイメージのペアの違いを記述することを目的としている。
その主な課題は、視点変化によって引き起こされる擬似変化の下で、安定した差分表現を学習する方法である。
自己教師型クロスビュー表現再構成ネットワークを提案する。
論文 参考訳(メタデータ) (2023-09-28T09:28:50Z) - Changes to Captions: An Attentive Network for Remote Sensing Change
Captioning [15.986576036345333]
本研究では,リモートセンシング画像の変化を正確に記述することの重要性を強調した。
両時間リモートセンシング画像に対して,短時間でChg2Capと呼ばれる注意的変更対キャプションネットワークを提案する。
提案するChg2Capネットワークは2つの代表的なリモートセンシングデータセットで評価される。
論文 参考訳(メタデータ) (2023-04-03T15:51:42Z) - Learning to Model Multimodal Semantic Alignment for Story Visualization [58.16484259508973]
ストーリービジュアライゼーションは、複数文のストーリーで各文をナレーションする一連の画像を生成することを目的としている。
現在の作業は、その固定されたアーキテクチャと入力モダリティの多様性のため、セマンティックなミスアライメントの問題に直面している。
GANに基づく生成モデルにおいて,テキストと画像表現のセマンティックアライメントを学習し,それらのセマンティックレベルを一致させる方法について検討する。
論文 参考訳(メタデータ) (2022-11-14T11:41:44Z) - Integrating Visuospatial, Linguistic and Commonsense Structure into
Story Visualization [81.26077816854449]
まず、構造的入力を符号化するための選挙区解析木の利用について検討する。
第二に、構造化されたインプットをコモンセンス情報で強化し、この外部知識が視覚的ストーリーの生成に与える影響について検討する。
第3に、境界ボックスと高密度キャプションによって視覚構造を組み込んで、生成された画像の文字やオブジェクトに関するフィードバックを提供する。
論文 参考訳(メタデータ) (2021-10-21T00:16:02Z) - R$^3$Net:Relation-embedded Representation Reconstruction Network for
Change Captioning [30.962341503501964]
字幕の変更は、2つの類似した画像間の微妙な相違を記述するために自然言語文を使用することである。
ビューポイントの変更は、オブジェクトのスケールと位置を変更し、実際の変更の表現を圧倒するため、このタスクにおいて最も典型的な障害である。
本稿では,R$3$NetのRelation-embedded Representation Reconstruction Network(R$3$Net)を提案する。
論文 参考訳(メタデータ) (2021-10-20T00:57:39Z) - Exploring Explicit and Implicit Visual Relationships for Image
Captioning [11.82805641934772]
本稿では,画像キャプションのための領域レベルの表現を豊かにするために,明示的かつ暗黙的な視覚関係を探索する。
具体的には、オブジェクトペア上にセマンティックグラフを構築し、ゲートグラフ畳み込みネットワーク(Gated GCN)を利用して、近隣住民の情報を選択的に集約する。
暗黙的に、我々は変圧器から領域ベースの双方向エンコーダ表現を介して検出されたオブジェクト間のグローバルな相互作用を描画する。
論文 参考訳(メタデータ) (2021-05-06T01:47:51Z) - Describing and Localizing Multiple Changes with Transformers [24.138480002212994]
変更キャプションタスクは、シーン変更前後で観察されるイメージペアの変化を検出することを目的としている。
CGに基づくマルチチェンジキャプションデータセットを提案する。
マルチチェンジキャプションにおける単一変更キャプションの既存手法をベンチマークする。
論文 参考訳(メタデータ) (2021-03-25T21:52:03Z) - Finding It at Another Side: A Viewpoint-Adapted Matching Encoder for
Change Captioning [41.044241265804125]
本稿では,変化字幕タスクにおける意味的変化と視点的変化を明確に区別する新しいビジュアルエンコーダを提案する。
また,言語評価報酬を直接微調整する新たな強化学習手法を提案する。
提案手法は,Spot-the-DiffデータセットとCLEVR-Changeデータセットの両方において,最先端のアプローチよりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2020-09-30T00:13:49Z) - Image-to-Image Translation with Text Guidance [139.41321867508722]
本研究の目的は,制御可能な因子,すなわち自然言語記述を生成的敵ネットワークを用いた画像から画像への変換に組み込むことである。
提案する4つのキーコンポーネントは,(1)非意味的単語をフィルタリングする部分音声タグの実装,(2) 異なるモダリティテキストと画像特徴を効果的に融合するアフィン結合モジュールの採用,(3) 識別器の差分能力と生成器の整形能力を高めるための改良された多段階アーキテクチャである。
論文 参考訳(メタデータ) (2020-02-12T21:09:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。