論文の概要: Neighborhood Contrastive Transformer for Change Captioning
- arxiv url: http://arxiv.org/abs/2303.03171v1
- Date: Mon, 6 Mar 2023 14:39:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-07 15:45:19.790734
- Title: Neighborhood Contrastive Transformer for Change Captioning
- Title(参考訳): チェンジキャプションのための近所コントラストトランスフォーマ
- Authors: Yunbin Tu, Liang Li, Li Su, Ke Lu, Qingming Huang
- Abstract要約: 本研究では,異なる環境下での様々な変化に対するモデルの知覚能力を向上させるために,近傍のコントラスト変換器を提案する。
提案手法は,変化シナリオの異なる3つの公開データセットに対して,最先端の性能を実現する。
- 参考スコア(独自算出の注目度): 80.10836469177185
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Change captioning is to describe the semantic change between a pair of
similar images in natural language. It is more challenging than general image
captioning, because it requires capturing fine-grained change information while
being immune to irrelevant viewpoint changes, and solving syntax ambiguity in
change descriptions. In this paper, we propose a neighborhood contrastive
transformer to improve the model's perceiving ability for various changes under
different scenes and cognition ability for complex syntax structure.
Concretely, we first design a neighboring feature aggregating to integrate
neighboring context into each feature, which helps quickly locate the
inconspicuous changes under the guidance of conspicuous referents. Then, we
devise a common feature distilling to compare two images at neighborhood level
and extract common properties from each image, so as to learn effective
contrastive information between them. Finally, we introduce the explicit
dependencies between words to calibrate the transformer decoder, which helps
better understand complex syntax structure during training. Extensive
experimental results demonstrate that the proposed method achieves the
state-of-the-art performance on three public datasets with different change
scenarios. The code is available at https://github.com/tuyunbin/NCT.
- Abstract(参考訳): 変更キャプションは、自然言語における類似した画像のペア間の意味的変化を記述することである。
これは一般的な画像キャプションよりも困難であり、無関係な視点変化に免疫されながら細かい変更情報をキャプチャし、変更記述における構文曖昧さを解決する必要がある。
本稿では,様々な場面における様々な変化に対するモデルの知覚能力と複雑な構文構造に対する認識能力を改善するために,近傍のコントラストトランスフォーマを提案する。
具体的には、まず、近隣のコンテキストを各特徴に統合するために隣接する特徴集合体を設計し、目立たしい参照者の指導の下で、目立たぬ変化を素早く見つけ出すのに役立つ。
次に,近傍の2つの画像を比較し,各画像から共通特性を抽出する共通特徴蒸留法を考案し,両者の効果的な対比情報を得る。
最後に、トランスデコーダを校正するために単語間の明示的な依存関係を導入し、トレーニング中の複雑な構文構造をよりよく理解できるようにする。
大規模な実験結果から,提案手法は変化シナリオの異なる3つの公開データセット上での最先端性能を実現することが示された。
コードはhttps://github.com/tuyunbin/NCTで公開されている。
関連論文リスト
- Evaluating Semantic Variation in Text-to-Image Synthesis: A Causal Perspective [50.261681681643076]
本稿では,SemVarEffectとSemVarBenchというベンチマークを用いて,テキスト・画像合成における入力のセマンティックな変化と出力の因果性を評価する。
本研究は,T2I合成コミュニティによるヒューマンインストラクション理解の探索を促進する効果的な評価枠組みを確立する。
論文 参考訳(メタデータ) (2024-10-14T08:45:35Z) - Distractors-Immune Representation Learning with Cross-modal Contrastive Regularization for Change Captioning [71.14084801851381]
変更キャプションは、類似した画像間のセマンティックな変化を簡潔に記述することを目的としている。
既存のほとんどの手法は、それらの違いを直接キャプチャし、エラーを起こしやすい特徴を得るリスクを負う。
本稿では,2つの画像表現の対応するチャネルを関連づけるイントラクタ免疫表現学習ネットワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T13:00:33Z) - Context-aware Difference Distilling for Multi-change Captioning [106.72151597074098]
マルチチェンジキャプションは、自然言語でイメージペア内の複雑で結合的な変化を記述することを目的としている。
そこで本稿では, 文収量に対する真の変化をすべて捉えるための, 文脈認識型差分蒸留ネットワークを提案する。
論文 参考訳(メタデータ) (2024-05-31T14:07:39Z) - Self-supervised Cross-view Representation Reconstruction for Change
Captioning [113.08380679787247]
変更キャプションは、類似したイメージのペアの違いを記述することを目的としている。
その主な課題は、視点変化によって引き起こされる擬似変化の下で、安定した差分表現を学習する方法である。
自己教師型クロスビュー表現再構成ネットワークを提案する。
論文 参考訳(メタデータ) (2023-09-28T09:28:50Z) - Changes to Captions: An Attentive Network for Remote Sensing Change
Captioning [15.986576036345333]
本研究では,リモートセンシング画像の変化を正確に記述することの重要性を強調した。
両時間リモートセンシング画像に対して,短時間でChg2Capと呼ばれる注意的変更対キャプションネットワークを提案する。
提案するChg2Capネットワークは2つの代表的なリモートセンシングデータセットで評価される。
論文 参考訳(メタデータ) (2023-04-03T15:51:42Z) - Integrating Visuospatial, Linguistic and Commonsense Structure into
Story Visualization [81.26077816854449]
まず、構造的入力を符号化するための選挙区解析木の利用について検討する。
第二に、構造化されたインプットをコモンセンス情報で強化し、この外部知識が視覚的ストーリーの生成に与える影響について検討する。
第3に、境界ボックスと高密度キャプションによって視覚構造を組み込んで、生成された画像の文字やオブジェクトに関するフィードバックを提供する。
論文 参考訳(メタデータ) (2021-10-21T00:16:02Z) - R$^3$Net:Relation-embedded Representation Reconstruction Network for
Change Captioning [30.962341503501964]
字幕の変更は、2つの類似した画像間の微妙な相違を記述するために自然言語文を使用することである。
ビューポイントの変更は、オブジェクトのスケールと位置を変更し、実際の変更の表現を圧倒するため、このタスクにおいて最も典型的な障害である。
本稿では,R$3$NetのRelation-embedded Representation Reconstruction Network(R$3$Net)を提案する。
論文 参考訳(メタデータ) (2021-10-20T00:57:39Z) - Exploring Explicit and Implicit Visual Relationships for Image
Captioning [11.82805641934772]
本稿では,画像キャプションのための領域レベルの表現を豊かにするために,明示的かつ暗黙的な視覚関係を探索する。
具体的には、オブジェクトペア上にセマンティックグラフを構築し、ゲートグラフ畳み込みネットワーク(Gated GCN)を利用して、近隣住民の情報を選択的に集約する。
暗黙的に、我々は変圧器から領域ベースの双方向エンコーダ表現を介して検出されたオブジェクト間のグローバルな相互作用を描画する。
論文 参考訳(メタデータ) (2021-05-06T01:47:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。