論文の概要: Exploiting Cross-Modal Prediction and Relation Consistency for
Semi-Supervised Image Captioning
- arxiv url: http://arxiv.org/abs/2110.11767v1
- Date: Fri, 22 Oct 2021 13:14:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-25 13:52:30.604113
- Title: Exploiting Cross-Modal Prediction and Relation Consistency for
Semi-Supervised Image Captioning
- Title(参考訳): 半スーパービジョン画像キャプションにおけるクロスモーダル予測と関係整合性
- Authors: Yang Yang, Hongchen Wei, Hengshu Zhu, Dianhai Yu, Hui Xiong, Qingshan
Liu and Jian Yang
- Abstract要約: CPRC(Cross-modal Prediction and Relation Consistency)を利用した画像キャプション手法を提案する。
CPRCは、生画像入力を利用して、一般的に意味空間において生成された文を制約することを目的としている。
細部において、モダリティの不均一なギャップは、常にグローバルな埋め込みを直接使用することの監督上の困難をもたらすことを考慮し、CPRCは原画像と対応する生成された文の両方を共有意味空間に変換する。
- 参考スコア(独自算出の注目度): 42.04124590381724
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The task of image captioning aims to generate captions directly from images
via the automatically learned cross-modal generator. To build a well-performing
generator, existing approaches usually need a large number of described images,
which requires a huge effects on manual labeling. However, in real-world
applications, a more general scenario is that we only have limited amount of
described images and a large number of undescribed images. Therefore, a
resulting challenge is how to effectively combine the undescribed images into
the learning of cross-modal generator. To solve this problem, we propose a
novel image captioning method by exploiting the Cross-modal Prediction and
Relation Consistency (CPRC), which aims to utilize the raw image input to
constrain the generated sentence in the commonly semantic space. In detail,
considering that the heterogeneous gap between modalities always leads to the
supervision difficulty of using the global embedding directly, CPRC turns to
transform both the raw image and corresponding generated sentence into the
shared semantic space, and measure the generated sentence from two aspects: 1)
Prediction consistency. CPRC utilizes the prediction of raw image as soft label
to distill useful supervision for the generated sentence, rather than employing
the traditional pseudo labeling; 2) Relation consistency. CPRC develops a novel
relation consistency between augmented images and corresponding generated
sentences to retain the important relational knowledge. In result, CPRC
supervises the generated sentence from both the informativeness and
representativeness perspectives, and can reasonably use the undescribed images
to learn a more effective generator under the semi-supervised scenario.
- Abstract(参考訳): 画像キャプションのタスクは、自動学習されたクロスモーダルジェネレータを通じて、画像から直接キャプションを生成することを目的としている。
優れたジェネレータを構築するために、既存のアプローチは通常、多数の記述されたイメージを必要とし、手動ラベリングに大きな影響を与える。
しかし、現実のアプリケーションでは、より一般的なシナリオは、記述済みのイメージと多くの未記述のイメージしか持たないということです。
したがって、結果として生じる課題は、未記述の画像とクロスモーダルジェネレータの学習を効果的に組み合わせることである。
そこで本研究では,共通意味空間における生成文の制約に生画像入力を活用することを目的とした,CPRC(Cross-modal Prediction and Relation Consistency)を利用した画像キャプション手法を提案する。
詳細は、モダリティの不均一なギャップが常にグローバル埋め込みを直接使用することの監督上の困難につながることを考慮し、CPRCは生画像と対応する生成された文の両方を共有意味空間に変換し、生成された文を2つの側面から測定する。
1)予測整合性。
CPRCは、原画像の予測をソフトラベルとして利用し、従来の擬似ラベリングではなく、生成文の有用な監視を蒸留する。
2)関係整合性。
CPRCは、重要な関係知識を保持するために、拡張画像と対応する生成された文との間の新しい関係性を開発する。
その結果、CPRCは、情報性と代表性の両方の観点から生成された文を監督し、未記述の画像を合理的に使用して、半教師付きシナリオ下でより効果的な生成物を学ぶことができる。
関連論文リスト
- Unlocking Pre-trained Image Backbones for Semantic Image Synthesis [29.688029979801577]
本稿では,現実的な画像を生成するセマンティック画像合成のための新しい種類のGAN識別器を提案する。
DP-SIMSをダブした本モデルでは,ADE-20K,COCO-Stuff,Cityscapesの入力ラベルマップと画像品質と一貫性の両面から,最新の結果が得られる。
論文 参考訳(メタデータ) (2023-12-20T09:39:19Z) - Efficient Token-Guided Image-Text Retrieval with Consistent Multimodal
Contrastive Training [33.78990448307792]
画像テキスト検索は、視覚と言語間の意味的関係を理解するための中心的な問題である。
以前の作品では、全体像とテキストの粗い粒度の表現を単に学習するか、画像領域またはピクセルとテキストワードの対応を精巧に確立する。
本研究では、粗い表現学習ときめ細かい表現学習を統一した枠組みに組み合わせて、新しい視点から画像テキストの検索を行う。
論文 参考訳(メタデータ) (2023-06-15T00:19:13Z) - Wavelet-based Unsupervised Label-to-Image Translation [9.339522647331334]
本稿では、自己教師付きセグメンテーション損失と全画像ウェーブレットに基づく識別を併用した、SIS(USIS)のための新しいアン教師付きパラダイムを提案する。
3つの挑戦的なデータセットで方法論を検証し、ペアモデルとアンペアモデルのパフォーマンスギャップを橋渡しする能力を実証する。
論文 参考訳(メタデータ) (2023-05-16T17:48:44Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - IR-GAN: Image Manipulation with Linguistic Instruction by Increment
Reasoning [110.7118381246156]
Incrment Reasoning Generative Adversarial Network (IR-GAN)は、画像における視覚的インクリメントと命令における意味的インクリメントとの整合性を推論することを目的としている。
まず,単語レベルと命令レベルの命令エンコーダを導入し,履歴関連命令からユーザの意図を意味的インクリメントとして学習する。
第2に、対象画像を生成するために、意味的インクリメントの表現をソースイメージに組み込んで、ソースイメージが補助的参照の役割を担っている。
論文 参考訳(メタデータ) (2022-04-02T07:48:39Z) - TFill: Image Completion via a Transformer-Based Architecture [69.62228639870114]
画像補完を無方向性シーケンス対シーケンス予測タスクとして扱うことを提案する。
トークン表現には,小かつ重複しないRFを持つ制限型CNNを用いる。
第2フェーズでは、可視領域と発生領域の外観整合性を向上させるために、新しい注意認識層(aal)を導入する。
論文 参考訳(メタデータ) (2021-04-02T01:42:01Z) - Enhanced Modality Transition for Image Captioning [51.72997126838352]
MTM(Modality Transition Module)を構築し、言語モデルに転送する前に視覚的機能をセマンティック表現に転送します。
トレーニング段階では、モダリティ遷移ネットワークは提案されたモダリティ損失によって最適化される。
提案手法の有効性を示すMS-COCOデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2021-02-23T07:20:12Z) - A Novel Actor Dual-Critic Model for Remote Sensing Image Captioning [32.11006090613004]
深部強化学習の概念を用いて,光リモートセンシング(RS)画像からテキストキャプションを生成する問題に対処する。
本稿では,第2の批評家モデルをエンコーダ・デコーダRNNの形式で展開するアクタデュアル・クリティカルトレーニング戦略を提案する。
提案手法は, 基礎的事実と非常によく似たテストデータから文を生成し, 多くの批判事例においてさらに優れた字幕を生成することに成功している。
論文 参考訳(メタデータ) (2020-10-05T13:35:02Z) - Fine-Grained Image Captioning with Global-Local Discriminative Objective [80.73827423555655]
本研究では, 細粒度記述キャプションの生成を容易にするため, グローバルな識別目的を提案する。
提案手法をMS-COCOデータセット上で評価した。
論文 参考訳(メタデータ) (2020-07-21T08:46:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。