論文の概要: Exploiting Cross-Modal Prediction and Relation Consistency for
Semi-Supervised Image Captioning
- arxiv url: http://arxiv.org/abs/2110.11767v1
- Date: Fri, 22 Oct 2021 13:14:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-25 13:52:30.604113
- Title: Exploiting Cross-Modal Prediction and Relation Consistency for
Semi-Supervised Image Captioning
- Title(参考訳): 半スーパービジョン画像キャプションにおけるクロスモーダル予測と関係整合性
- Authors: Yang Yang, Hongchen Wei, Hengshu Zhu, Dianhai Yu, Hui Xiong, Qingshan
Liu and Jian Yang
- Abstract要約: CPRC(Cross-modal Prediction and Relation Consistency)を利用した画像キャプション手法を提案する。
CPRCは、生画像入力を利用して、一般的に意味空間において生成された文を制約することを目的としている。
細部において、モダリティの不均一なギャップは、常にグローバルな埋め込みを直接使用することの監督上の困難をもたらすことを考慮し、CPRCは原画像と対応する生成された文の両方を共有意味空間に変換する。
- 参考スコア(独自算出の注目度): 42.04124590381724
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The task of image captioning aims to generate captions directly from images
via the automatically learned cross-modal generator. To build a well-performing
generator, existing approaches usually need a large number of described images,
which requires a huge effects on manual labeling. However, in real-world
applications, a more general scenario is that we only have limited amount of
described images and a large number of undescribed images. Therefore, a
resulting challenge is how to effectively combine the undescribed images into
the learning of cross-modal generator. To solve this problem, we propose a
novel image captioning method by exploiting the Cross-modal Prediction and
Relation Consistency (CPRC), which aims to utilize the raw image input to
constrain the generated sentence in the commonly semantic space. In detail,
considering that the heterogeneous gap between modalities always leads to the
supervision difficulty of using the global embedding directly, CPRC turns to
transform both the raw image and corresponding generated sentence into the
shared semantic space, and measure the generated sentence from two aspects: 1)
Prediction consistency. CPRC utilizes the prediction of raw image as soft label
to distill useful supervision for the generated sentence, rather than employing
the traditional pseudo labeling; 2) Relation consistency. CPRC develops a novel
relation consistency between augmented images and corresponding generated
sentences to retain the important relational knowledge. In result, CPRC
supervises the generated sentence from both the informativeness and
representativeness perspectives, and can reasonably use the undescribed images
to learn a more effective generator under the semi-supervised scenario.
- Abstract(参考訳): 画像キャプションのタスクは、自動学習されたクロスモーダルジェネレータを通じて、画像から直接キャプションを生成することを目的としている。
優れたジェネレータを構築するために、既存のアプローチは通常、多数の記述されたイメージを必要とし、手動ラベリングに大きな影響を与える。
しかし、現実のアプリケーションでは、より一般的なシナリオは、記述済みのイメージと多くの未記述のイメージしか持たないということです。
したがって、結果として生じる課題は、未記述の画像とクロスモーダルジェネレータの学習を効果的に組み合わせることである。
そこで本研究では,共通意味空間における生成文の制約に生画像入力を活用することを目的とした,CPRC(Cross-modal Prediction and Relation Consistency)を利用した画像キャプション手法を提案する。
詳細は、モダリティの不均一なギャップが常にグローバル埋め込みを直接使用することの監督上の困難につながることを考慮し、CPRCは生画像と対応する生成された文の両方を共有意味空間に変換し、生成された文を2つの側面から測定する。
1)予測整合性。
CPRCは、原画像の予測をソフトラベルとして利用し、従来の擬似ラベリングではなく、生成文の有用な監視を蒸留する。
2)関係整合性。
CPRCは、重要な関係知識を保持するために、拡張画像と対応する生成された文との間の新しい関係性を開発する。
その結果、CPRCは、情報性と代表性の両方の観点から生成された文を監督し、未記述の画像を合理的に使用して、半教師付きシナリオ下でより効果的な生成物を学ぶことができる。
関連論文リスト
- I2I-Galip: Unsupervised Medical Image Translation Using Generative Adversarial CLIP [30.506544165999564]
ペアの例が存在しないため、画像から画像への翻訳は難しい作業である。
我々はイメージ・ツー・イメージ・ジェネレーティブ・アドバイザリアル・CLIP (I2I-Galip) という新しい画像・画像変換フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-19T01:44:50Z) - MFCLIP: Multi-modal Fine-grained CLIP for Generalizable Diffusion Face Forgery Detection [64.29452783056253]
フォトリアリスティック・フェイスジェネレーション手法の急速な発展は、社会やアカデミックにおいて大きな関心を集めている。
既存のアプローチは主に画像モダリティを用いて顔の偽造パターンをキャプチャするが、きめ細かいノイズやテキストのような他のモダリティは完全には探索されていない。
そこで本研究では,画像ノイズの多点にわたる包括的かつきめ細かなフォージェリートレースをマイニングする,MFCLIP(MF-modal Fine-fine-fine-fine-fine-fine CLIP)モデルを提案する。
論文 参考訳(メタデータ) (2024-09-15T13:08:59Z) - Semi-Supervised Image Captioning Considering Wasserstein Graph Matching [4.368211287521716]
We propose a novel Semi-Supervised Image Captioning method Using Wasserstein Graph Matching (SSIC-WGM)。
SSIC-WGMは、原画像のシーングラフと生成された文とをそれぞれ構成する。
1) モーダル間の一貫性と 2) モーダル間の一貫性の2つの側面から生成された文を制約する。
論文 参考訳(メタデータ) (2024-03-26T14:47:05Z) - Efficient Token-Guided Image-Text Retrieval with Consistent Multimodal
Contrastive Training [33.78990448307792]
画像テキスト検索は、視覚と言語間の意味的関係を理解するための中心的な問題である。
以前の作品では、全体像とテキストの粗い粒度の表現を単に学習するか、画像領域またはピクセルとテキストワードの対応を精巧に確立する。
本研究では、粗い表現学習ときめ細かい表現学習を統一した枠組みに組み合わせて、新しい視点から画像テキストの検索を行う。
論文 参考訳(メタデータ) (2023-06-15T00:19:13Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - IR-GAN: Image Manipulation with Linguistic Instruction by Increment
Reasoning [110.7118381246156]
Incrment Reasoning Generative Adversarial Network (IR-GAN)は、画像における視覚的インクリメントと命令における意味的インクリメントとの整合性を推論することを目的としている。
まず,単語レベルと命令レベルの命令エンコーダを導入し,履歴関連命令からユーザの意図を意味的インクリメントとして学習する。
第2に、対象画像を生成するために、意味的インクリメントの表現をソースイメージに組み込んで、ソースイメージが補助的参照の役割を担っている。
論文 参考訳(メタデータ) (2022-04-02T07:48:39Z) - TFill: Image Completion via a Transformer-Based Architecture [69.62228639870114]
画像補完を無方向性シーケンス対シーケンス予測タスクとして扱うことを提案する。
トークン表現には,小かつ重複しないRFを持つ制限型CNNを用いる。
第2フェーズでは、可視領域と発生領域の外観整合性を向上させるために、新しい注意認識層(aal)を導入する。
論文 参考訳(メタデータ) (2021-04-02T01:42:01Z) - A Novel Actor Dual-Critic Model for Remote Sensing Image Captioning [32.11006090613004]
深部強化学習の概念を用いて,光リモートセンシング(RS)画像からテキストキャプションを生成する問題に対処する。
本稿では,第2の批評家モデルをエンコーダ・デコーダRNNの形式で展開するアクタデュアル・クリティカルトレーニング戦略を提案する。
提案手法は, 基礎的事実と非常によく似たテストデータから文を生成し, 多くの批判事例においてさらに優れた字幕を生成することに成功している。
論文 参考訳(メタデータ) (2020-10-05T13:35:02Z) - Fine-Grained Image Captioning with Global-Local Discriminative Objective [80.73827423555655]
本研究では, 細粒度記述キャプションの生成を容易にするため, グローバルな識別目的を提案する。
提案手法をMS-COCOデータセット上で評価した。
論文 参考訳(メタデータ) (2020-07-21T08:46:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。