Fugu-MT 論文翻訳(概要): Exploiting Cross-Modal Prediction and Relation Consistency for Semi-Supervised Image Captioning

論文の概要: Exploiting Cross-Modal Prediction and Relation Consistency for Semi-Supervised Image Captioning

arxiv url: http://arxiv.org/abs/2110.11767v1
Date: Fri, 22 Oct 2021 13:14:32 GMT
ステータス: 翻訳完了
システム内更新日: 2021-10-25 13:52:30.604113
Title: Exploiting Cross-Modal Prediction and Relation Consistency for Semi-Supervised Image Captioning
Title（参考訳）: 半スーパービジョン画像キャプションにおけるクロスモーダル予測と関係整合性
Authors: Yang Yang, Hongchen Wei, Hengshu Zhu, Dianhai Yu, Hui Xiong, Qingshan Liu and Jian Yang
Abstract要約: CPRC(Cross-modal Prediction and Relation Consistency)を利用した画像キャプション手法を提案する。 CPRCは、生画像入力を利用して、一般的に意味空間において生成された文を制約することを目的としている。細部において、モダリティの不均一なギャップは、常にグローバルな埋め込みを直接使用することの監督上の困難をもたらすことを考慮し、CPRCは原画像と対応する生成された文の両方を共有意味空間に変換する。
参考スコア（独自算出の注目度）: 42.04124590381724
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The task of image captioning aims to generate captions directly from images via the automatically learned cross-modal generator. To build a well-performing generator, existing approaches usually need a large number of described images, which requires a huge effects on manual labeling. However, in real-world applications, a more general scenario is that we only have limited amount of described images and a large number of undescribed images. Therefore, a resulting challenge is how to effectively combine the undescribed images into the learning of cross-modal generator. To solve this problem, we propose a novel image captioning method by exploiting the Cross-modal Prediction and Relation Consistency (CPRC), which aims to utilize the raw image input to constrain the generated sentence in the commonly semantic space. In detail, considering that the heterogeneous gap between modalities always leads to the supervision difficulty of using the global embedding directly, CPRC turns to transform both the raw image and corresponding generated sentence into the shared semantic space, and measure the generated sentence from two aspects: 1) Prediction consistency. CPRC utilizes the prediction of raw image as soft label to distill useful supervision for the generated sentence, rather than employing the traditional pseudo labeling; 2) Relation consistency. CPRC develops a novel relation consistency between augmented images and corresponding generated sentences to retain the important relational knowledge. In result, CPRC supervises the generated sentence from both the informativeness and representativeness perspectives, and can reasonably use the undescribed images to learn a more effective generator under the semi-supervised scenario.
Abstract（参考訳）: 画像キャプションのタスクは、自動学習されたクロスモーダルジェネレータを通じて、画像から直接キャプションを生成することを目的としている。優れたジェネレータを構築するために、既存のアプローチは通常、多数の記述されたイメージを必要とし、手動ラベリングに大きな影響を与える。しかし、現実のアプリケーションでは、より一般的なシナリオは、記述済みのイメージと多くの未記述のイメージしか持たないということです。したがって、結果として生じる課題は、未記述の画像とクロスモーダルジェネレータの学習を効果的に組み合わせることである。そこで本研究では,共通意味空間における生成文の制約に生画像入力を活用することを目的とした,CPRC(Cross-modal Prediction and Relation Consistency)を利用した画像キャプション手法を提案する。詳細は、モダリティの不均一なギャップが常にグローバル埋め込みを直接使用することの監督上の困難につながることを考慮し、CPRCは生画像と対応する生成された文の両方を共有意味空間に変換し、生成された文を2つの側面から測定する。 1)予測整合性。 CPRCは、原画像の予測をソフトラベルとして利用し、従来の擬似ラベリングではなく、生成文の有用な監視を蒸留する。 2)関係整合性。 CPRCは、重要な関係知識を保持するために、拡張画像と対応する生成された文との間の新しい関係性を開発する。その結果、CPRCは、情報性と代表性の両方の観点から生成された文を監督し、未記述の画像を合理的に使用して、半教師付きシナリオ下でより効果的な生成物を学ぶことができる。

関連論文リスト

I2I-Galip: Unsupervised Medical Image Translation Using Generative Adversarial CLIP [30.506544165999564]
ペアの例が存在しないため、画像から画像への翻訳は難しい作業である。我々はイメージ・ツー・イメージ・ジェネレーティブ・アドバイザリアル・CLIP (I2I-Galip) という新しい画像・画像変換フレームワークを提案する。
論文参考訳（メタデータ） (2024-09-19T01:44:50Z)
MFCLIP: Multi-modal Fine-grained CLIP for Generalizable Diffusion Face Forgery Detection [64.29452783056253]
フォトリアリスティック・フェイスジェネレーション手法の急速な発展は、社会やアカデミックにおいて大きな関心を集めている。既存のアプローチは主に画像モダリティを用いて顔の偽造パターンをキャプチャするが、きめ細かいノイズやテキストのような他のモダリティは完全には探索されていない。そこで本研究では,画像ノイズの多点にわたる包括的かつきめ細かなフォージェリートレースをマイニングする,MFCLIP(MF-modal Fine-fine-fine-fine-fine-fine CLIP)モデルを提案する。
論文参考訳（メタデータ） (2024-09-15T13:08:59Z)
Semi-Supervised Image Captioning Considering Wasserstein Graph Matching [4.368211287521716]
We propose a novel Semi-Supervised Image Captioning method Using Wasserstein Graph Matching (SSIC-WGM)。 SSIC-WGMは、原画像のシーングラフと生成された文とをそれぞれ構成する。 1) モーダル間の一貫性と 2) モーダル間の一貫性の2つの側面から生成された文を制約する。
論文参考訳（メタデータ） (2024-03-26T14:47:05Z)
Efficient Token-Guided Image-Text Retrieval with Consistent Multimodal Contrastive Training [33.78990448307792]
画像テキスト検索は、視覚と言語間の意味的関係を理解するための中心的な問題である。以前の作品では、全体像とテキストの粗い粒度の表現を単に学習するか、画像領域またはピクセルとテキストワードの対応を精巧に確立する。本研究では、粗い表現学習ときめ細かい表現学習を統一した枠組みに組み合わせて、新しい視点から画像テキストの検索を行う。
論文参考訳（メタデータ） (2023-06-15T00:19:13Z)
Learning to Exploit Temporal Structure for Biomedical Vision-Language Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文参考訳（メタデータ） (2023-01-11T16:35:33Z)
IR-GAN: Image Manipulation with Linguistic Instruction by Increment Reasoning [110.7118381246156]
Incrment Reasoning Generative Adversarial Network (IR-GAN)は、画像における視覚的インクリメントと命令における意味的インクリメントとの整合性を推論することを目的としている。まず,単語レベルと命令レベルの命令エンコーダを導入し,履歴関連命令からユーザの意図を意味的インクリメントとして学習する。第2に、対象画像を生成するために、意味的インクリメントの表現をソースイメージに組み込んで、ソースイメージが補助的参照の役割を担っている。
論文参考訳（メタデータ） (2022-04-02T07:48:39Z)
TFill: Image Completion via a Transformer-Based Architecture [69.62228639870114]
画像補完を無方向性シーケンス対シーケンス予測タスクとして扱うことを提案する。トークン表現には,小かつ重複しないRFを持つ制限型CNNを用いる。第2フェーズでは、可視領域と発生領域の外観整合性を向上させるために、新しい注意認識層(aal)を導入する。
論文参考訳（メタデータ） (2021-04-02T01:42:01Z)
A Novel Actor Dual-Critic Model for Remote Sensing Image Captioning [32.11006090613004]
深部強化学習の概念を用いて,光リモートセンシング(RS)画像からテキストキャプションを生成する問題に対処する。本稿では,第2の批評家モデルをエンコーダ・デコーダRNNの形式で展開するアクタデュアル・クリティカルトレーニング戦略を提案する。提案手法は, 基礎的事実と非常によく似たテストデータから文を生成し, 多くの批判事例においてさらに優れた字幕を生成することに成功している。
論文参考訳（メタデータ） (2020-10-05T13:35:02Z)
Fine-Grained Image Captioning with Global-Local Discriminative Objective [80.73827423555655]
本研究では, 細粒度記述キャプションの生成を容易にするため, グローバルな識別目的を提案する。提案手法をMS-COCOデータセット上で評価した。
論文参考訳（メタデータ） (2020-07-21T08:46:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。