論文の概要: Semi-Supervised Image Captioning Considering Wasserstein Graph Matching
- arxiv url: http://arxiv.org/abs/2403.17995v1
- Date: Tue, 26 Mar 2024 14:47:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-28 21:24:43.331026
- Title: Semi-Supervised Image Captioning Considering Wasserstein Graph Matching
- Title(参考訳): ワッサースタイングラフマッチングを考慮した半スーパービジョン画像キャプション
- Authors: Yang Yang,
- Abstract要約: We propose a novel Semi-Supervised Image Captioning method Using Wasserstein Graph Matching (SSIC-WGM)。
SSIC-WGMは、原画像のシーングラフと生成された文とをそれぞれ構成する。
1) モーダル間の一貫性と 2) モーダル間の一貫性の2つの側面から生成された文を制約する。
- 参考スコア(独自算出の注目度): 4.368211287521716
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image captioning can automatically generate captions for the given images, and the key challenge is to learn a mapping function from visual features to natural language features. Existing approaches are mostly supervised ones, i.e., each image has a corresponding sentence in the training set. However, considering that describing images always requires a huge of manpower, we usually have limited amount of described images (i.e., image-text pairs) and a large number of undescribed images in real-world applications. Thereby, a dilemma is the "Semi-Supervised Image Captioning". To solve this problem, we propose a novel Semi-Supervised Image Captioning method considering Wasserstein Graph Matching (SSIC-WGM), which turns to adopt the raw image inputs to supervise the generated sentences. Different from traditional single modal semi-supervised methods, the difficulty of semi-supervised cross-modal learning lies in constructing intermediately comparable information among heterogeneous modalities. In this paper, SSIC-WGM adopts the successful scene graphs as intermediate information, and constrains the generated sentences from two aspects: 1) inter-modal consistency. SSIC-WGM constructs the scene graphs of the raw image and generated sentence respectively, then employs the wasserstein distance to better measure the similarity between region embeddings of different graphs. 2) intra-modal consistency. SSIC-WGM takes the data augmentation techniques for the raw images, then constrains the consistency among augmented images and generated sentences. Consequently, SSIC-WGM combines the cross-modal pseudo supervision and structure invariant measure for efficiently using the undescribed images, and learns more reasonable mapping function.
- Abstract(参考訳): 画像キャプションは、与えられた画像のキャプションを自動的に生成し、重要な課題は、視覚的特徴から自然言語的特徴へのマッピング関数の学習である。
既存のアプローチは、主に教師付きであり、すなわち、各画像はトレーニングセットに対応する文を持っている。
しかし、画像を記述するには、常に膨大な人力を必要とするため、通常、記述された画像(例えば、画像とテキストのペア)が限られており、現実世界のアプリケーションでは、多数の未記述画像が存在する。
これによりジレンマは「セミ・スーパーバイズド・イメージ・キャプション」と呼ばれる。
そこで本稿では,Wasserstein Graph Matching (SSIC-WGM) を考慮した半監督画像のキャプション手法を提案する。
従来の単一モーダル半教師付き手法とは異なり、半教師付きクロスモーダル学習の難しさは、異種モーダル間で中間的に同等な情報を構築することにある。
本稿では、SSIC-WGMが成功したシーングラフを中間情報として採用し、生成された文を2つの側面から制約する。
1)モーダル間の整合性。
SSIC-WGMは、原画像のシーングラフと生成された文をそれぞれ構築し、その後、ワッセルシュタイン距離を用いて異なるグラフの領域埋め込みの類似性をよりよく測定する。
2) モード内整合性。
SSIC-WGMは、生画像のデータ拡張技術を用いて、拡張画像と生成された文間の一貫性を制約する。
その結果、SSIC-WGMは、非記述画像の効率的な利用のために、クロスモーダルな擬似監督と構造不変測度を組み合わせて、より合理的なマッピング関数を学習する。
関連論文リスト
- FACTUAL: A Benchmark for Faithful and Consistent Textual Scene Graph
Parsing [66.70054075041487]
画像キャプションをシーングラフに変換する既存のシーングラフは、しばしば2種類のエラーに悩まされる。
まず、生成されたシーングラフはキャプションや対応する画像の真の意味を捉えず、忠実さの欠如をもたらす。
第二に、生成されたシーングラフは一貫性が高く、同じセマンティクスは異なるアノテーションで表される。
論文 参考訳(メタデータ) (2023-05-27T15:38:31Z) - Diffusion-Based Scene Graph to Image Generation with Masked Contrastive
Pre-Training [112.94542676251133]
画像とのアライメントを直接最適化することで,シーングラフの埋め込みを学習する。
具体的には,シーングラフからグローバル情報とローカル情報の両方を抽出するエンコーダを事前訓練する。
SGDiffと呼ばれる結果の方法は、シーングラフノードと接続を変更することによって生成された画像のセマンティックな操作を可能にする。
論文 参考訳(メタデータ) (2022-11-21T01:11:19Z) - Exploiting Cross-Modal Prediction and Relation Consistency for
Semi-Supervised Image Captioning [42.04124590381724]
CPRC(Cross-modal Prediction and Relation Consistency)を利用した画像キャプション手法を提案する。
CPRCは、生画像入力を利用して、一般的に意味空間において生成された文を制約することを目的としている。
細部において、モダリティの不均一なギャップは、常にグローバルな埋め込みを直接使用することの監督上の困難をもたらすことを考慮し、CPRCは原画像と対応する生成された文の両方を共有意味空間に変換する。
論文 参考訳(メタデータ) (2021-10-22T13:14:32Z) - USIS: Unsupervised Semantic Image Synthesis [9.613134538472801]
セマンティック画像合成(USIS)のための新しい教師なしパラダイムを提案する。
USISは、自己教師付きセグメンテーションロスを使用して、視覚的に分離可能なセグメンテーションクラスで画像を出力することを学ぶ。
実画像の色とテクスチャの分布を高周波数情報を失うことなく一致させるため,ウェーブレットを用いた識別手法を提案する。
論文 参考訳(メタデータ) (2021-09-29T20:48:41Z) - Font Completion and Manipulation by Cycling Between Multi-Modality
Representations [113.26243126754704]
中間表現としてグラフを用いた2次元グラフィックオブジェクトとしてフォントグリフの生成を探求する。
我々は、画像エンコーダと画像の間のグラフで、モダリティサイクルのイメージ・ツー・イメージ構造を定式化する。
本モデルでは,画像から画像までのベースラインと,それ以前のグリフ補完手法よりも改善された結果を生成する。
論文 参考訳(メタデータ) (2021-08-30T02:43:29Z) - MOC-GAN: Mixing Objects and Captions to Generate Realistic Images [21.240099965546637]
より合理的な設定を導入し、オブジェクトやキャプションからリアルなイメージを生成します。
この設定では、オブジェクトはターゲットイメージにおける重要な役割を明示的に定義し、キャプションは、そのリッチな属性とコネクションを暗黙的に記述する。
2つのモードの入力を混合して現実的な画像を生成するMOC-GANを提案する。
論文 参考訳(メタデータ) (2021-06-06T14:04:07Z) - A Deep Local and Global Scene-Graph Matching for Image-Text Retrieval [4.159666152160874]
シーングラフの提示は画像テキストマッチングの課題に適した方法である。
本稿では,最先端の手法を強化するローカル・グローバル・シーングラフマッチング(LGSGM)モデルを提案する。
Flickr30kデータセットのリコールを10%以上増やすことで,レベルの組み合わせによる改善により,ベースライン手法の性能を向上させることができる。
論文 参考訳(メタデータ) (2021-06-04T10:33:14Z) - Seed the Views: Hierarchical Semantic Alignment for Contrastive
Representation Learning [116.91819311885166]
一つの画像から生成されたビューをtextbfCross-samples や Multi-level representation に拡張することで,階層的なセマンティックアライメント戦略を提案する。
提案手法はCsMlと呼ばれ,サンプル間の多層視覚表現を堅牢な方法で統合する機能を備えている。
論文 参考訳(メタデータ) (2020-12-04T17:26:24Z) - Graph Optimal Transport for Cross-Domain Alignment [121.80313648519203]
クロスドメインアライメントはコンピュータビジョンと自然言語処理の基本である。
我々は、最近の最適輸送(OT)の進歩から発芽する原則的なフレームワークであるグラフ最適輸送(GOT)を提案する。
実験は、幅広いタスクにわたるベースライン上でのGOTの一貫性のある性能を示す。
論文 参考訳(メタデータ) (2020-06-26T01:14:23Z) - Structural-analogy from a Single Image Pair [118.61885732829117]
本稿では,1対の画像A,Bのみを用いて,ニューラルネットワークによる画像構造理解能力について検討する。
我々は、B の外観とスタイルを保持するが、A に対応する構造的配置を持つ画像を生成する。
提案手法は,画像AとBのみを利用した条件生成タスクにおいて,高品質な画像を生成するために利用できる。
論文 参考訳(メタデータ) (2020-04-05T14:51:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。