論文の概要: Semi-Supervised Image Captioning by Adversarially Propagating Labeled
Data
- arxiv url: http://arxiv.org/abs/2301.11174v1
- Date: Thu, 26 Jan 2023 15:25:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-27 13:15:15.863741
- Title: Semi-Supervised Image Captioning by Adversarially Propagating Labeled
Data
- Title(参考訳): ラベル付きデータの逆伝搬による半監督画像のキャプション
- Authors: Dong-Jin Kim, Tae-Hyun Oh, Jinsoo Choi, In So Kweon
- Abstract要約: 本稿では、画像キャプションモデルの一般化を改善するための、新しいデータ効率半教師付きフレームワークを提案する。
提案手法は,キャプタにペアデータから学習し,段階的に未ペアデータの関連付けを行うよう訓練する。
1)画像ベースと(2)高密度領域ベースキャプションデータセットの両方を総合的かつ包括的な実験結果とし,それに続いて,少ないペアリングデータセットの包括的分析を行った。
- 参考スコア(独自算出の注目度): 95.0476489266988
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a novel data-efficient semi-supervised framework to improve the
generalization of image captioning models. Constructing a large-scale labeled
image captioning dataset is an expensive task in terms of labor, time, and
cost. In contrast to manually annotating all the training samples, separately
collecting uni-modal datasets is immensely easier, e.g., a large-scale image
dataset and a sentence dataset. We leverage such massive unpaired image and
caption data upon standard paired data by learning to associate them. To this
end, our proposed semi-supervised learning method assigns pseudo-labels to
unpaired samples in an adversarial learning fashion, where the joint
distribution of image and caption is learned. Our method trains a captioner to
learn from a paired data and to progressively associate unpaired data. This
approach shows noticeable performance improvement even in challenging scenarios
including out-of-task data (i.e., relational captioning, where the target task
is different from the unpaired data) and web-crawled data. We also show that
our proposed method is theoretically well-motivated and has a favorable global
optimal property. Our extensive and comprehensive empirical results both on (1)
image-based and (2) dense region-based captioning datasets followed by
comprehensive analysis on the scarcely-paired COCO dataset demonstrate the
consistent effectiveness of our semisupervised learning method with unpaired
data compared to competing methods.
- Abstract(参考訳): 本稿では、画像キャプションモデルの一般化を改善するための、新しいデータ効率半教師付きフレームワークを提案する。
大規模ラベル付き画像キャプションデータセットの構築は、労力、時間、コストの面で高価な作業である。
すべてのトレーニングサンプルを手動でアノテートするのとは対照的に、ユニモーダルデータセットを個別に収集するのは、大規模な画像データセットや文データセットなど、非常に簡単である。
このような膨大な未ペア画像とキャプションデータを、標準的なペアデータに基づいて学習して関連づける。
そこで,提案する半教師付き学習法は,画像とキャプションの同時分布を学習する非ペア型学習手法において,擬似ラベルを非ペア型サンプルに割り当てる。
提案手法は,キャプタにペアデータから学習し,不適切なデータを段階的に関連付けるよう訓練する。
このアプローチは、アウト・オブ・タスクデータ(リレーショナルキャプション、ターゲットタスクがアンペアデータと異なるリレーショナルキャプション)やWebクローリングデータなど、困難なシナリオにおいても顕著なパフォーマンス向上を示す。
また,提案手法は理論的に好意的であり,大域的最適性を有することを示す。
1) 画像ベースと(2) 高密度領域型キャプションデータセットと, 少ないペア付きcocoデータセットの包括的解析の両方について, 包括的かつ包括的実験結果が得られた。
関連論文リスト
- Debiasing Vison-Language Models with Text-Only Training [15.069736314663352]
視覚バイアスを軽減するために,テキスト・アズ・イメージ・トレーニング・パラダイムを活用するTODというテキスト・オン・デバイアス・フレームワークを提案する。
そこで本研究では,テキスト・アズ・イメージ・トレーニングのパラダイムを活用し,視覚バイアスを緩和するテキスト・オン・デバイアス化フレームワークTODを提案する。
論文 参考訳(メタデータ) (2024-10-12T04:34:46Z) - ASPIRE: Language-Guided Data Augmentation for Improving Robustness Against Spurious Correlations [43.323791505213634]
ASPIRE (Language-guided Data Augmentation for SPurious correlation Removal) は、スプリアスな特徴のない画像でトレーニングデータセットを補完するソリューションである。
トレーニングセットにグループラベルや既存の非スパースイメージを必要とせずに、非スパース画像を生成することができる。
先行手法の最悪のグループ分類精度を1%から38%向上させる。
論文 参考訳(メタデータ) (2023-08-19T20:18:15Z) - ALIP: Adaptive Language-Image Pre-training with Synthetic Caption [78.93535202851278]
コントラスト言語-画像事前学習(CLIP)は、様々な視覚言語タスクのパフォーマンスを大幅に向上させた。
Webデータに固有のノイズと未整合画像テキストペアが存在することは、表現学習のパフォーマンスに影響を与える可能性がある。
本稿では、原文と合成キャプションの両方からの監督を統合するバイパスモデルであるAdaptive Language-Image Pre-Training(ALIP)を提案する。
論文 参考訳(メタデータ) (2023-08-16T15:19:52Z) - Self-Supervised Image Captioning with CLIP [0.0]
本稿では,自己監督型画像キャプション手法を提案する。
小さなラベル付きデータセットから初期信号を学んだ後、ラベルなしデータに基づいて自己教師付き学習に移行する。
ラベル付きCOCOデータセットの2%未満を活用するにもかかわらず、我々の手法は完全なデータセットでトレーニングされた最先端モデルに匹敵するパフォーマンスを提供する。
論文 参考訳(メタデータ) (2023-06-26T23:29:16Z) - A Semi-Paired Approach For Label-to-Image Translation [6.888253564585197]
ラベル・ツー・イメージ翻訳のための半教師付き(半ペア)フレームワークを初めて紹介する。
半ペア画像設定では、小さなペアデータとより大きなペア画像とラベルのセットにアクセスすることができる。
本稿では,この共有ネットワークのためのトレーニングアルゴリズムを提案し,非表現型クラスに着目した希少なクラスサンプリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-23T16:13:43Z) - Dense FixMatch: a simple semi-supervised learning method for pixel-wise
prediction tasks [68.36996813591425]
Dense FixMatchは,高密度かつ構造化された予測タスクのオンライン半教師付き学習のための簡易な手法である。
我々は、擬似ラベルにマッチング操作を追加することにより、画像分類を超えた半教師付き学習問題にFixMatchの適用を可能にする。
Dense FixMatchは、ラベル付きデータのみを使用して教師付き学習と比較すると、結果を著しく改善し、ラベル付きサンプルの1/4でそのパフォーマンスに近づいた。
論文 参考訳(メタデータ) (2022-10-18T15:02:51Z) - Prefix Conditioning Unifies Language and Label Supervision [84.11127588805138]
学習した表現の一般化性を低減することにより,データセットのバイアスが事前学習に悪影響を及ぼすことを示す。
実験では、この単純な手法により、ゼロショット画像認識精度が向上し、画像レベルの分布シフトに対するロバスト性が向上することを示した。
論文 参考訳(メタデータ) (2022-06-02T16:12:26Z) - Robust Cross-Modal Representation Learning with Progressive
Self-Distillation [7.676408770854477]
CLIPの視覚言語アプローチの学習目的は、Webハーベスト画像キャプションデータセットに見られるノイズの多い多対多対応を効果的に考慮していない。
本研究では、進行的な自己蒸留とソフトな画像テキストアライメントを用いて、雑音の多いデータから頑健な表現をより効率的に学習するクロスモーダルコントラスト学習に基づく新しいトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-10T03:28:18Z) - Generating More Pertinent Captions by Leveraging Semantics and Style on
Multi-Source Datasets [56.018551958004814]
本稿では,データソースの非一様結合をトレーニングすることで,流動的な記述を生成するタスクに対処する。
ノイズの多い画像とテキストのペアを持つ大規模データセットは、サブ最適の監視源を提供する。
本稿では,検索コンポーネントから抽出したスタイルトークンとキーワードを組み込むことにより,セマンティクスと記述スタイルを活用・分離することを提案する。
論文 参考訳(メタデータ) (2021-11-24T19:00:05Z) - ATSO: Asynchronous Teacher-Student Optimization for Semi-Supervised
Medical Image Segmentation [99.90263375737362]
教師-学生最適化の非同期版であるATSOを提案する。
ATSOはラベルのないデータを2つのサブセットに分割し、モデルの微調整に1つのサブセットを交互に使用し、他のサブセットのラベルを更新する。
医用画像のセグメンテーションデータセットを2つ評価し,様々な半教師付き環境において優れた性能を示す。
論文 参考訳(メタデータ) (2020-06-24T04:05:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。