論文の概要: Unpaired Image Captioning by Image-level Weakly-Supervised Visual
Concept Recognition
- arxiv url: http://arxiv.org/abs/2203.03195v1
- Date: Mon, 7 Mar 2022 08:02:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-08 14:34:06.512863
- Title: Unpaired Image Captioning by Image-level Weakly-Supervised Visual
Concept Recognition
- Title(参考訳): 画像レベルの弱教師付き視覚概念認識による未ペア画像キャプション
- Authors: Peipei Zhu, Xiao Wang, Yong Luo, Zhenglong Sun, Wei-Shi Zheng, Yaowei
Wang, and Changwen Chen
- Abstract要約: 未ペア画像キャプション(UIC)とは、訓練段階で画像キャプチャペアを使わずに画像を記述することである。
既存の研究の多くは、既成のアルゴリズムを使って視覚的概念を得る。
画像レベルラベルを用いたコスト効率の高いUICを実現するための新しい手法を提案する。
- 参考スコア(独自算出の注目度): 83.93422034664184
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The goal of unpaired image captioning (UIC) is to describe images without
using image-caption pairs in the training phase. Although challenging, we
except the task can be accomplished by leveraging a training set of images
aligned with visual concepts. Most existing studies use off-the-shelf
algorithms to obtain the visual concepts because the Bounding Box (BBox) labels
or relationship-triplet labels used for the training are expensive to acquire.
In order to resolve the problem in expensive annotations, we propose a novel
approach to achieve cost-effective UIC. Specifically, we adopt image-level
labels for the optimization of the UIC model in a weakly-supervised manner. For
each image, we assume that only the image-level labels are available without
specific locations and numbers. The image-level labels are utilized to train a
weakly-supervised object recognition model to extract object information (e.g.,
instance) in an image, and the extracted instances are adopted to infer the
relationships among different objects based on an enhanced graph neural network
(GNN). The proposed approach achieves comparable or even better performance
compared with previous methods without the expensive cost of annotations.
Furthermore, we design an unrecognized object (UnO) loss combined with a visual
concept reward to improve the alignment of the inferred object and relationship
information with the images. It can effectively alleviate the issue encountered
by existing UIC models about generating sentences with nonexistent objects. To
the best of our knowledge, this is the first attempt to solve the problem of
Weakly-Supervised visual concept recognition for UIC (WS-UIC) based only on
image-level labels. Extensive experiments have been carried out to demonstrate
that the proposed WS-UIC model achieves inspiring results on the COCO dataset
while significantly reducing the cost of labeling.
- Abstract(参考訳): 非ペア画像キャプション(unpaired image captioning, uic)の目的は、訓練段階で画像キャプチャペアを使用せずに画像を記述することである。
課題はあるものの、視覚的概念に整合した画像のトレーニングセットを活用することで、タスク以外は達成できる。
既存の研究の多くは、トレーニングに使用するバウンディングボックス(bbox)ラベルやリレーショントリップレットラベルの取得に費用がかかるため、市販のアルゴリズムを使用して視覚概念を取得する。
高価なアノテーションの問題を解決するために,コスト効率の高いUICを実現するための新しいアプローチを提案する。
具体的には、UICモデルの最適化に画像レベルのラベルを弱教師付き方式で採用する。
各画像について、画像レベルラベルのみが特定の位置と番号なしで利用可能であると仮定する。
画像レベルラベルを用いて弱教師付きオブジェクト認識モデルを訓練し、画像中のオブジェクト情報(例えば、画像中のオブジェクト情報)を抽出し、抽出されたインスタンスを用いて拡張グラフニューラルネットワーク(gnn)に基づいて異なるオブジェクト間の関係を推測する。
提案手法は,アノテーションコストのかかる従来の手法と比較して,同等あるいはさらに優れた性能を実現する。
さらに,認識されていない物体(UnO)の損失と視覚的概念報酬を組み合わせて,推定対象と画像の関係情報との整合性を改善する。
既存のUICモデルでは、存在しないオブジェクトで文を生成する際の問題を効果的に緩和することができる。
我々の知る限りでは、画像レベルラベルのみに基づくUIC(WS-UIC)のための弱スーパービジョン視覚概念認識の問題を解決するための最初の試みである。
提案したWS-UICモデルがCOCOデータセットのインスピレーションを達成し,ラベリングコストを大幅に低減することを示すため,大規模な実験が実施されている。
関連論文リスト
- Few-shot Class-Incremental Semantic Segmentation via Pseudo-Labeling and
Knowledge Distillation [3.4436201325139737]
セマンティックセグメンテーションモデルのための新しいクラスをいくつかの例から学習する問題に対処する。
限られたデータから学習するために、数発のトレーニングアノテーションを増強する擬似ラベル方式を提案する。
上記のステップを、統一的な学習目標を持つ単一の畳み込みニューラルネットワークに統合する。
論文 参考訳(メタデータ) (2023-08-05T05:05:37Z) - Improving Human-Object Interaction Detection via Virtual Image Learning [68.56682347374422]
人間-物体相互作用(Human-Object Interaction、HOI)は、人間と物体の相互作用を理解することを目的としている。
本稿では,仮想画像学習(Virtual Image Leaning, VIL)による不均衡分布の影響を軽減することを提案する。
ラベルからイメージへの新たなアプローチであるMultiple Steps Image Creation (MUSIC)が提案され、実際の画像と一貫した分布を持つ高品質なデータセットを作成する。
論文 参考訳(メタデータ) (2023-08-04T10:28:48Z) - Semantic Contrastive Bootstrapping for Single-positive Multi-label
Recognition [36.3636416735057]
本研究では,意味的コントラスト型ブートストラップ法(Scob)を用いて,オブジェクト間の関係を徐々に回復する手法を提案する。
次に、アイコン的オブジェクトレベルの表現を抽出する再帰的セマンティックマスク変換器を提案する。
大規模な実験結果から,提案手法が最先端のモデルを超えていることが示唆された。
論文 参考訳(メタデータ) (2023-07-15T01:59:53Z) - Exploring CLIP for Assessing the Look and Feel of Images [87.97623543523858]
ゼロショット方式で画像の品質知覚(ルック)と抽象知覚(フィール)の両方を評価するために,コントラスト言語-画像事前学習(CLIP)モデルを導入する。
以上の結果から,CLIPは知覚的評価によく適合する有意義な先行情報を捉えることが示唆された。
論文 参考訳(メタデータ) (2022-07-25T17:58:16Z) - AugNet: End-to-End Unsupervised Visual Representation Learning with
Image Augmentation [3.6790362352712873]
我々は、未ラベル画像の集合から画像特徴を学習するための新しいディープラーニングトレーニングパラダイムであるAugNetを提案する。
実験により,低次元空間における画像の表現が可能であることを実証した。
多くのディープラーニングベースの画像検索アルゴリズムとは異なり、我々のアプローチは外部アノテーション付きデータセットへのアクセスを必要としない。
論文 参考訳(メタデータ) (2021-06-11T09:02:30Z) - Learning to Focus: Cascaded Feature Matching Network for Few-shot Image
Recognition [38.49419948988415]
ディープネットワークは、多数の画像でトレーニングすることで、カテゴリのオブジェクトを正確に認識することを学ぶことができる。
低ショット画像認識タスク(low-shot image recognition task)として知られるメタラーニングの課題は、1つのカテゴリの認識モデルを学ぶためにアノテーション付き画像しか利用できない場合に発生する。
この問題を解決するため,Cascaded Feature Matching Network (CFMN) と呼ばれる手法を提案する。
EmphminiImageNet と Omniglot の2つの標準データセットを用いた数ショット学習実験により,本手法の有効性が確認された。
論文 参考訳(メタデータ) (2021-01-13T11:37:28Z) - Gradient-Induced Co-Saliency Detection [81.54194063218216]
Co-SOD(Co-saliency Detection)は、一般的な唾液前景を関連画像のグループに分割することを目的としている。
本稿では,人間の行動にインスパイアされた,勾配誘導型共分散検出法を提案する。
論文 参考訳(メタデータ) (2020-04-28T08:40:55Z) - Distilling Localization for Self-Supervised Representation Learning [82.79808902674282]
コントラスト学習は教師なし表現学習に革命をもたらした。
現在のコントラストモデルでは、前景オブジェクトのローカライズには効果がない。
本稿では,背景変化を学習するためのデータ駆動型手法を提案する。
論文 参考訳(メタデータ) (2020-04-14T16:29:42Z) - Learning Representations by Predicting Bags of Visual Words [55.332200948110895]
自己教師付き表現学習ターゲットは、ラベルなしデータから畳み込みに基づく画像表現を学習する。
この分野におけるNLP手法の成功に触発された本研究では,空間的に高密度な画像記述に基づく自己教師型アプローチを提案する。
論文 参考訳(メタデータ) (2020-02-27T16:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。