論文の概要: Object-Centric Unsupervised Image Captioning
- arxiv url: http://arxiv.org/abs/2112.00969v1
- Date: Thu, 2 Dec 2021 03:56:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-03 13:44:16.838724
- Title: Object-Centric Unsupervised Image Captioning
- Title(参考訳): オブジェクト中心非教師なし画像キャプション
- Authors: Zihang Meng, David Yang, Xuefei Cao, Ashish Shah, Ser-Nam Lim
- Abstract要約: 教師付き設定では、画像キャプション対は、文に言及されている全てのオブジェクトが対応する画像に現れる「よく整合している」。
本稿では,同じ画像に属さない場合でも,与えられた文に対応するオブジェクトをトレーニングセットから抽出することで,この問題を克服する。
トランスへの入力として使用される場合、そのようなオブジェクトの混合は、完全なオブジェクトカバレッジがなければ、より大きくすることができる。
- 参考スコア(独自算出の注目度): 19.59302443472258
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training an image captioning model in an unsupervised manner without
utilizing annotated image-caption pairs is an important step towards tapping
into a wider corpus of text and images. In the supervised setting,
image-caption pairs are "well-matched", where all objects mentioned in the
sentence appear in the corresponding image. These pairings are, however, not
available in the unsupervised setting. To overcome this, a main school of
research that has been shown to be effective in overcoming this is to construct
pairs from the images and texts in the training set according to their overlap
of objects. Unlike in the supervised setting, these constructed pairings are
however not guaranteed to have fully overlapping set of objects. Our work in
this paper overcomes this by harvesting objects corresponding to a given
sentence from the training set, even if they don't belong to the same image.
When used as input to a transformer, such mixture of objects enable larger if
not full object coverage, and when supervised by the corresponding sentence,
produced results that outperform current state of the art unsupervised methods
by a significant margin. Building upon this finding, we further show that (1)
additional information on relationship between objects and attributes of
objects also helps in boosting performance; and (2) our method also extends
well to non-English image captioning, which usually suffers from a scarcer
level of annotations. Our findings are supported by strong empirical results.
- Abstract(参考訳): 注釈付きイメージキャプションペアを使わずに、教師なしで画像キャプションモデルを訓練することは、テキストと画像のより広いコーパスにタッピングするための重要なステップである。
教師付き設定では、画像キャプチャペアは「よく一致」しており、文中で言及されるすべてのオブジェクトが対応する画像に現れる。
しかし、これらのペアリングは教師なしの設定では利用できない。
これを克服するために、この克服に効果的であることが示されている主な研究分野は、オブジェクトの重なりに応じて、トレーニングセット内の画像とテキストからペアを構築することである。
教師付き設定とは異なり、これらの構成されたペアリングは、完全な重複したオブジェクトセットを持つことは保証されない。
本稿では,同じ画像に属さない場合でも,与えられた文に対応するオブジェクトをトレーニングセットから抽出することで,この問題を克服する。
変圧器への入力として使用される場合、そのような混合オブジェクトは、完全なオブジェクトカバレッジでなければ大きくなり、対応する文によって監督されると、未監督のメソッドをかなりのマージンで上回る結果が得られる。
さらに,(1)オブジェクトとオブジェクトの属性の関係に関する追加情報も性能向上に寄与することを示すとともに,(2)英語以外の画像キャプションにも拡張し,通常はアノテーションの不足に苦しむことを示した。
我々の発見は強い実証的結果によって裏付けられている。
関連論文リスト
- Towards Image Semantics and Syntax Sequence Learning [8.033697392628424]
画像意味論」と「画像構文」からなる「画像文法」の概念を導入する。
視覚オブジェクト/シーンのクラスに対して画像文法を学習するための弱教師付き2段階アプローチを提案する。
私たちのフレームワークは、パッチセマンティクスを推論し、欠陥のある構文を検出するように訓練されています。
論文 参考訳(メタデータ) (2024-01-31T00:16:02Z) - Object-aware Contrastive Learning for Debiased Scene Representation [74.30741492814327]
オブジェクトを自己教師型でローカライズする,オブジェクト認識型コントラスト学習フレームワークを開発した。
また、コントラCAM、オブジェクト認識型乱作、背景混合に基づく2つのデータ拡張を導入し、コントラスト型自己教師型学習における文脈バイアスと背景バイアスを低減した。
論文 参考訳(メタデータ) (2021-07-30T19:24:07Z) - Exploring Set Similarity for Dense Self-supervised Representation
Learning [96.35286140203407]
本研究では,高密度自己教師型表現学習のためのtextbfset textbfsimilarity (SetSim) を提案する。
ピクセルワイドの類似性学習をセットワイドに一般化し,よりセマンティックな情報や構造的な情報を含むため,ロバスト性を向上させる。
具体的には、ビューの注意的特徴に頼って対応する集合を定め、不適切な対応を引き起こす可能性のあるノイズの多い背景をフィルタリングする。
論文 参考訳(メタデータ) (2021-07-19T09:38:27Z) - Removing Word-Level Spurious Alignment between Images and
Pseudo-Captions in Unsupervised Image Captioning [37.14912430046118]
教師なし画像キャプション(unsupervised image captioning)は、画像-sentenceペアの監督なしにキャプションを生成することを目的とした課題である。
本稿では,画像特徴を疑似キャプチャにおいて最も信頼できる単語のみに合わせるように訓練した,単純なゲーティング機構を提案する。
論文 参考訳(メタデータ) (2021-04-28T16:36:52Z) - Instance Localization for Self-supervised Detection Pretraining [68.24102560821623]
インスタンスローカリゼーションと呼ばれる,新たな自己監視型プリテキストタスクを提案する。
境界ボックスを事前学習に組み込むことで、より優れたタスクアライメントとアーキテクチャアライメントが促進されることを示す。
実験結果から, オブジェクト検出のための最先端の転送学習結果が得られた。
論文 参考訳(メタデータ) (2021-02-16T17:58:57Z) - Learning Object Detection from Captions via Textual Scene Attributes [70.90708863394902]
キャプションには、オブジェクトの属性やそれらの関係など、画像に関するよりリッチな情報が含まれている、と我々は主張する。
本稿では,この「テキストシーングラフ」の属性を用いて物体検知器を訓練する手法を提案する。
得られたモデルが、いくつかの挑戦的なオブジェクト検出データセットに対して、最先端の結果を達成することを実証的に実証した。
論文 参考訳(メタデータ) (2020-09-30T10:59:20Z) - A Self-supervised GAN for Unsupervised Few-shot Object Recognition [39.79912546252623]
本稿では、教師なし数発の物体認識について述べる。
すべてのトレーニングイメージはラベル付けされておらず、テストイメージはクエリと、対象のクラス毎にラベル付きサポートイメージに分割されている。
我々は,バニラGANを2つの損失関数で拡張し,それぞれが自己教師型学習を目的とした。
論文 参考訳(メタデータ) (2020-08-16T19:47:26Z) - Improving Weakly Supervised Visual Grounding by Contrastive Knowledge
Distillation [55.198596946371126]
本稿では,領域句と画像文マッチングの両方を考慮したコントラスト学習フレームワークを提案する。
我々の中心となる革新は、画像文スコア関数を更に構築した領域句スコア関数の学習である。
このようなスコア関数の設計は、テスト時のオブジェクト検出の必要性を排除し、推論コストを大幅に削減する。
論文 参考訳(メタデータ) (2020-07-03T22:02:00Z) - Mining Cross-Image Semantics for Weakly Supervised Semantic Segmentation [128.03739769844736]
2つのニューラルコアテンションを分類器に組み込んで、画像間のセマンティックな類似点と相違点をキャプチャする。
オブジェクトパターン学習の強化に加えて、コアテンションは他の関連する画像からのコンテキストを活用して、ローカライズマップの推論を改善することができる。
提案アルゴリズムは,これらすべての設定に対して新たな最先端性を設定し,その有効性と一般化性を示す。
論文 参考訳(メタデータ) (2020-07-03T21:53:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。