論文の概要: Removing Word-Level Spurious Alignment between Images and
Pseudo-Captions in Unsupervised Image Captioning
- arxiv url: http://arxiv.org/abs/2104.13872v1
- Date: Wed, 28 Apr 2021 16:36:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-29 13:19:31.248621
- Title: Removing Word-Level Spurious Alignment between Images and
Pseudo-Captions in Unsupervised Image Captioning
- Title(参考訳): 教師なし画像キャプションにおける単語レベルのスプリアスアライメント除去と擬似カプセル化
- Authors: Ukyo Honda, Yoshitaka Ushiku, Atsushi Hashimoto, Taro Watanabe, Yuji
Matsumoto
- Abstract要約: 教師なし画像キャプション(unsupervised image captioning)は、画像-sentenceペアの監督なしにキャプションを生成することを目的とした課題である。
本稿では,画像特徴を疑似キャプチャにおいて最も信頼できる単語のみに合わせるように訓練した,単純なゲーティング機構を提案する。
- 参考スコア(独自算出の注目度): 37.14912430046118
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unsupervised image captioning is a challenging task that aims at generating
captions without the supervision of image-sentence pairs, but only with images
and sentences drawn from different sources and object labels detected from the
images. In previous work, pseudo-captions, i.e., sentences that contain the
detected object labels, were assigned to a given image. The focus of the
previous work was on the alignment of input images and pseudo-captions at the
sentence level. However, pseudo-captions contain many words that are irrelevant
to a given image. In this work, we investigate the effect of removing
mismatched words from image-sentence alignment to determine how they make this
task difficult. We propose a simple gating mechanism that is trained to align
image features with only the most reliable words in pseudo-captions: the
detected object labels. The experimental results show that our proposed method
outperforms the previous methods without introducing complex sentence-level
learning objectives. Combined with the sentence-level alignment method of
previous work, our method further improves its performance. These results
confirm the importance of careful alignment in word-level details.
- Abstract(参考訳): 教師なしのイメージキャプションは、イメージと文のペアを監督せずにキャプションを生成することを目的とした課題であり、画像から検出された異なるソースやオブジェクトラベルから引き出された画像や文のみを扱う。
以前の研究では、検出されたオブジェクトラベルを含む文である擬似カプセルが与えられた画像に割り当てられていた。
先行研究の焦点は,入力画像のアライメントと文レベルでの擬似カプセル化であった。
しかし、疑似キャプチャには、ある画像と無関係な多くの単語が含まれている。
本研究では,画像・文のアライメントからミスマッチした単語を除去し,その処理を困難にする方法を検討する。
本稿では,画像特徴を擬似キャプションの最も信頼性の高い単語(検出対象ラベル)と整合させるための簡単なゲーティング機構を提案する。
実験の結果,提案手法は複雑な文レベルの学習目標を導入することなく,従来の手法よりも優れていた。
従来の作業の文レベルのアライメント手法と組み合わせることで,その性能をさらに向上する。
これらの結果は,単語レベルの細部における注意的アライメントの重要性を裏付けるものである。
関連論文リスト
- Learning Camouflaged Object Detection from Noisy Pseudo Label [60.9005578956798]
本稿では,まず,弱い半教師付きカモフラージュオブジェクト検出(COD)法を提案する。
予算効率が高く高精度なカモフラージュされたオブジェクトセグメンテーションを目標とし、完全にラベル付けされた画像が極めて限られている。
本稿では,早期の学習段階において,モデルが正しい画素の学習を容易にするノイズ補正損失を提案する。
完全ラベル付きデータの20%しか使用しない場合,本手法は最先端の手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-07-18T04:53:51Z) - Distractors-Immune Representation Learning with Cross-modal Contrastive Regularization for Change Captioning [71.14084801851381]
変更キャプションは、類似した画像間のセマンティックな変化を簡潔に記述することを目的としている。
既存のほとんどの手法は、それらの違いを直接キャプチャし、エラーを起こしやすい特徴を得るリスクを負う。
本稿では,2つの画像表現の対応するチャネルを関連づけるイントラクタ免疫表現学習ネットワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T13:00:33Z) - Towards Image Semantics and Syntax Sequence Learning [8.033697392628424]
画像意味論」と「画像構文」からなる「画像文法」の概念を導入する。
視覚オブジェクト/シーンのクラスに対して画像文法を学習するための弱教師付き2段階アプローチを提案する。
私たちのフレームワークは、パッチセマンティクスを推論し、欠陥のある構文を検出するように訓練されています。
論文 参考訳(メタデータ) (2024-01-31T00:16:02Z) - Object-Centric Unsupervised Image Captioning [19.59302443472258]
教師付き設定では、画像キャプション対は、文に言及されている全てのオブジェクトが対応する画像に現れる「よく整合している」。
本稿では,同じ画像に属さない場合でも,与えられた文に対応するオブジェクトをトレーニングセットから抽出することで,この問題を克服する。
トランスへの入力として使用される場合、そのようなオブジェクトの混合は、完全なオブジェクトカバレッジがなければ、より大きくすることができる。
論文 参考訳(メタデータ) (2021-12-02T03:56:09Z) - FILIP: Fine-grained Interactive Language-Image Pre-Training [106.19474076935363]
微粒な対話型言語-画像事前学習は、モーダルな遅延相互作用機構を通じてより細粒度なアライメントを実現する。
我々は,FILIP300Mと呼ばれる大規模画像テキストペアデータセットを構築し,事前学習を行う。
実験により、FILIPは複数の下流視覚言語タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2021-11-09T17:15:38Z) - Contrastive Learning for Unsupervised Image-to-Image Translation [10.091669091440396]
コントラスト学習に基づく教師なし画像から画像への翻訳手法を提案する。
一対の画像をランダムにサンプリングし、ジェネレータに元の構造を維持しながら、その外観を別の方向に変更するように訓練する。
実験結果から,本手法は視覚的品質と翻訳精度において,教師なしベースラインよりも優れていた。
論文 参考訳(メタデータ) (2021-05-07T08:43:38Z) - CAPTION: Correction by Analyses, POS-Tagging and Interpretation of
Objects using only Nouns [1.4502611532302039]
本研究では,物体検出のためのディープラーニング手法と自然言語処理を組み合わせた画像キャプションの検証手法を提案する。
FOIL-COCOデータセットでは,MS-COCO画像データセットに表されるオブジェクトのみを用いて,様々な画像に対して正しいキャプションと誤りのキャプションを提供するため,本手法を検証した。
論文 参考訳(メタデータ) (2020-10-02T08:06:42Z) - Improving Weakly Supervised Visual Grounding by Contrastive Knowledge
Distillation [55.198596946371126]
本稿では,領域句と画像文マッチングの両方を考慮したコントラスト学習フレームワークを提案する。
我々の中心となる革新は、画像文スコア関数を更に構築した領域句スコア関数の学習である。
このようなスコア関数の設計は、テスト時のオブジェクト検出の必要性を排除し、推論コストを大幅に削減する。
論文 参考訳(メタデータ) (2020-07-03T22:02:00Z) - Learning Representations by Predicting Bags of Visual Words [55.332200948110895]
自己教師付き表現学習ターゲットは、ラベルなしデータから畳み込みに基づく画像表現を学習する。
この分野におけるNLP手法の成功に触発された本研究では,空間的に高密度な画像記述に基づく自己教師型アプローチを提案する。
論文 参考訳(メタデータ) (2020-02-27T16:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。