論文の概要: Contrastive Learning for Weakly Supervised Phrase Grounding
- arxiv url: http://arxiv.org/abs/2006.09920v3
- Date: Wed, 5 Aug 2020 21:53:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-19 18:58:31.599499
- Title: Contrastive Learning for Weakly Supervised Phrase Grounding
- Title(参考訳): 弱教師付きフレーズ接地におけるコントラスト学習
- Authors: Tanmay Gupta, Arash Vahdat, Gal Chechik, Xiaodong Yang, Jan Kautz, and
Derek Hoiem
- Abstract要約: 単語領域の注目度を最適化することにより,句の接頭辞が学習可能であることを示す。
キーとなる考え方は、言語モデルに基づく単語置換を通して学習するための効果的な負のキャプションを構築することである。
COCO-Captionsでトレーニングされた弱い教師付きフレーズグラウンドモデルは、Flickr30Kベンチマークで76.7%の精度を達成するために、健全な5.7%の上昇を示している。
- 参考スコア(独自算出の注目度): 99.73968052506206
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Phrase grounding, the problem of associating image regions to caption words,
is a crucial component of vision-language tasks. We show that phrase grounding
can be learned by optimizing word-region attention to maximize a lower bound on
mutual information between images and caption words. Given pairs of images and
captions, we maximize compatibility of the attention-weighted regions and the
words in the corresponding caption, compared to non-corresponding pairs of
images and captions. A key idea is to construct effective negative captions for
learning through language model guided word substitutions. Training with our
negatives yields a $\sim10\%$ absolute gain in accuracy over randomly-sampled
negatives from the training data. Our weakly supervised phrase grounding model
trained on COCO-Captions shows a healthy gain of $5.7\%$ to achieve $76.7\%$
accuracy on Flickr30K Entities benchmark.
- Abstract(参考訳): 画像領域をキャプション語に関連付ける問題である句の接地は、視覚言語タスクの重要な構成要素である。
画像とキャプション語間の相互情報に対する下限を最大化するために,単語領域の注意を最適化することで,句の接頭辞を学習できることを示す。
画像とキャプションのペアが与えられた場合、非対応画像とキャプションのペアと比較して、注目強調領域と対応するキャプション内の単語の互換性を最大化する。
重要なアイデアは、言語モデルによる単語置換を通して学習するための効果的な否定的キャプションを構築することである。
我々の負のトレーニングは、トレーニングデータからランダムにサンプリングされた負の精度を$\sim10\%$絶対的に向上する。
COCO-Captionsでトレーニングされた弱い教師付きフレーズグラウンドモデルは、Flickr30K Entitiesベンチマークで76.7\%の精度を達成するために、5.7\%の健全な利益を示している。
関連論文リスト
- Visually-Aware Context Modeling for News Image Captioning [54.31708859631821]
News Image Captioningは、ニュース記事や画像からキャプションを作成することを目的としている。
より優れた名前埋め込みを学習するための顔命名モジュールを提案する。
私たちはCLIPを使用して、画像にセマンティックに近い文を検索します。
論文 参考訳(メタデータ) (2023-08-16T12:39:39Z) - Top-Down Framework for Weakly-supervised Grounded Image Captioning [19.00510117145054]
弱教師付き接地画像キャプションは、バウンディングボックスの監督を使わずに、入力画像中のキャプションとグラウンド(局所化)予測対象語を生成することを目的としている。
本稿では,RGB画像を直接入力として,トップダウン画像レベルでのキャプションとグラウンド実行を行う一段弱教師付き接地キャプタを提案する。
論文 参考訳(メタデータ) (2023-06-13T01:42:18Z) - Large-Scale Bidirectional Training for Zero-Shot Image Captioning [44.17587735943739]
本稿では、画像キャプションをゼロショットにするための効率的なトレーニングと推論のフレームワークであるBITTERSについて紹介する。
大規模なトレーニングセットとモデルアーキテクチャを慎重に選択することが,ゼロショット画像キャプションの実現の鍵であることを示す。
論文 参考訳(メタデータ) (2022-11-13T00:09:36Z) - CapOnImage: Context-driven Dense-Captioning on Image [13.604173177437536]
画像上のキャプション(CapOnImage)と呼ばれる新しいタスクを導入し、コンテキスト情報に基づいて画像の異なる場所で高密度キャプションを生成する。
テキストと画像位置の対応を段階的に学習するマルチレベル事前学習タスクを備えたマルチモーダル事前学習モデルを提案する。
他の画像キャプションモデルと比較すると、キャプション精度と多様性の両面で最良の結果が得られる。
論文 参考訳(メタデータ) (2022-04-27T14:40:31Z) - Distributed Attention for Grounded Image Captioning [55.752968732796354]
弱教師付き接地画像キャプションの問題点について検討する。
目的は、画像の対応する領域に接する各名詞語で画像のコンテキストを記述する文を自動的に生成することである。
論文 参考訳(メタデータ) (2021-08-02T17:28:33Z) - Visually Grounded Compound PCFGs [65.04669567781634]
言語理解のための視覚的基盤の爆発は、最近多くの注目を集めている。
本研究では,視覚的な文法誘導について検討し,未ラベルテキストとその視覚的キャプションから選挙区を学習する。
論文 参考訳(メタデータ) (2020-09-25T19:07:00Z) - Improving Weakly Supervised Visual Grounding by Contrastive Knowledge
Distillation [55.198596946371126]
本稿では,領域句と画像文マッチングの両方を考慮したコントラスト学習フレームワークを提案する。
我々の中心となる革新は、画像文スコア関数を更に構築した領域句スコア関数の学習である。
このようなスコア関数の設計は、テスト時のオブジェクト検出の必要性を排除し、推論コストを大幅に削減する。
論文 参考訳(メタデータ) (2020-07-03T22:02:00Z) - More Grounded Image Captioning by Distilling Image-Text Matching Model [56.79895670335411]
本研究では,より基礎的な画像キャプションのための効果的な知識蒸留法として,POS強化画像テキストマッチングモデル(SCAN)を提案する。
1) 文と画像が与えられた場合、POS-SCANはSCANよりも正確にオブジェクトをグラウンドできる; 2) POS-SCANはキャプタの視覚的注意モジュールの単語領域アラインメント正規化として機能する。
論文 参考訳(メタデータ) (2020-04-01T12:42:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。