論文の概要: Improving Weakly Supervised Visual Grounding by Contrastive Knowledge
Distillation
- arxiv url: http://arxiv.org/abs/2007.01951v2
- Date: Sun, 25 Apr 2021 05:11:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-14 04:53:44.307762
- Title: Improving Weakly Supervised Visual Grounding by Contrastive Knowledge
Distillation
- Title(参考訳): コントラスト的知識蒸留による弱視的接地の改善
- Authors: Liwei Wang, Jing Huang, Yin Li, Kun Xu, Zhengyuan Yang, Dong Yu
- Abstract要約: 本稿では,領域句と画像文マッチングの両方を考慮したコントラスト学習フレームワークを提案する。
我々の中心となる革新は、画像文スコア関数を更に構築した領域句スコア関数の学習である。
このようなスコア関数の設計は、テスト時のオブジェクト検出の必要性を排除し、推論コストを大幅に削減する。
- 参考スコア(独自算出の注目度): 55.198596946371126
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Weakly supervised phrase grounding aims at learning region-phrase
correspondences using only image-sentence pairs. A major challenge thus lies in
the missing links between image regions and sentence phrases during training.
To address this challenge, we leverage a generic object detector at training
time, and propose a contrastive learning framework that accounts for both
region-phrase and image-sentence matching. Our core innovation is the learning
of a region-phrase score function, based on which an image-sentence score
function is further constructed. Importantly, our region-phrase score function
is learned by distilling from soft matching scores between the detected object
names and candidate phrases within an image-sentence pair, while the
image-sentence score function is supervised by ground-truth image-sentence
pairs. The design of such score functions removes the need of object detection
at test time, thereby significantly reducing the inference cost. Without bells
and whistles, our approach achieves state-of-the-art results on visual phrase
grounding, surpassing previous methods that require expensive object detectors
at test time.
- Abstract(参考訳): 弱教師付きフレーズグラウンドニングは、画像-センスペアのみを使用して、領域-フレーズ対応を学習することを目的としている。
従って大きな課題は、トレーニング中の画像領域と文句の間のリンクの欠如にある。
この課題に対処するために,訓練時に汎用物体検出器を活用し,領域認識と画像強度マッチングの両方を考慮したコントラスト学習フレームワークを提案する。
我々の中心となる革新は、画像文スコア関数を更に構築した領域句スコア関数の学習である。
重要なことは、検出対象名と候補句とのソフトマッチングスコアから画像文ペア内の領域句スコア関数を抽出し、画像文スコア関数を地文ペアで教師することである。
このようなスコア関数の設計は、テスト時にオブジェクト検出の必要性をなくし、推論コストを大幅に削減する。
テスト時に高価な物体検出器を必要とする従来の手法を上回って,視覚句の接地に関する最先端の結果を得る。
関連論文リスト
- Top-Down Framework for Weakly-supervised Grounded Image Captioning [19.00510117145054]
弱教師付き接地画像キャプションは、バウンディングボックスの監督を使わずに、入力画像中のキャプションとグラウンド(局所化)予測対象語を生成することを目的としている。
本稿では,RGB画像を直接入力として,トップダウン画像レベルでのキャプションとグラウンド実行を行う一段弱教師付き接地キャプタを提案する。
論文 参考訳(メタデータ) (2023-06-13T01:42:18Z) - Learning to search for and detect objects in foveal images using deep
learning [3.655021726150368]
本研究では,画像中のクラスを探索する人間の客観的な注意をエミュレートする固定予測モデルを用いる。
そして、各固定点のフェーブされた画像を分類して、シーンにターゲットが存在するか否かを判定する。
本稿では,2つのタスク間の知識伝達を可能とし,修正予測と検出を同時に行うことができる新しいデュアルタスクモデルを提案する。
論文 参考訳(メタデータ) (2023-04-12T09:50:25Z) - Distributed Attention for Grounded Image Captioning [55.752968732796354]
弱教師付き接地画像キャプションの問題点について検討する。
目的は、画像の対応する領域に接する各名詞語で画像のコンテキストを記述する文を自動的に生成することである。
論文 参考訳(メタデータ) (2021-08-02T17:28:33Z) - Removing Word-Level Spurious Alignment between Images and
Pseudo-Captions in Unsupervised Image Captioning [37.14912430046118]
教師なし画像キャプション(unsupervised image captioning)は、画像-sentenceペアの監督なしにキャプションを生成することを目的とした課題である。
本稿では,画像特徴を疑似キャプチャにおいて最も信頼できる単語のみに合わせるように訓練した,単純なゲーティング機構を提案する。
論文 参考訳(メタデータ) (2021-04-28T16:36:52Z) - Detector-Free Weakly Supervised Grounding by Separation [76.65699170882036]
Wakly Supervised phrase-Grounding (WSG)は、画像中の任意のテキストフレーズをローカライズするためにデータを使用するタスクを扱う。
本稿では,事前学習した検出器を使わずにWSGを解くための検出器フリーWSG(DF-WSG)を提案する。
我々は、以前のdf-wsg sotaと比較して最大8.5%の精度向上を示す。
論文 参考訳(メタデータ) (2021-04-20T08:27:31Z) - A Simple and Effective Use of Object-Centric Images for Long-Tailed
Object Detection [56.82077636126353]
シーン中心画像における物体検出を改善するために,物体中心画像を活用する。
私たちは、シンプルで驚くほど効果的なフレームワークを提示します。
我々の手法は、レアオブジェクトのオブジェクト検出(およびインスタンスセグメンテーション)の精度を相対的に50%(および33%)向上させることができる。
論文 参考訳(メタデータ) (2021-02-17T17:27:21Z) - Mining Cross-Image Semantics for Weakly Supervised Semantic Segmentation [128.03739769844736]
2つのニューラルコアテンションを分類器に組み込んで、画像間のセマンティックな類似点と相違点をキャプチャする。
オブジェクトパターン学習の強化に加えて、コアテンションは他の関連する画像からのコンテキストを活用して、ローカライズマップの推論を改善することができる。
提案アルゴリズムは,これらすべての設定に対して新たな最先端性を設定し,その有効性と一般化性を示す。
論文 参考訳(メタデータ) (2020-07-03T21:53:46Z) - Contrastive Learning for Weakly Supervised Phrase Grounding [99.73968052506206]
単語領域の注目度を最適化することにより,句の接頭辞が学習可能であることを示す。
キーとなる考え方は、言語モデルに基づく単語置換を通して学習するための効果的な負のキャプションを構築することである。
COCO-Captionsでトレーニングされた弱い教師付きフレーズグラウンドモデルは、Flickr30Kベンチマークで76.7%の精度を達成するために、健全な5.7%の上昇を示している。
論文 参考訳(メタデータ) (2020-06-17T15:00:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。