論文の概要: Distributed Attention for Grounded Image Captioning
- arxiv url: http://arxiv.org/abs/2108.01056v1
- Date: Mon, 2 Aug 2021 17:28:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-03 17:21:32.031511
- Title: Distributed Attention for Grounded Image Captioning
- Title(参考訳): 接地画像キャプションのための分散注意
- Authors: Nenglun Chen, Xingjia Pan, Runnan Chen, Lei Yang, Zhiwen Lin, Yuqiang
Ren, Haolei Yuan, Xiaowei Guo, Feiyue Huang, Wenping Wang
- Abstract要約: 弱教師付き接地画像キャプションの問題点について検討する。
目的は、画像の対応する領域に接する各名詞語で画像のコンテキストを記述する文を自動的に生成することである。
- 参考スコア(独自算出の注目度): 55.752968732796354
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the problem of weakly supervised grounded image captioning. That is,
given an image, the goal is to automatically generate a sentence describing the
context of the image with each noun word grounded to the corresponding region
in the image. This task is challenging due to the lack of explicit fine-grained
region word alignments as supervision. Previous weakly supervised methods
mainly explore various kinds of regularization schemes to improve attention
accuracy. However, their performances are still far from the fully supervised
ones. One main issue that has been ignored is that the attention for generating
visually groundable words may only focus on the most discriminate parts and can
not cover the whole object. To this end, we propose a simple yet effective
method to alleviate the issue, termed as partial grounding problem in our
paper. Specifically, we design a distributed attention mechanism to enforce the
network to aggregate information from multiple spatially different regions with
consistent semantics while generating the words. Therefore, the union of the
focused region proposals should form a visual region that encloses the object
of interest completely. Extensive experiments have demonstrated the superiority
of our proposed method compared with the state-of-the-arts.
- Abstract(参考訳): 弱教師付き画像キャプションの問題点について検討する。
すなわち、画像が与えられたとき、画像中の対応する領域に接する名詞単語ごとに、画像の文脈を記述した文を自動的に生成することである。
このタスクは、監督としての明示的なきめ細かな地域単語アライメントが欠如しているため、難しい。
従来の弱教師付き手法は主に注意の精度を向上させるために様々な正規化スキームを探索する。
しかし、そのパフォーマンスは、完全に監督されたものとは程遠い。
無視されている主な問題は、視覚的に接地可能な単語を生成することの注意は、最も差別化された部分だけに集中し、オブジェクト全体をカバーできないことである。
この目的のために,本稿では,部分基底問題と呼ばれる問題を緩和する簡易かつ効果的な手法を提案する。
具体的には,複数の空間的に異なる領域の情報を一貫したセマンティクスで集約し,単語を生成するためにネットワークを強制する分散アテンション機構を設計する。
したがって、焦点を絞った地域提案の結合は、関心の対象を完全に囲む視覚領域を形成するべきである。
実験により,提案手法が最先端技術よりも優れていることを示した。
関連論文リスト
- Top-Down Framework for Weakly-supervised Grounded Image Captioning [19.00510117145054]
弱教師付き接地画像キャプションは、バウンディングボックスの監督を使わずに、入力画像中のキャプションとグラウンド(局所化)予測対象語を生成することを目的としている。
本稿では,RGB画像を直接入力として,トップダウン画像レベルでのキャプションとグラウンド実行を行う一段弱教師付き接地キャプタを提案する。
論文 参考訳(メタデータ) (2023-06-13T01:42:18Z) - Image-Specific Information Suppression and Implicit Local Alignment for
Text-based Person Search [61.24539128142504]
テキストベースの人物検索(TBPS)は,問合せテキストが与えられた画像ギャラリーから同一の身元で歩行者画像を検索することを目的とした課題である。
既存の手法の多くは、モダリティ間の微粒な対応をモデル化するために、明示的に生成された局所的な部分に依存している。
TBPSのためのマルチレベルアライメントネットワーク(MANet)を提案する。
論文 参考訳(メタデータ) (2022-08-30T16:14:18Z) - AttnGrounder: Talking to Cars with Attention [6.09170287691728]
視覚的接地作業のための一段階から一段階の訓練可能なモデルを提案する。
Visual Groundingは、与えられた自然言語のテキストクエリに基づいて、特定のオブジェクトをイメージにローカライズすることを目的としている。
我々はTalk2Carデータセット上でAttnGrounderを評価し,既存の手法よりも3.26%改善したことを示す。
論文 参考訳(メタデータ) (2020-09-11T23:18:55Z) - Fine-Grained Image Captioning with Global-Local Discriminative Objective [80.73827423555655]
本研究では, 細粒度記述キャプションの生成を容易にするため, グローバルな識別目的を提案する。
提案手法をMS-COCOデータセット上で評価した。
論文 参考訳(メタデータ) (2020-07-21T08:46:02Z) - Improving Weakly Supervised Visual Grounding by Contrastive Knowledge
Distillation [55.198596946371126]
本稿では,領域句と画像文マッチングの両方を考慮したコントラスト学習フレームワークを提案する。
我々の中心となる革新は、画像文スコア関数を更に構築した領域句スコア関数の学習である。
このようなスコア関数の設計は、テスト時のオブジェクト検出の必要性を排除し、推論コストを大幅に削減する。
論文 参考訳(メタデータ) (2020-07-03T22:02:00Z) - Mining Cross-Image Semantics for Weakly Supervised Semantic Segmentation [128.03739769844736]
2つのニューラルコアテンションを分類器に組み込んで、画像間のセマンティックな類似点と相違点をキャプチャする。
オブジェクトパターン学習の強化に加えて、コアテンションは他の関連する画像からのコンテキストを活用して、ローカライズマップの推論を改善することができる。
提案アルゴリズムは,これらすべての設定に対して新たな最先端性を設定し,その有効性と一般化性を示す。
論文 参考訳(メタデータ) (2020-07-03T21:53:46Z) - Contrastive Learning for Weakly Supervised Phrase Grounding [99.73968052506206]
単語領域の注目度を最適化することにより,句の接頭辞が学習可能であることを示す。
キーとなる考え方は、言語モデルに基づく単語置換を通して学習するための効果的な負のキャプションを構築することである。
COCO-Captionsでトレーニングされた弱い教師付きフレーズグラウンドモデルは、Flickr30Kベンチマークで76.7%の精度を達成するために、健全な5.7%の上昇を示している。
論文 参考訳(メタデータ) (2020-06-17T15:00:53Z) - MAGNet: Multi-Region Attention-Assisted Grounding of Natural Language
Queries at Phrase Level [6.47137925955334]
画像レベルの視覚・テキスト融合に空間的注意ネットワークを活用することを提案する。
In-network Region Proposal Network (RPN) でリージョン提案を洗練し、フレーズクエリに対して単一または複数リージョンを検出する。
このような参照式データセットであるReferItでは、マルチリージョンアテンション支援基盤ネットワーク(MAGNet)が最先端技術よりも12%以上の改善を実現しています。
論文 参考訳(メタデータ) (2020-06-06T04:14:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。