論文の概要: Top-Down Framework for Weakly-supervised Grounded Image Captioning
- arxiv url: http://arxiv.org/abs/2306.07490v3
- Date: Sat, 2 Mar 2024 15:10:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 20:53:30.599305
- Title: Top-Down Framework for Weakly-supervised Grounded Image Captioning
- Title(参考訳): 弱教師付き接地画像キャプチャのためのトップダウンフレームワーク
- Authors: Chen Cai, Suchen Wang, Kim-hui Yap, Yi Wang
- Abstract要約: 弱教師付き接地画像キャプションは、バウンディングボックスの監督を使わずに、入力画像中のキャプションとグラウンド(局所化)予測対象語を生成することを目的としている。
本稿では,RGB画像を直接入力として,トップダウン画像レベルでのキャプションとグラウンド実行を行う一段弱教師付き接地キャプタを提案する。
- 参考スコア(独自算出の注目度): 19.00510117145054
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Weakly-supervised grounded image captioning (WSGIC) aims to generate the
caption and ground (localize) predicted object words in the input image without
using bounding box supervision. Recent two-stage solutions mostly apply a
bottom-up pipeline: (1) encode the input image into multiple region features
using an object detector; (2) leverage region features for captioning and
grounding. However, utilizing independent proposals produced by object
detectors tends to make the subsequent grounded captioner overfitted in finding
the correct object words, overlooking the relation between objects, and
selecting incompatible proposal regions for grounding. To address these issues,
we propose a one-stage weakly-supervised grounded captioner that directly takes
the RGB image as input to perform captioning and grounding at the top-down
image level. Specifically, we encode the image into visual token
representations and propose a Recurrent Grounding Module (RGM) in the decoder
to obtain precise Visual Language Attention Maps (VLAMs), which recognize the
spatial locations of the objects. In addition, we explicitly inject a relation
module into our one-stage framework to encourage relation understanding through
multi-label classification. This relation semantics served as contextual
information facilitating the prediction of relation and object words in the
caption. We observe that the relation semantic not only assists the grounded
captioner in generating a more accurate caption but also improves the grounding
performance. We validate the effectiveness of our proposed method on two
challenging datasets (Flick30k Entities captioning and MSCOCO captioning). The
experimental results demonstrate that our method achieves state-of-the-art
grounding performance.
- Abstract(参考訳): 弱教師付き接地画像キャプション (WSGIC) は, 境界ボックスの監督を使わずに, 入力画像中の字幕と接地予測対象語を生成することを目的としている。
最近の2段階のソリューションは主にボトムアップパイプラインを適用している: 1) 入力画像をオブジェクト検出器を用いて複数の領域にエンコードする; (2) キャプションとグラウンドの領域特徴を利用する。
しかし, 対象物検出装置が生成する独立した提案を利用すれば, その後の接地キャプタは, 適切な対象語を探し出し, 対象物の関係を見落とし, 接地のための不適合な提案領域を選択するのに適している。
これらの問題に対処するために,RGB画像を直接入力として,トップダウン画像レベルでのキャプションとグラウンド化を行う一段弱教師付きグラウンドドキャプタを提案する。
具体的には,映像を視覚的トークン表現にエンコードし,デコーダ内の再帰的接地モジュール(rgm)を提案し,オブジェクトの空間的位置を認識する高精度視覚言語注意マップ(vlam)を得る。
さらに,関係モジュールを1段階のフレームワークに明示的に注入し,多ラベル分類による関係理解を促進する。
この関係セマンティクスは、キャプション内の関係語と対象語の予測を容易にする文脈情報として機能した。
より正確なキャプションを生成する際に,関係セマンティクスが接地キャプタを支援するだけでなく,接地性能も向上する。
提案手法の有効性を2つの挑戦的データセット(Flick30k EntitiesキャプションとMSCOCOキャプション)で検証した。
実験により,本手法が最先端の接地性能を実現することを示す。
関連論文リスト
- Exploring Fine-Grained Image-Text Alignment for Referring Remote Sensing Image Segmentation [27.95875467352853]
本稿では,視覚的および言語的表現を完全に活用する新たな参照リモートセンシング画像分割手法であるFIANetを提案する。
提案した細粒度画像テキストアライメントモジュール(FIAM)は、入力画像と対応するテキストの特徴を同時に活用する。
本稿では,RefSegRSとRRSIS-Dを含む2つのリモートセンシングデータセットに対する提案手法の有効性を評価する。
論文 参考訳(メタデータ) (2024-09-20T16:45:32Z) - Beyond One-to-One: Rethinking the Referring Image Segmentation [117.53010476628029]
イメージセグメンテーションの参照は、自然言語表現によって参照される対象オブジェクトをセグメンテーションすることを目的としている。
2つのデコーダ分岐を含むDMMI(Dual Multi-Modal Interaction)ネットワークを提案する。
テキスト・ツー・イメージ・デコーダでは、テキストの埋め込みを利用して視覚的特徴を検索し、対応するターゲットをローカライズする。
一方、画像からテキストへのデコーダは、視覚的特徴に条件付けられた消去されたエンティティ・フレーズを再構成するために実装される。
論文 参考訳(メタデータ) (2023-08-26T11:39:22Z) - Advancing Visual Grounding with Scene Knowledge: Benchmark and Method [74.72663425217522]
ビジュアルグラウンドディング(VG)は、視覚と言語の間にきめ細かいアライメントを確立することを目的としている。
既存のVGデータセットの多くは、単純な記述テキストを使って構築されている。
我々は、アンダーラインScene underline-guided underlineVisual underlineGroundingの新たなベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-21T13:06:02Z) - Exploiting Auxiliary Caption for Video Grounding [66.77519356911051]
ビデオグラウンディングは、あるクエリ文にマッチする興味のある瞬間を、トリミングされていないビデオから見つけることを目的としている。
以前の作業では、潜在的なイベントとデータセット内のクエリ文の間のコンテキスト情報の提供に失敗する、ビデオアノテーションの疎度ジレンマを無視していた。
具体的には、まず高密度なキャプションを生成し、次に非補助的なキャプション抑制(NACS)によって補助的なキャプションを得る。
補助キャプションにおける潜在的な情報を取得するために,補助キャプション間の意味的関係を計画するキャプションガイド注意(CGA)を提案する。
論文 参考訳(メタデータ) (2023-01-15T02:04:02Z) - Consensus Graph Representation Learning for Better Grounded Image
Captioning [48.208119537050166]
本稿では,接地画像キャプションのためのConsensus Rraph Representation Learning framework(CGRL)を提案する。
Flickr30k Entitiesデータセットにおける対象幻覚(-9% CHAIRi)の顕著な減少とともに,本モデルの有効性を検証した。
論文 参考訳(メタデータ) (2021-12-02T04:17:01Z) - MOC-GAN: Mixing Objects and Captions to Generate Realistic Images [21.240099965546637]
より合理的な設定を導入し、オブジェクトやキャプションからリアルなイメージを生成します。
この設定では、オブジェクトはターゲットイメージにおける重要な役割を明示的に定義し、キャプションは、そのリッチな属性とコネクションを暗黙的に記述する。
2つのモードの入力を混合して現実的な画像を生成するMOC-GANを提案する。
論文 参考訳(メタデータ) (2021-06-06T14:04:07Z) - Image Captioning with Visual Object Representations Grounded in the
Textual Modality [14.797241131469486]
テキストと視覚のモダリティ間の共有埋め込み空間の可能性を探る。
本稿では,キャプションシステムの単語埋め込み空間における表現を基礎として,現在の傾向とは逆のアプローチを提案する。
論文 参考訳(メタデータ) (2020-10-19T12:21:38Z) - Contrastive Learning for Weakly Supervised Phrase Grounding [99.73968052506206]
単語領域の注目度を最適化することにより,句の接頭辞が学習可能であることを示す。
キーとなる考え方は、言語モデルに基づく単語置換を通して学習するための効果的な負のキャプションを構築することである。
COCO-Captionsでトレーニングされた弱い教師付きフレーズグラウンドモデルは、Flickr30Kベンチマークで76.7%の精度を達成するために、健全な5.7%の上昇を示している。
論文 参考訳(メタデータ) (2020-06-17T15:00:53Z) - More Grounded Image Captioning by Distilling Image-Text Matching Model [56.79895670335411]
本研究では,より基礎的な画像キャプションのための効果的な知識蒸留法として,POS強化画像テキストマッチングモデル(SCAN)を提案する。
1) 文と画像が与えられた場合、POS-SCANはSCANよりも正確にオブジェクトをグラウンドできる; 2) POS-SCANはキャプタの視覚的注意モジュールの単語領域アラインメント正規化として機能する。
論文 参考訳(メタデータ) (2020-04-01T12:42:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。