論文の概要: More Grounded Image Captioning by Distilling Image-Text Matching Model
- arxiv url: http://arxiv.org/abs/2004.00390v1
- Date: Wed, 1 Apr 2020 12:42:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-17 17:52:06.462030
- Title: More Grounded Image Captioning by Distilling Image-Text Matching Model
- Title(参考訳): 画像テキストマッチングモデルによる地上画像のキャプション向上
- Authors: Yuanen Zhou, Meng Wang, Daqing Liu, Zhenzhen Hu, Hanwang Zhang
- Abstract要約: 本研究では,より基礎的な画像キャプションのための効果的な知識蒸留法として,POS強化画像テキストマッチングモデル(SCAN)を提案する。
1) 文と画像が与えられた場合、POS-SCANはSCANよりも正確にオブジェクトをグラウンドできる; 2) POS-SCANはキャプタの視覚的注意モジュールの単語領域アラインメント正規化として機能する。
- 参考スコア(独自算出の注目度): 56.79895670335411
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual attention not only improves the performance of image captioners, but
also serves as a visual interpretation to qualitatively measure the caption
rationality and model transparency. Specifically, we expect that a captioner
can fix its attentive gaze on the correct objects while generating the
corresponding words. This ability is also known as grounded image captioning.
However, the grounding accuracy of existing captioners is far from
satisfactory. To improve the grounding accuracy while retaining the captioning
quality, it is expensive to collect the word-region alignment as strong
supervision. To this end, we propose a Part-of-Speech (POS) enhanced image-text
matching model (SCAN \cite{lee2018stacked}): POS-SCAN, as the effective
knowledge distillation for more grounded image captioning. The benefits are
two-fold: 1) given a sentence and an image, POS-SCAN can ground the objects
more accurately than SCAN; 2) POS-SCAN serves as a word-region alignment
regularization for the captioner's visual attention module. By showing
benchmark experimental results, we demonstrate that conventional image
captioners equipped with POS-SCAN can significantly improve the grounding
accuracy without strong supervision. Last but not the least, we explore the
indispensable Self-Critical Sequence Training (SCST) \cite{Rennie_2017_CVPR} in
the context of grounded image captioning and show that the image-text matching
score can serve as a reward for more grounded captioning
\footnote{https://github.com/YuanEZhou/Grounded-Image-Captioning}.
- Abstract(参考訳): 視覚的注意は、画像キャプションの性能を向上させるだけでなく、キャプションの合理性とモデルの透明性を定性的に測定する視覚的解釈としても機能する。
具体的には、キャプタが対応する単語を生成しながら、正しい対象に対して注意深い視線を固定できることを期待する。
この能力は接地画像キャプションとしても知られる。
しかし、既存の字幕の接地精度は満足のいくものではない。
キャプション品質を維持しつつ接地精度を向上させるため、単語領域のアライメントを強い監督力として収集する。
そこで本研究では,より接地的な画像キャプションのための効果的な知識蒸留法として,画像テキストマッチングモデル(SCAN \cite{lee2018stacked}): POS-SCANを提案する。
利点は2つあります。
1) 文及び画像が与えられた場合,POS-SCANは,SCANよりも正確にオブジェクトをグラウンドすることができる。
2)POS-SCANはキャプタの視覚的注意モジュールの単語領域アライメント規則化として機能する。
ベンチマーク実験の結果から,pos-scanを用いた従来の画像キャプションは,強い監督を伴わずにグラウンドング精度を大幅に向上できることを示す。
最後に、不必要な自己批判的シーケンストレーニング (scst) \cite{rennie_2017_cvpr} をグラウンドド画像キャプションの文脈で検討し、画像テキストマッチングスコアがよりグラウンドドキャプションの報酬となることを示した。
関連論文リスト
- Mining Fine-Grained Image-Text Alignment for Zero-Shot Captioning via
Text-Only Training [14.340740609933437]
そこで本研究では,モダリティギャップを低減するために,テキストのみのトレーニングを施したゼロショット画像キャプションフレームワークを提案する。
特に,地域情報を活用するためのサブリージョン機能アグリゲーションを導入する。
フレームワークを拡張してゼロショットのVQAパイプラインを構築し、その汎用性を実証します。
論文 参考訳(メタデータ) (2024-01-04T16:43:46Z) - Top-Down Framework for Weakly-supervised Grounded Image Captioning [19.00510117145054]
弱教師付き接地画像キャプションは、バウンディングボックスの監督を使わずに、入力画像中のキャプションとグラウンド(局所化)予測対象語を生成することを目的としている。
本稿では,RGB画像を直接入力として,トップダウン画像レベルでのキャプションとグラウンド実行を行う一段弱教師付き接地キャプタを提案する。
論文 参考訳(メタデータ) (2023-06-13T01:42:18Z) - Paraphrasing Is All You Need for Novel Object Captioning [126.66301869607656]
新たな物体キャプション (NOC) は, 訓練中に真実のキャプションを観察することなく, 対象を含む画像を記述することを目的としている。
本稿では,NOC の2段階学習フレームワークである Paraphrasing-to-Captioning (P2C) について述べる。
論文 参考訳(メタデータ) (2022-09-25T22:56:04Z) - CapOnImage: Context-driven Dense-Captioning on Image [13.604173177437536]
画像上のキャプション(CapOnImage)と呼ばれる新しいタスクを導入し、コンテキスト情報に基づいて画像の異なる場所で高密度キャプションを生成する。
テキストと画像位置の対応を段階的に学習するマルチレベル事前学習タスクを備えたマルチモーダル事前学習モデルを提案する。
他の画像キャプションモデルと比較すると、キャプション精度と多様性の両面で最良の結果が得られる。
論文 参考訳(メタデータ) (2022-04-27T14:40:31Z) - Injecting Semantic Concepts into End-to-End Image Captioning [61.41154537334627]
本稿では、地域特徴を抽出することなくグリッド表現を使用する、純粋視覚変換器を用いた画像キャプションモデルViTCAPを提案する。
性能向上のために,意味論的概念を予測し,それをエンドツーエンドのキャプションに組み込む新しいコンセプトトークンネットワーク(CTN)を導入する。
特に、CTNは視覚変換器に基づいて構築され、分類タスクを通じて概念トークンを予測するように設計されている。
論文 参考訳(メタデータ) (2021-12-09T22:05:05Z) - Intrinsic Image Captioning Evaluation [53.51379676690971]
I2CE(Intrinsic Image Captioning Evaluation)と呼ばれる画像キャプションのための学習ベースメトリクスを提案する。
実験の結果,提案手法は頑健な性能を維持し,意味的類似表現やアライメントの少ない意味論に遭遇した場合,候補キャプションに対してより柔軟なスコアを与えることができた。
論文 参考訳(メタデータ) (2020-12-14T08:36:05Z) - Contrastive Learning for Weakly Supervised Phrase Grounding [99.73968052506206]
単語領域の注目度を最適化することにより,句の接頭辞が学習可能であることを示す。
キーとなる考え方は、言語モデルに基づく単語置換を通して学習するための効果的な負のキャプションを構築することである。
COCO-Captionsでトレーニングされた弱い教師付きフレーズグラウンドモデルは、Flickr30Kベンチマークで76.7%の精度を達成するために、健全な5.7%の上昇を示している。
論文 参考訳(メタデータ) (2020-06-17T15:00:53Z) - Pragmatic Issue-Sensitive Image Captioning [11.998287522410404]
課題感性画像キャプション(ISIC)を提案する。
ISICは、ターゲット画像とイシューを付与したキャプションシステムであり、関連する情報を特定する方法で分割された画像の集合である。
我々は,ISICが視覚質問応答の関連タスクを補完し,強化する方法について述べる。
論文 参考訳(メタデータ) (2020-04-29T20:00:53Z) - Egoshots, an ego-vision life-logging dataset and semantic fidelity
metric to evaluate diversity in image captioning models [63.11766263832545]
我々は,字幕のない実生活画像978枚からなる新しい画像キャプションデータセット,Egoshotsを提案する。
生成されたキャプションの品質を評価するために,新しい画像キャプション指標,オブジェクトベースセマンティックフィデリティ(SF)を提案する。
論文 参考訳(メタデータ) (2020-03-26T04:43:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。