論文の概要: Prophet Attention: Predicting Attention with Future Attention for Image
Captioning
- arxiv url: http://arxiv.org/abs/2210.10914v2
- Date: Tue, 11 Apr 2023 06:12:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-12 18:47:10.750022
- Title: Prophet Attention: Predicting Attention with Future Attention for Image
Captioning
- Title(参考訳): 預言的注意: 画像キャプションのための今後の注意による注意の予測
- Authors: Fenglin Liu, Xuancheng Ren, Xian Wu, Wei Fan, Yuexian Zou, Xu Sun
- Abstract要約: 我々は,預言者意識(Prophet Attention)を提案する。
提案した預言意図は,既存の画像キャプションモデルに容易に組み込むことができる。
- 参考スコア(独自算出の注目度): 99.88870695151874
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, attention based models have been used extensively in many
sequence-to-sequence learning systems. Especially for image captioning, the
attention based models are expected to ground correct image regions with proper
generated words. However, for each time step in the decoding process, the
attention based models usually use the hidden state of the current input to
attend to the image regions. Under this setting, these attention models have a
"deviated focus" problem that they calculate the attention weights based on
previous words instead of the one to be generated, impairing the performance of
both grounding and captioning. In this paper, we propose the Prophet Attention,
similar to the form of self-supervision. In the training stage, this module
utilizes the future information to calculate the "ideal" attention weights
towards image regions. These calculated "ideal" weights are further used to
regularize the "deviated" attention. In this manner, image regions are grounded
with the correct words. The proposed Prophet Attention can be easily
incorporated into existing image captioning models to improve their performance
of both grounding and captioning. The experiments on the Flickr30k Entities and
the MSCOCO datasets show that the proposed Prophet Attention consistently
outperforms baselines in both automatic metrics and human evaluations. It is
worth noticing that we set new state-of-the-arts on the two benchmark datasets
and achieve the 1st place on the leaderboard of the online MSCOCO benchmark in
terms of the default ranking score, i.e., CIDEr-c40.
- Abstract(参考訳): 近年,多くのシーケンス・ツー・シーケンス学習システムにおいて注目モデルが広く利用されている。
特に画像キャプションでは、注意に基づくモデルが適切な生成語で正しい画像領域を接地することを期待する。
しかし、デコードプロセスの各時間ステップ毎に、注意に基づくモデルは、通常、画像領域に出席するために現在の入力の隠れた状態を使用する。
この設定下では、これらの注意モデルは、生成する単語ではなく、前の単語に基づいて注意重みを計算し、接地とキャプションの両方のパフォーマンスを損なう「故意の焦点」問題を持つ。
本稿では,自己スーパービジョンの形式に類似した預言的注意を提案する。
トレーニング段階では、このモジュールは将来の情報を利用して画像領域に対する「理想的」注意重みを計算する。
これらの計算された「理想」重みは、「逸脱した」注意を規則化するためにさらに使用される。
このようにして、画像領域を正しい単語で接地する。
提案する預言者の注意は既存の画像キャプションモデルに容易に組み込むことができ、グラウンドとキャプションの両方のパフォーマンスが向上する。
Flickr30k EntitiesとMSCOCOデータセットの実験は、提案された預言意図が自動メトリクスと人的評価の両方において、ベースラインを一貫して上回っていることを示している。
2つのベンチマークデータセットに新しい最先端技術を設定し、デフォルトのランキングスコアであるCIDEr-c40でオンラインMSCOCOベンチマークのリーダーボードで1位を獲得しました。
関連論文リスト
- Image Captioners Are Scalable Vision Learners Too [61.98796478791261]
画像テキストペアのWebからの事前トレーニングとは対照的に、視覚バックボーンの大規模事前トレーニング戦略としては最も一般的なものの一つである。
以上の結果から,画像キャプションは従来考えられていたよりも強力な事前学習戦略であることが示唆された。
論文 参考訳(メタデータ) (2023-06-13T17:18:01Z) - Correlational Image Modeling for Self-Supervised Visual Pre-Training [81.82907503764775]
相関画像モデリング(Relational Image Modeling)は、自己監督型視覚前訓練における、新しくて驚くほど効果的なアプローチである。
3つの重要な設計は、相関画像モデリングを非自明で有意義な自己監督タスクとして実現している。
論文 参考訳(メタデータ) (2023-03-22T15:48:23Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z) - Supervised Attention in Sequence-to-Sequence Models for Speech
Recognition [15.44609280660252]
トレーニングしたモデルによって生成された注意重みは、必ずしも実際のアライメントとよく一致しないことを示す。
注意重みとアライメントの対応を教師付き注意損失を付与することにより学習問題として扱う。
実験では、トレーニング中にアライメントをうまく学習することで、シーケンス・ツー・シーケンス・モデルの性能を決定できることが示唆された。
論文 参考訳(メタデータ) (2022-04-25T15:38:48Z) - Consensus Graph Representation Learning for Better Grounded Image
Captioning [48.208119537050166]
本稿では,接地画像キャプションのためのConsensus Rraph Representation Learning framework(CGRL)を提案する。
Flickr30k Entitiesデータセットにおける対象幻覚(-9% CHAIRi)の顕著な減少とともに,本モデルの有効性を検証した。
論文 参考訳(メタデータ) (2021-12-02T04:17:01Z) - NEAT: Neural Attention Fields for End-to-End Autonomous Driving [59.60483620730437]
本稿では、模倣学習モデルの効率的な推論を可能にする新しい表現であるNEAT(NEural Attention Field)を提案する。
NEATは、Bird's Eye View (BEV) シーン座標の位置をウェイポイントとセマンティクスにマッピングする連続関数である。
有害な環境条件や挑戦的なシナリオを含む新たな評価環境では、NEATはいくつかの強いベースラインを上回り、特権のあるCARLA専門家と同等の運転スコアを達成している。
論文 参考訳(メタデータ) (2021-09-09T17:55:28Z) - Dual Attention on Pyramid Feature Maps for Image Captioning [11.372662279301522]
本稿では、ピラミッド画像の特徴マップに二重注意を適用し、視覚・意味的相関を探索し、生成文の品質を向上させることを提案する。
Flickr8K, Flickr30K, MS COCOの3つのよく知られたデータセットについて総合的な実験を行った。
複合キャプションモデルは単一モデルモードで非常に有望な性能を達成する。
論文 参考訳(メタデータ) (2020-11-02T23:42:34Z) - Boost Image Captioning with Knowledge Reasoning [10.733743535624509]
本稿では,単語ごとの逐次的な記述を生成する際の視覚的注意の正しさを改善するために,単語注意を提案する。
本稿では,知識グラフから抽出した外部知識をエンコーダ・デコーダ・フレームワークに注入し,意味のあるキャプションを容易にする新しい手法を提案する。
論文 参考訳(メタデータ) (2020-11-02T12:19:46Z) - Neural Twins Talk [0.0]
本稿では,最新の画像キャプションモデルよりも優れた新しいツインカスケードアテンションモデルを提案する。
視覚的接頭辞は、入力画像内の特定の領域に接頭した文中の単語の存在を保証する。
実験の結果をCOCOデータセット上の3つの画像キャプションタスクで報告する。
論文 参考訳(メタデータ) (2020-09-26T06:58:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。