論文の概要: Show, Recall, and Tell: Image Captioning with Recall Mechanism
- arxiv url: http://arxiv.org/abs/2001.05876v3
- Date: Fri, 12 Mar 2021 05:00:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-11 05:40:16.738167
- Title: Show, Recall, and Tell: Image Captioning with Recall Mechanism
- Title(参考訳): ショー、リコール、およびTell:リコール機構による画像キャプション
- Authors: Li Wang, Zechen Bai, Yonghua Zhang, Hongtao Lu
- Abstract要約: リコール単位、セマンティックガイド(SG)、リコールワードスロット(RWS)の3つの部分がある。
テキスト要約にメカニズムを向けることで着想を得て,SGとRWSの間に生成された単語確率のバランスをとるためにソフトスイッチを採用する。
提案手法は, BLEU-4/CIDEr/SPICEスコア36.6/116.9/21.3, CIDEr最適化38.7/129.1/22.4を実現している。
- 参考スコア(独自算出の注目度): 21.928309724963604
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating natural and accurate descriptions in image cap-tioning has always
been a challenge. In this paper, we pro-pose a novel recall mechanism to
imitate the way human con-duct captioning. There are three parts in our recall
mecha-nism : recall unit, semantic guide (SG) and recalled-wordslot (RWS).
Recall unit is a text-retrieval module designedto retrieve recalled words for
images. SG and RWS are de-signed for the best use of recalled words. SG branch
cangenerate a recalled context, which can guide the process ofgenerating
caption. RWS branch is responsible for copyingrecalled words to the caption.
Inspired by pointing mecha-nism in text summarization, we adopt a soft switch
to balancethe generated-word probabilities between SG and RWS. Inthe CIDEr
optimization step, we also introduce an individualrecalled-word reward (WR) to
boost training. Our proposedmethods (SG+RWS+WR) achieve BLEU-4 / CIDEr /
SPICEscores of 36.6 / 116.9 / 21.3 with cross-entropy loss and 38.7 /129.1 /
22.4 with CIDEr optimization on MSCOCO Karpathytest split, which surpass the
results of other state-of-the-artmethods.
- Abstract(参考訳): 画像キャプションにおいて、自然かつ正確な記述を生成することは、常に困難である。
本稿では,人間のコンダクトキャプションを模倣する新しいリコール機構を提案する。
リコール単位(recall unit)、セマンティックガイド(SG)、リコールワードスロット(recalled-wordslot)の3つの部分がある。
recall unitは、画像のリコールワードを取得するために設計されたテキストリトライモジュールである。
SGとRWSは、リコールされた単語のベストプラクティスのためにデサインされる。
SGブランチはリコールされたコンテキストを生成でき、キャプションの生成プロセスを導くことができる。
RWSブランチは、リコールされた単語をキャプションにコピーする責任がある。
テキスト要約におけるmecha-nismの指摘に触発されて,sgとrwsの単語生成確率のバランスをとるソフトスイッチを採用した。
CIDEr最適化のステップでは、トレーニングを促進するために個別の単語報酬(WR)も導入する。
提案手法(sg+rws+wr)はクロスエントロピー損失36.6 / 116.9 / 21.3のbleu-4 / cider / spicescoresをmscoco karpathytestスプリットで38.7 / 129.1 / 22.4で実現する。
関連論文リスト
- No Detail Left Behind: Revisiting Self-Retrieval for Fine-Grained Image Captioning [13.311411816150551]
画像キャプションシステムは、ノイズ(alt-text)またはジェネリック(ヒューマンアノテーション)のいずれかのデータに基づいて訓練されるため、きめ細かいキャプションを生成することができない
それまでの研究では、自己検索(SR)報酬で微調整されたキャプタによって、この制限に対処しようと試みてきた。
SRファインチューニングは, キャプションの忠実度を低下させ, 幻覚までも減少させる傾向にある。
本稿では,(1)人間のアノテーションに固定されたままの画像キャプションデータセットに細粒度を注入する新しいフレームワークであるビジュアルキャプションブースティング,(2)より最適に活用する慎重に設計されたトレーニングカリキュラムであるBagCurriについて述べる。
論文 参考訳(メタデータ) (2024-09-04T18:32:39Z) - Knowledge-Enhanced Dual-stream Zero-shot Composed Image Retrieval [53.89454443114146]
本研究では,ゼロショット合成画像検索タスク(ZS-CIR)について検討した。
従来の作品では、参照画像の特徴をテキスト埋め込み空間に投影することで、擬似ワードトークンを生成する。
知識強化型デュアルストリームゼロショット合成画像検索フレームワーク(KEDs)を提案する。
KEDはデータベースを組み込むことで、参照画像の属性を暗黙的にモデル化する。
論文 参考訳(メタデータ) (2024-03-24T04:23:56Z) - MeaCap: Memory-Augmented Zero-shot Image Captioning [11.817667500151687]
メモリ拡張ゼロショット画像キャプチャフレームワーク(MeaCap)を提案する。
MeaCapは、幻覚の少ないコンセプト中心のキャプションを生成できる。
論文 参考訳(メタデータ) (2024-03-06T14:00:31Z) - Sentence-level Prompts Benefit Composed Image Retrieval [69.78119883060006]
合成画像検索(CIR)は、参照画像と相対キャプションの両方を含むクエリを用いて、特定の画像を検索するタスクである。
本稿では,事前訓練されたV-Lモデル,例えばBLIP-2を用いて文レベルのプロンプトを生成することを提案する。
提案手法は,Fashion-IQおよびCIRRデータセット上の最先端のCIR手法に対して良好に動作する。
論文 参考訳(メタデータ) (2023-10-09T07:31:44Z) - Pic2Word: Mapping Pictures to Words for Zero-shot Composed Image
Retrieval [84.11127588805138]
Composed Image Retrieval (CIR)は、クエリイメージとテキストを組み合わせて、対象とするターゲットを記述する。
既存の方法は、クエリ画像、テキスト仕様、ターゲット画像からなるラベル付き三重項を用いたCIRモデルの教師あり学習に依存している。
我々は,ラベル付き三重項学習を必要とせずにCIRモデルを構築することを目的として,Zero-Shot Composed Image Retrieval (ZS-CIR)を提案する。
論文 参考訳(メタデータ) (2023-02-06T19:40:04Z) - GSRFormer: Grounded Situation Recognition Transformer with Alternate
Semantic Attention Refinement [73.73599110214828]
グラウンドドコンディション認識(GSR)は、人間のイベント理解のための画像の構造化されたセマンティックサマリーを生成することを目的としている。
オブジェクト検出とイメージキャプションタスクにインスパイアされた既存のメソッドは、2段階のフレームワークを使用するのが一般的である。
本稿では,動詞と役割の双方向関係の活用に焦点をあてた,新しい2段階フレームワークを提案する。
論文 参考訳(メタデータ) (2022-08-18T17:13:59Z) - Exploiting Semantic Role Contextualized Video Features for
Multi-Instance Text-Video Retrieval EPIC-KITCHENS-100 Multi-Instance
Retrieval Challenge 2022 [72.12974259966592]
EPIC-KITCHENS-100 Multi-Instance Retrieval Challenge 2022について述べる。
まず、文を動詞や名詞に対応する意味的役割にパースし、自己意図を利用して意味的役割の文脈化されたビデオ特徴を利用する。
論文 参考訳(メタデータ) (2022-06-29T03:24:43Z) - Instant One-Shot Word-Learning for Context-Specific Neural
Sequence-to-Sequence Speech Recognition [62.997667081978825]
本稿では、単語/フレーズメモリと、このメモリにアクセスして単語やフレーズを正しく認識する機構を備えたエンドツーエンドのASRシステムを提案する。
本稿では,この機構により,これまで認識できなかった単語の85%以上を認識できることを示す。
論文 参考訳(メタデータ) (2021-07-05T21:08:34Z) - Confidence-aware Non-repetitive Multimodal Transformers for TextCaps [22.49710277956828]
以上の課題に取り組むために、CNMT(Confidence-aware non-repetitive Multimodal Transformers)を提案します。
我々のCNMTは、読み出し、推論、生成モジュールで構成されており、読み出しモジュールはテキスト読み出し能力を向上させるためにより良いOCRシステムを採用している。
私たちのモデルはtextcapsデータセットで最先端のモデルを上回り、ciderでは81.0から93.0に改善しました。
論文 参考訳(メタデータ) (2020-12-07T13:20:12Z) - Recurrent Relational Memory Network for Unsupervised Image Captioning [26.802700428311745]
アノテーションのない教師なしのイメージキャプションは、コンピュータビジョンの課題である。
本稿では,新しいGANモデルではなく,新しいメモリベースネットワークを提案する。
我々の解は、GANベースの手法よりも学習可能なパラメータが少なく、計算効率も高い。
論文 参考訳(メタデータ) (2020-06-24T10:44:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。