論文の概要: Cross Modification Attention Based Deliberation Model for Image
Captioning
- arxiv url: http://arxiv.org/abs/2109.08411v1
- Date: Fri, 17 Sep 2021 08:38:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-20 14:47:12.223885
- Title: Cross Modification Attention Based Deliberation Model for Image
Captioning
- Title(参考訳): 画像キャプションのためのクロス修正注意に基づく検討モデル
- Authors: Zheng Lian, Yanan Zhang, Haichang Li, Rui Wang, Xiaohui Hu
- Abstract要約: 画像キャプションのためのユニバーサル2パスデコードフレームワークを提案する。
シングルパス復号モデルが最初に入力画像に応じてドラフトキャプションを生成する。
次に、検討モデルが研磨処理を行い、ドラフトキャプションを洗練して画像記述を改善する。
- 参考スコア(独自算出の注目度): 11.897899189552318
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The conventional encoder-decoder framework for image captioning generally
adopts a single-pass decoding process, which predicts the target descriptive
sentence word by word in temporal order. Despite the great success of this
framework, it still suffers from two serious disadvantages. Firstly, it is
unable to correct the mistakes in the predicted words, which may mislead the
subsequent prediction and result in error accumulation problem. Secondly, such
a framework can only leverage the already generated words but not the possible
future words, and thus lacks the ability of global planning on linguistic
information. To overcome these limitations, we explore a universal two-pass
decoding framework, where a single-pass decoding based model serving as the
Drafting Model first generates a draft caption according to an input image, and
a Deliberation Model then performs the polishing process to refine the draft
caption to a better image description. Furthermore, inspired from the
complementarity between different modalities, we propose a novel Cross
Modification Attention (CMA) module to enhance the semantic expression of the
image features and filter out error information from the draft captions. We
integrate CMA with the decoder of our Deliberation Model and name it as Cross
Modification Attention based Deliberation Model (CMA-DM). We train our proposed
framework by jointly optimizing all trainable components from scratch with a
trade-off coefficient. Experiments on MS COCO dataset demonstrate that our
approach obtains significant improvements over single-pass decoding baselines
and achieves competitive performances compared with other state-of-the-art
two-pass decoding based methods.
- Abstract(参考訳): 画像キャプションのための従来のエンコーダ・デコーダフレームワークは、通常、対象の記述文単語を時間順に予測する単一パス復号処理を採用している。
この枠組みの大きな成功にもかかわらず、2つの深刻な欠点に悩まされている。
まず、予測した単語の誤りを訂正できないため、その後の予測を誤解し、エラー蓄積問題を引き起こす可能性がある。
第2に、このようなフレームワークは、すでに生成された単語のみを活用できるが、将来の単語は利用できないため、言語情報に関するグローバルな計画能力が欠如している。
これらの制限を克服するために,ドラフトモデルとして機能するシングルパス復号化モデルが最初に入力画像に従ってドラフトキャプションを生成し,検討モデルが磨き処理を行い,ドラフトキャプションを洗練して画像記述を改善する,ユニバーサル2パス復号化フレームワークを提案する。
さらに,異なるモダリティ間の相補性に着想を得て,画像特徴のセマンティック表現を強化し,キャプション中の誤り情報をフィルタリングする新しいクロス・モーダル・アテンション(cma)モジュールを提案する。
我々は,CMA と,そのデコーダを統合し,CMA-DM (Cross Modification Attention based Deliberation Model) と命名する。
我々は,すべての学習可能なコンポーネントをスクラッチからトレードオフ係数で最適化することで,提案フレームワークを訓練する。
MS COCOデータセットを用いた実験により,本手法は単一パス復号化ベースラインよりも大幅に向上し,他の最先端の2パス復号化手法と比較して競合性能が向上することを示した。
関連論文リスト
- Translatotron-V(ison): An End-to-End Model for In-Image Machine Translation [81.45400849638347]
In-image Machine Translation (IIMT) は、ソース言語のテキストを含む画像をターゲット言語の翻訳を含む画像に変換することを目的としている。
本稿では,4つのモジュールからなるエンドツーエンドIIMTモデルを提案する。
本モデルでは,70.9%のパラメータしか持たないカスケードモデルと比較して競争性能が向上し,画素レベルのエンド・ツー・エンドIIMTモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-07-03T08:15:39Z) - Fine-tuning CLIP Text Encoders with Two-step Paraphrasing [83.3736789315201]
パラフレーズに対するCLIPモデルの表現を強化するための簡単な微調整手法を提案する。
ParaCLIPと呼ばれる我々のモデルは、様々なタスクでベースラインCLIPモデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-02-23T06:11:50Z) - Corner-to-Center Long-range Context Model for Efficient Learned Image
Compression [70.0411436929495]
学習された画像圧縮のフレームワークでは、コンテキストモデルは潜在表現間の依存関係をキャプチャする上で重要な役割を果たす。
本研究では,textbfCorner-to-Center 変換器を用いたコンテキストモデル (C$3$M) を提案する。
また,解析および合成変換における受容場を拡大するために,エンコーダ/デコーダのLong-range Crossing Attention Module (LCAM) を用いる。
論文 参考訳(メタデータ) (2023-11-29T21:40:28Z) - RealignDiff: Boosting Text-to-Image Diffusion Model with Coarse-to-fine Semantic Re-alignment [112.45442468794658]
本稿では,RealignDiffという2段階の粗大なセマンティックアライメント手法を提案する。
粗いセマンティックリアライメントフェーズにおいて、生成された画像キャプションと与えられたテキストプロンプトとのセマンティックな相違を評価するために、新しいキャプション報酬を提案する。
微妙なセマンティックリアライメントステージは、局所的な密集キャプション生成モジュールと再重み付けアテンション変調モジュールを用いて、局所的なセマンティックビューから生成された画像を洗練する。
論文 参考訳(メタデータ) (2023-05-31T06:59:21Z) - Eliminating Contextual Prior Bias for Semantic Image Editing via
Dual-Cycle Diffusion [35.95513392917737]
Dual-Cycle Diffusionと呼ばれる新しいアプローチは、画像編集をガイドするアンバイアスマスクを生成する。
提案手法の有効性を実証し,D-CLIPスコアを0.272から0.283に改善した。
論文 参考訳(メタデータ) (2023-02-05T14:30:22Z) - Efficient Modeling of Future Context for Image Captioning [38.52032153180971]
非自己回帰画像キャプション(NAIC)は、マスク操作の修正による2面関係を利用することができる。
提案手法は,自動測定と人的評価の両方において,最先端のベースラインを超えている。
論文 参考訳(メタデータ) (2022-07-22T06:21:43Z) - Semi-Autoregressive Image Captioning [153.9658053662605]
画像キャプションに対する現在の最先端のアプローチは、通常自己回帰的手法を採用する。
連続的反復改善による非自己回帰画像キャプションは、かなりの加速を伴う自己回帰画像キャプションに匹敵する性能が得られる。
本稿では,性能と速度のトレードオフを改善するために,SAIC(Semi-Autoregressive Image Captioning)と呼ばれる新しい2段階のフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-11T15:11:54Z) - Enhanced Modality Transition for Image Captioning [51.72997126838352]
MTM(Modality Transition Module)を構築し、言語モデルに転送する前に視覚的機能をセマンティック表現に転送します。
トレーニング段階では、モダリティ遷移ネットワークは提案されたモダリティ損失によって最適化される。
提案手法の有効性を示すMS-COCOデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2021-02-23T07:20:12Z) - Fusion Models for Improved Visual Captioning [18.016295296424413]
本稿では,キャプション生成と修正のための汎用マルチモーダルモデル融合フレームワークを提案する。
我々は、事前訓練されたマスケッド言語モデル(MLM)と視覚的キャプションモデル、Viz. Show、Attend、Tellを統合するために、同じ融合戦略を採用している。
Flickr8k, Flickr30k, MSCOCOの3つのベンチマーク画像キャプションデータセットに対するキャプション評価実験では, ベースラインよりも改善が見られた。
論文 参考訳(メタデータ) (2020-10-28T21:55:25Z) - Toward Interpretability of Dual-Encoder Models for Dialogue Response
Suggestions [18.117115200484708]
本稿では、2つのエンコーダから抽出した単語レベルの特徴の上位にアテンション機構を含む注意型二重エンコーダモデルを提案する。
我々は、重要でない単語と望ましいラベルの相互情報を最小化するために、新しい正規化損失を設計する。
実験では、Recall@1の精度と可視性の観点から、提案モデルの有効性を示す。
論文 参考訳(メタデータ) (2020-03-02T21:26:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。