論文の概要: Show, Edit and Tell: A Framework for Editing Image Captions
- arxiv url: http://arxiv.org/abs/2003.03107v1
- Date: Fri, 6 Mar 2020 09:52:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-26 01:29:54.508941
- Title: Show, Edit and Tell: A Framework for Editing Image Captions
- Title(参考訳): show, edit and tell: 画像キャプションを編集するためのフレームワーク
- Authors: Fawaz Sammani, Luke Melas-Kyriazi
- Abstract要約: 本稿では,既存のキャプションの反復的適応的洗練に基づく画像キャプションの新たなアプローチを提案する。
実験により,MS COCOデータセットの最先端性能が得られた。
- 参考スコア(独自算出の注目度): 10.66048003460524
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most image captioning frameworks generate captions directly from images,
learning a mapping from visual features to natural language. However, editing
existing captions can be easier than generating new ones from scratch.
Intuitively, when editing captions, a model is not required to learn
information that is already present in the caption (i.e. sentence structure),
enabling it to focus on fixing details (e.g. replacing repetitive words). This
paper proposes a novel approach to image captioning based on iterative adaptive
refinement of an existing caption. Specifically, our caption-editing model
consisting of two sub-modules: (1) EditNet, a language module with an adaptive
copy mechanism (Copy-LSTM) and a Selective Copy Memory Attention mechanism
(SCMA), and (2) DCNet, an LSTM-based denoising auto-encoder. These components
enable our model to directly copy from and modify existing captions.
Experiments demonstrate that our new approach achieves state-of-art performance
on the MS COCO dataset both with and without sequence-level training.
- Abstract(参考訳): ほとんどの画像キャプションフレームワークは画像から直接キャプションを生成し、視覚的特徴から自然言語へのマッピングを学ぶ。
しかし、既存のキャプションの編集はスクラッチから新しいキャプションを生成するよりも容易である。
直感的には、キャプションを編集する際には、キャプションにすでに存在する情報(文構造など)を学習する必要がなく、詳細の修正(繰り返し単語の置き換えなど)に集中することができる。
本稿では,既存のキャプションの反復的適応改良に基づく画像キャプション手法を提案する。
具体的には,(1)適応型コピー機構(copy-LSTM)と選択型コピーメモリアテンション機構(SCMA)を備えた言語モジュールであるEditNetと,(2)LSTMに基づくデノナイズ自動エンコーダであるDCNetの2つのサブモジュールからなるキャプション編集モデルについて述べる。
これらのコンポーネントにより、既存のキャプションを直接コピーして修正することができます。
実験により,MS COCOデータセット上で,シーケンスレベルのトレーニングを必要とせず,最先端のパフォーマンスを実現することができた。
関連論文リスト
- Learning text-to-video retrieval from image captioning [59.81537951811595]
本稿では,未収録ビデオを用いたテキスト・ビデオ検索訓練のプロトコルについて述べる。
i) ビデオのラベルにアクセスできず、(ii) テキスト形式でラベル付き画像にアクセスすると仮定する。
画像キャプションによるビデオフレームの自動ラベル付けにより,テキスト対ビデオ検索のトレーニングが可能になることを示す。
論文 参考訳(メタデータ) (2024-04-26T15:56:08Z) - iEdit: Localised Text-guided Image Editing with Weak Supervision [53.082196061014734]
テキスト誘導画像編集のための新しい学習法を提案する。
ソースイメージに条件付けされた画像とテキスト編集プロンプトを生成する。
画像の忠実度、CLIPアライメントスコア、および生成された画像と実際の画像の両方を定性的に編集する点において、画像に対して好ましい結果を示す。
論文 参考訳(メタデータ) (2023-05-10T07:39:14Z) - Paraphrasing Is All You Need for Novel Object Captioning [126.66301869607656]
新たな物体キャプション (NOC) は, 訓練中に真実のキャプションを観察することなく, 対象を含む画像を記述することを目的としている。
本稿では,NOC の2段階学習フレームワークである Paraphrasing-to-Captioning (P2C) について述べる。
論文 参考訳(メタデータ) (2022-09-25T22:56:04Z) - Learning Distinct and Representative Styles for Image Captioning [24.13549951795951]
画像キャプションのための離散モード学習(DML)パラダイムを提案する。
私たちのイノベーティブなアイデアは、トレーニングキャプションコーパスのリッチモードを探求して、一連の「モード埋め込み」を学ぶことです。
実験では,提案したDMLをTransformerとAoANetの2つの広く使われている画像キャプションモデルに適用した。
論文 参考訳(メタデータ) (2022-09-17T03:25:46Z) - Explicit Image Caption Editing [22.168036947927774]
新しいタスクを紹介します: Explicit Caption Editing (ECE)
ECEモデルは、編集操作のシーケンスを明示的に生成し、この編集操作シーケンスは、参照キャプションを洗練されたものに翻訳することができる。
ECEは人間が字幕編集を行う方法に似ており、原文の構造を保とうとしている。
論文 参考訳(メタデータ) (2022-07-20T02:54:43Z) - Syntax Customized Video Captioning by Imitating Exemplar Sentences [90.98221715705435]
SCVC(Syntax Customized Video Captioning)の新たなタスクについて紹介する。
SCVCは、ビデオの内容を意味的に記述するだけでなく、与えられた先行文を構文的に模倣する1つのキャプションを生成することを目的としている。
本稿では,構文解析と意味論的コヒーレントなビデオキャプションを生成するためのモデル機能を示す。
論文 参考訳(メタデータ) (2021-12-02T09:08:09Z) - Enhanced Modality Transition for Image Captioning [51.72997126838352]
MTM(Modality Transition Module)を構築し、言語モデルに転送する前に視覚的機能をセマンティック表現に転送します。
トレーニング段階では、モダリティ遷移ネットワークは提案されたモダリティ損失によって最適化される。
提案手法の有効性を示すMS-COCOデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2021-02-23T07:20:12Z) - Diverse and Styled Image Captioning Using SVD-Based Mixture of Recurrent
Experts [5.859294565508523]
特徴を抽出する画像エンコーダと、抽出された特徴の集合を単語の集合に埋め込む再帰ネットワークと、得られた単語をスタイリングされた文として結合する文生成器とを含む新しいキャプションモデルを開発する。
提案するキャプションモデルでは,ラベル外付けを必要とせずに,多種多様な画像キャプションを生成可能であることを示す。
論文 参考訳(メタデータ) (2020-07-07T11:00:27Z) - Pragmatic Issue-Sensitive Image Captioning [11.998287522410404]
課題感性画像キャプション(ISIC)を提案する。
ISICは、ターゲット画像とイシューを付与したキャプションシステムであり、関連する情報を特定する方法で分割された画像の集合である。
我々は,ISICが視覚質問応答の関連タスクを補完し,強化する方法について述べる。
論文 参考訳(メタデータ) (2020-04-29T20:00:53Z) - XGPT: Cross-modal Generative Pre-Training for Image Captioning [80.26456233277435]
XGPTは画像キャプチャのためのクロスモーダル生成前訓練法である。
テキスト・ツー・イメージ・キャプション・ジェネレータを3つの新しい生成タスクで事前訓練するように設計されている。
XGPTはタスク固有のアーキテクチャ変更なしに微調整できる。
論文 参考訳(メタデータ) (2020-03-03T12:13:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。