論文の概要: Show, Edit and Tell: A Framework for Editing Image Captions
- arxiv url: http://arxiv.org/abs/2003.03107v1
- Date: Fri, 6 Mar 2020 09:52:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-26 01:29:54.508941
- Title: Show, Edit and Tell: A Framework for Editing Image Captions
- Title(参考訳): show, edit and tell: 画像キャプションを編集するためのフレームワーク
- Authors: Fawaz Sammani, Luke Melas-Kyriazi
- Abstract要約: 本稿では,既存のキャプションの反復的適応的洗練に基づく画像キャプションの新たなアプローチを提案する。
実験により,MS COCOデータセットの最先端性能が得られた。
- 参考スコア(独自算出の注目度): 10.66048003460524
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most image captioning frameworks generate captions directly from images,
learning a mapping from visual features to natural language. However, editing
existing captions can be easier than generating new ones from scratch.
Intuitively, when editing captions, a model is not required to learn
information that is already present in the caption (i.e. sentence structure),
enabling it to focus on fixing details (e.g. replacing repetitive words). This
paper proposes a novel approach to image captioning based on iterative adaptive
refinement of an existing caption. Specifically, our caption-editing model
consisting of two sub-modules: (1) EditNet, a language module with an adaptive
copy mechanism (Copy-LSTM) and a Selective Copy Memory Attention mechanism
(SCMA), and (2) DCNet, an LSTM-based denoising auto-encoder. These components
enable our model to directly copy from and modify existing captions.
Experiments demonstrate that our new approach achieves state-of-art performance
on the MS COCO dataset both with and without sequence-level training.
- Abstract(参考訳): ほとんどの画像キャプションフレームワークは画像から直接キャプションを生成し、視覚的特徴から自然言語へのマッピングを学ぶ。
しかし、既存のキャプションの編集はスクラッチから新しいキャプションを生成するよりも容易である。
直感的には、キャプションを編集する際には、キャプションにすでに存在する情報(文構造など)を学習する必要がなく、詳細の修正(繰り返し単語の置き換えなど)に集中することができる。
本稿では,既存のキャプションの反復的適応改良に基づく画像キャプション手法を提案する。
具体的には,(1)適応型コピー機構(copy-LSTM)と選択型コピーメモリアテンション機構(SCMA)を備えた言語モジュールであるEditNetと,(2)LSTMに基づくデノナイズ自動エンコーダであるDCNetの2つのサブモジュールからなるキャプション編集モデルについて述べる。
これらのコンポーネントにより、既存のキャプションを直接コピーして修正することができます。
実験により,MS COCOデータセット上で,シーケンスレベルのトレーニングを必要とせず,最先端のパフォーマンスを実現することができた。
関連論文リスト
- Classifier-Guided Captioning Across Modalities [69.75111271002137]
本稿では,音声キャプションにおける可聴性の獲得など,代替設定のセマンティクスにキャプションネットワークを適用する手法を提案する。
本フレームワークは, (i) 言語モデル(LM)を組み込んだ冷凍キャプションシステムと, (ii) キャプションシステムを案内するテキスト分類器の2つの主要コンポーネントから構成される。
特に、既存のゼロショット音声キャプションシステムと組み合わせることで、その品質を改善し、ゼロショット音声キャプションにおける最先端の性能を設定する。
論文 参考訳(メタデータ) (2025-01-03T18:09:26Z) - Learning text-to-video retrieval from image captioning [59.81537951811595]
本稿では,未収録ビデオを用いたテキスト・ビデオ検索訓練のプロトコルについて述べる。
i) ビデオのラベルにアクセスできず、(ii) テキスト形式でラベル付き画像にアクセスすると仮定する。
画像キャプションによるビデオフレームの自動ラベル付けにより,テキスト対ビデオ検索のトレーニングが可能になることを示す。
論文 参考訳(メタデータ) (2024-04-26T15:56:08Z) - iEdit: Localised Text-guided Image Editing with Weak Supervision [53.082196061014734]
テキスト誘導画像編集のための新しい学習法を提案する。
ソースイメージに条件付けされた画像とテキスト編集プロンプトを生成する。
画像の忠実度、CLIPアライメントスコア、および生成された画像と実際の画像の両方を定性的に編集する点において、画像に対して好ましい結果を示す。
論文 参考訳(メタデータ) (2023-05-10T07:39:14Z) - Paraphrasing Is All You Need for Novel Object Captioning [126.66301869607656]
新たな物体キャプション (NOC) は, 訓練中に真実のキャプションを観察することなく, 対象を含む画像を記述することを目的としている。
本稿では,NOC の2段階学習フレームワークである Paraphrasing-to-Captioning (P2C) について述べる。
論文 参考訳(メタデータ) (2022-09-25T22:56:04Z) - Learning Distinct and Representative Styles for Image Captioning [24.13549951795951]
画像キャプションのための離散モード学習(DML)パラダイムを提案する。
私たちのイノベーティブなアイデアは、トレーニングキャプションコーパスのリッチモードを探求して、一連の「モード埋め込み」を学ぶことです。
実験では,提案したDMLをTransformerとAoANetの2つの広く使われている画像キャプションモデルに適用した。
論文 参考訳(メタデータ) (2022-09-17T03:25:46Z) - Explicit Image Caption Editing [22.168036947927774]
新しいタスクを紹介します: Explicit Caption Editing (ECE)
ECEモデルは、編集操作のシーケンスを明示的に生成し、この編集操作シーケンスは、参照キャプションを洗練されたものに翻訳することができる。
ECEは人間が字幕編集を行う方法に似ており、原文の構造を保とうとしている。
論文 参考訳(メタデータ) (2022-07-20T02:54:43Z) - Syntax Customized Video Captioning by Imitating Exemplar Sentences [90.98221715705435]
SCVC(Syntax Customized Video Captioning)の新たなタスクについて紹介する。
SCVCは、ビデオの内容を意味的に記述するだけでなく、与えられた先行文を構文的に模倣する1つのキャプションを生成することを目的としている。
本稿では,構文解析と意味論的コヒーレントなビデオキャプションを生成するためのモデル機能を示す。
論文 参考訳(メタデータ) (2021-12-02T09:08:09Z) - Enhanced Modality Transition for Image Captioning [51.72997126838352]
MTM(Modality Transition Module)を構築し、言語モデルに転送する前に視覚的機能をセマンティック表現に転送します。
トレーニング段階では、モダリティ遷移ネットワークは提案されたモダリティ損失によって最適化される。
提案手法の有効性を示すMS-COCOデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2021-02-23T07:20:12Z) - Pragmatic Issue-Sensitive Image Captioning [11.998287522410404]
課題感性画像キャプション(ISIC)を提案する。
ISICは、ターゲット画像とイシューを付与したキャプションシステムであり、関連する情報を特定する方法で分割された画像の集合である。
我々は,ISICが視覚質問応答の関連タスクを補完し,強化する方法について述べる。
論文 参考訳(メタデータ) (2020-04-29T20:00:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。