Fugu-MT 論文翻訳(概要): Show, Edit and Tell: A Framework for Editing Image Captions

論文の概要: Show, Edit and Tell: A Framework for Editing Image Captions

arxiv url: http://arxiv.org/abs/2003.03107v1
Date: Fri, 6 Mar 2020 09:52:17 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-26 01:29:54.508941
Title: Show, Edit and Tell: A Framework for Editing Image Captions
Title（参考訳）: show, edit and tell: 画像キャプションを編集するためのフレームワーク
Authors: Fawaz Sammani, Luke Melas-Kyriazi
Abstract要約: 本稿では,既存のキャプションの反復的適応的洗練に基づく画像キャプションの新たなアプローチを提案する。実験により,MS COCOデータセットの最先端性能が得られた。
参考スコア（独自算出の注目度）: 10.66048003460524
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Most image captioning frameworks generate captions directly from images, learning a mapping from visual features to natural language. However, editing existing captions can be easier than generating new ones from scratch. Intuitively, when editing captions, a model is not required to learn information that is already present in the caption (i.e. sentence structure), enabling it to focus on fixing details (e.g. replacing repetitive words). This paper proposes a novel approach to image captioning based on iterative adaptive refinement of an existing caption. Specifically, our caption-editing model consisting of two sub-modules: (1) EditNet, a language module with an adaptive copy mechanism (Copy-LSTM) and a Selective Copy Memory Attention mechanism (SCMA), and (2) DCNet, an LSTM-based denoising auto-encoder. These components enable our model to directly copy from and modify existing captions. Experiments demonstrate that our new approach achieves state-of-art performance on the MS COCO dataset both with and without sequence-level training.
Abstract（参考訳）: ほとんどの画像キャプションフレームワークは画像から直接キャプションを生成し、視覚的特徴から自然言語へのマッピングを学ぶ。しかし、既存のキャプションの編集はスクラッチから新しいキャプションを生成するよりも容易である。直感的には、キャプションを編集する際には、キャプションにすでに存在する情報(文構造など)を学習する必要がなく、詳細の修正(繰り返し単語の置き換えなど)に集中することができる。本稿では,既存のキャプションの反復的適応改良に基づく画像キャプション手法を提案する。具体的には,(1)適応型コピー機構(copy-LSTM)と選択型コピーメモリアテンション機構(SCMA)を備えた言語モジュールであるEditNetと,(2)LSTMに基づくデノナイズ自動エンコーダであるDCNetの2つのサブモジュールからなるキャプション編集モデルについて述べる。これらのコンポーネントにより、既存のキャプションを直接コピーして修正することができます。実験により,MS COCOデータセット上で,シーケンスレベルのトレーニングを必要とせず,最先端のパフォーマンスを実現することができた。

関連論文リスト

Classifier-Guided Captioning Across Modalities [69.75111271002137]
本稿では,音声キャプションにおける可聴性の獲得など,代替設定のセマンティクスにキャプションネットワークを適用する手法を提案する。本フレームワークは, (i) 言語モデル(LM)を組み込んだ冷凍キャプションシステムと, (ii) キャプションシステムを案内するテキスト分類器の2つの主要コンポーネントから構成される。特に、既存のゼロショット音声キャプションシステムと組み合わせることで、その品質を改善し、ゼロショット音声キャプションにおける最先端の性能を設定する。
論文参考訳（メタデータ） (2025-01-03T18:09:26Z)
Learning text-to-video retrieval from image captioning [59.81537951811595]
本稿では,未収録ビデオを用いたテキスト・ビデオ検索訓練のプロトコルについて述べる。 i) ビデオのラベルにアクセスできず、(ii) テキスト形式でラベル付き画像にアクセスすると仮定する。画像キャプションによるビデオフレームの自動ラベル付けにより,テキスト対ビデオ検索のトレーニングが可能になることを示す。
論文参考訳（メタデータ） (2024-04-26T15:56:08Z)
iEdit: Localised Text-guided Image Editing with Weak Supervision [53.082196061014734]
テキスト誘導画像編集のための新しい学習法を提案する。ソースイメージに条件付けされた画像とテキスト編集プロンプトを生成する。画像の忠実度、CLIPアライメントスコア、および生成された画像と実際の画像の両方を定性的に編集する点において、画像に対して好ましい結果を示す。
論文参考訳（メタデータ） (2023-05-10T07:39:14Z)
Paraphrasing Is All You Need for Novel Object Captioning [126.66301869607656]
新たな物体キャプション (NOC) は, 訓練中に真実のキャプションを観察することなく, 対象を含む画像を記述することを目的としている。本稿では,NOC の2段階学習フレームワークである Paraphrasing-to-Captioning (P2C) について述べる。
論文参考訳（メタデータ） (2022-09-25T22:56:04Z)
Learning Distinct and Representative Styles for Image Captioning [24.13549951795951]
画像キャプションのための離散モード学習(DML)パラダイムを提案する。私たちのイノベーティブなアイデアは、トレーニングキャプションコーパスのリッチモードを探求して、一連の「モード埋め込み」を学ぶことです。実験では,提案したDMLをTransformerとAoANetの2つの広く使われている画像キャプションモデルに適用した。
論文参考訳（メタデータ） (2022-09-17T03:25:46Z)
Explicit Image Caption Editing [22.168036947927774]
新しいタスクを紹介します: Explicit Caption Editing (ECE) ECEモデルは、編集操作のシーケンスを明示的に生成し、この編集操作シーケンスは、参照キャプションを洗練されたものに翻訳することができる。 ECEは人間が字幕編集を行う方法に似ており、原文の構造を保とうとしている。
論文参考訳（メタデータ） (2022-07-20T02:54:43Z)
Syntax Customized Video Captioning by Imitating Exemplar Sentences [90.98221715705435]
SCVC(Syntax Customized Video Captioning)の新たなタスクについて紹介する。 SCVCは、ビデオの内容を意味的に記述するだけでなく、与えられた先行文を構文的に模倣する1つのキャプションを生成することを目的としている。本稿では,構文解析と意味論的コヒーレントなビデオキャプションを生成するためのモデル機能を示す。
論文参考訳（メタデータ） (2021-12-02T09:08:09Z)
Enhanced Modality Transition for Image Captioning [51.72997126838352]
MTM(Modality Transition Module)を構築し、言語モデルに転送する前に視覚的機能をセマンティック表現に転送します。トレーニング段階では、モダリティ遷移ネットワークは提案されたモダリティ損失によって最適化される。提案手法の有効性を示すMS-COCOデータセットを用いて実験を行った。
論文参考訳（メタデータ） (2021-02-23T07:20:12Z)
Diverse and Styled Image Captioning Using SVD-Based Mixture of Recurrent Experts [5.859294565508523]
特徴を抽出する画像エンコーダと、抽出された特徴の集合を単語の集合に埋め込む再帰ネットワークと、得られた単語をスタイリングされた文として結合する文生成器とを含む新しいキャプションモデルを開発する。提案するキャプションモデルでは,ラベル外付けを必要とせずに,多種多様な画像キャプションを生成可能であることを示す。
論文参考訳（メタデータ） (2020-07-07T11:00:27Z)
Pragmatic Issue-Sensitive Image Captioning [11.998287522410404]
課題感性画像キャプション(ISIC)を提案する。 ISICは、ターゲット画像とイシューを付与したキャプションシステムであり、関連する情報を特定する方法で分割された画像の集合である。我々は,ISICが視覚質問応答の関連タスクを補完し,強化する方法について述べる。
論文参考訳（メタデータ） (2020-04-29T20:00:53Z)
XGPT: Cross-modal Generative Pre-Training for Image Captioning [80.26456233277435]
XGPTは画像キャプチャのためのクロスモーダル生成前訓練法である。テキスト・ツー・イメージ・キャプション・ジェネレータを3つの新しい生成タスクで事前訓練するように設計されている。 XGPTはタスク固有のアーキテクチャ変更なしに微調整できる。
論文参考訳（メタデータ） (2020-03-03T12:13:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。