論文の概要: Explicit Image Caption Editing
- arxiv url: http://arxiv.org/abs/2207.09625v1
- Date: Wed, 20 Jul 2022 02:54:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-21 13:23:46.557282
- Title: Explicit Image Caption Editing
- Title(参考訳): 明示的な画像キャプション編集
- Authors: Zhen Wang, Long Chen, Wenbo Ma, Guangxing Han, Yulei Niu, Jian Shao,
and Jun Xiao
- Abstract要約: 新しいタスクを紹介します: Explicit Caption Editing (ECE)
ECEモデルは、編集操作のシーケンスを明示的に生成し、この編集操作シーケンスは、参照キャプションを洗練されたものに翻訳することができる。
ECEは人間が字幕編集を行う方法に似ており、原文の構造を保とうとしている。
- 参考スコア(独自算出の注目度): 22.168036947927774
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Given an image and a reference caption, the image caption editing task aims
to correct the misalignment errors and generate a refined caption. However, all
existing caption editing works are implicit models, ie, they directly produce
the refined captions without explicit connections to the reference captions. In
this paper, we introduce a new task: Explicit Caption Editing (ECE). ECE models
explicitly generate a sequence of edit operations, and this edit operation
sequence can translate the reference caption into a refined one. Compared to
the implicit editing, ECE has multiple advantages: 1) Explainable: it can trace
the whole editing path. 2) Editing Efficient: it only needs to modify a few
words. 3) Human-like: it resembles the way that humans perform caption editing,
and tries to keep original sentence structures. To solve this new task, we
propose the first ECE model: TIger. TIger is a non-autoregressive
transformer-based model, consisting of three modules: Tagger_del, Tagger_add,
and Inserter. Specifically, Tagger_del decides whether each word should be
preserved or not, Tagger_add decides where to add new words, and Inserter
predicts the specific word for adding. To further facilitate ECE research, we
propose two new ECE benchmarks by re-organizing two existing datasets, dubbed
COCO-EE and Flickr30K-EE, respectively. Extensive ablations on both two
benchmarks have demonstrated the effectiveness of TIger.
- Abstract(参考訳): 画像と参照キャプションが与えられた場合、画像キャプション編集タスクは、誤修正を訂正し、洗練されたキャプションを生成する。
しかし、既存のキャプション編集作品はすべて暗黙のモデルであり、参照キャプションと明示的な関係なく、洗練されたキャプションを直接生成する。
本稿では,新しいタスクである Explicit Caption Editing (ECE) を紹介する。
ECEモデルは、編集操作のシーケンスを明示的に生成し、この編集操作シーケンスは、参照キャプションを洗練されたものに翻訳することができる。
暗黙の編集と比較すると、ECEにはいくつかの利点がある。
1) 説明可能な: 編集パス全体をトレースできる。
2) 編集の効率性: 単語を少しだけ変更するだけでよい。
3)人間に似た:人間が字幕編集を行い、原文構造を保とうとする方法に似ている。
この課題を解決するために,最初のECEモデルであるTIgerを提案する。
Tagger_del、Tagger_add、Inserterの3つのモジュールで構成されている。
具体的には、Tagger_delは各単語を保存すべきか否かを決定し、Tagger_addは新しい単語を追加する場所を決定し、Inserterは追加すべき特定の単語を予測する。
さらにECE研究を促進するために,COCO-EEとFlickr30K-EEという2つの既存のデータセットを再編成し,新たなECEベンチマークを提案する。
2つのベンチマークの大幅な改善は、TIgerの有効性を示している。
関連論文リスト
- SGEdit: Bridging LLM with Text2Image Generative Model for Scene Graph-based Image Editing [42.23117201457898]
本稿では,大規模言語モデル(LLM)とText2生成モデルを統合し,グラフベースの画像編集を行う新しいフレームワークを提案する。
本フレームワークは,編集精度とシーン美学の観点から,既存の画像編集手法を著しく上回っている。
論文 参考訳(メタデータ) (2024-10-15T17:40:48Z) - An Item is Worth a Prompt: Versatile Image Editing with Disentangled Control [21.624984690721842]
D-Editは、包括的な画像-プロンプトインタラクションをいくつかのアイテム-プロンプトインタラクションに切り離すためのフレームワークである。
クロスアテンション層が歪んだ事前学習拡散モデルに基づいており、アイテム・プロンプト・アソシエーションを構築するために2段階の最適化を採用している。
画像ベース,テキストベース,マスクベースの編集,アイテム削除を含む4種類の編集作業において,最先端の結果を示す。
論文 参考訳(メタデータ) (2024-03-07T20:06:29Z) - TIP-Editor: An Accurate 3D Editor Following Both Text-Prompts And Image-Prompts [119.84478647745658]
TIPEditorは、テキストと画像プロンプトの両方を受け入れる3Dシーン編集フレームワークであり、編集領域を指定するための3Dバウンディングボックスである。
TIP-Editorはテキストと画像のプロンプトに従って、指定されたバウンディングボックス領域で正確な編集を行うことを示した。
論文 参考訳(メタデータ) (2024-01-26T12:57:05Z) - Customize your NeRF: Adaptive Source Driven 3D Scene Editing via
Local-Global Iterative Training [61.984277261016146]
テキスト記述や参照画像を編集プロンプトとして統合するCustomNeRFモデルを提案する。
最初の課題に取り組むために,前景領域編集とフルイメージ編集を交互に行うローカル・グローバル反復編集(LGIE)トレーニング手法を提案する。
第2の課題として、生成モデル内のクラス事前を利用して、一貫性の問題を緩和するクラス誘導正規化を設計する。
論文 参考訳(メタデータ) (2023-12-04T06:25:06Z) - Optimisation-Based Multi-Modal Semantic Image Editing [58.496064583110694]
本稿では,複数の編集命令型に対応するために,推論時編集の最適化を提案する。
各損失関数の影響を調整することで、ユーザの好みに合わせてフレキシブルな編集ソリューションを構築することができる。
本手法は,テキスト,ポーズ,スクリブルといった編集条件を用いて評価し,複雑な編集を行う能力を強調した。
論文 参考訳(メタデータ) (2023-11-28T15:31:11Z) - Editing 3D Scenes via Text Prompts without Retraining [80.57814031701744]
DN2Nはテキスト駆動編集方式であり、普遍的な編集機能を備えたNeRFモデルの直接取得を可能にする。
本手法では,2次元画像のテキストベース編集モデルを用いて3次元シーン画像の編集を行う。
本手法は,外観編集,天気変化,材質変化,スタイル伝達など,複数種類の編集を行う。
論文 参考訳(メタデータ) (2023-09-10T02:31:50Z) - EditGAN: High-Precision Semantic Image Editing [120.49401527771067]
EditGANは高品質で高精度なセマンティック画像編集のための新しい手法である。
EditGANは前例のない細部と自由度で画像を操作可能であることを示す。
また、複数の編集を組み合わせることも簡単で、EditGANのトレーニングデータ以外の編集も可能になります。
論文 参考訳(メタデータ) (2021-11-04T22:36:33Z) - Each Attribute Matters: Contrastive Attention for Sentence-based Image
Editing [13.321782757637303]
文ベースの画像編集(SIE)は、画像の編集に自然言語をデプロイすることを目的としている。
既存の方法では、クエリ文が複数の編集可能な属性を持つ場合、正確な編集がほとんどできない。
本稿では,Contrastive Attention Generative Adversarial Network (CA-GAN) と呼ばれる新しいモデルを提案する。
論文 参考訳(メタデータ) (2021-10-21T14:06:20Z) - SESAME: Semantic Editing of Scenes by Adding, Manipulating or Erasing
Objects [127.7627687126465]
SESAMEは、オブジェクトの追加、操作、消去によるシーンのセマンティック編集のための新しいジェネレータ-差別化器である。
我々の設定では、ユーザは編集対象領域のセマンティックラベルを提供し、ジェネレータは対応するピクセルを合成する。
我々は,多種多様なデータセット上でモデルを評価し,2つのタスクについて最先端のパフォーマンスを報告する。
論文 参考訳(メタデータ) (2020-04-10T10:19:19Z) - Show, Edit and Tell: A Framework for Editing Image Captions [10.66048003460524]
本稿では,既存のキャプションの反復的適応的洗練に基づく画像キャプションの新たなアプローチを提案する。
実験により,MS COCOデータセットの最先端性能が得られた。
論文 参考訳(メタデータ) (2020-03-06T09:52:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。