論文の概要: Text-Guided Neural Image Inpainting
- arxiv url: http://arxiv.org/abs/2004.03212v4
- Date: Mon, 22 Mar 2021 08:12:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-15 22:54:33.598194
- Title: Text-Guided Neural Image Inpainting
- Title(参考訳): テキストガイド型ニューラルイメージインペインティング
- Authors: Lisai Zhang, Qingcai Chen, Baotian Hu, and Shuoran Jiang
- Abstract要約: 塗装作業では、劣化した画像をコンテキストに整合した内容で埋める必要がある。
本論文の目的は, 提供される記述文に従って, 劣化画像中の意味情報を埋めることである。
テキストガイドデュアルアテンション・インパインティング・ネットワーク(TDANet)という新しいインパインティング・モデルを提案する。
- 参考スコア(独自算出の注目度): 20.551488941041256
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image inpainting task requires filling the corrupted image with contents
coherent with the context. This research field has achieved promising progress
by using neural image inpainting methods. Nevertheless, there is still a
critical challenge in guessing the missed content with only the context pixels.
The goal of this paper is to fill the semantic information in corrupted images
according to the provided descriptive text. Unique from existing text-guided
image generation works, the inpainting models are required to compare the
semantic content of the given text and the remaining part of the image, then
find out the semantic content that should be filled for missing part. To
fulfill such a task, we propose a novel inpainting model named Text-Guided Dual
Attention Inpainting Network (TDANet). Firstly, a dual multimodal attention
mechanism is designed to extract the explicit semantic information about the
corrupted regions, which is done by comparing the descriptive text and
complementary image areas through reciprocal attention. Secondly, an image-text
matching loss is applied to maximize the semantic similarity of the generated
image and the text. Experiments are conducted on two open datasets. Results
show that the proposed TDANet model reaches new state-of-the-art on both
quantitative and qualitative measures. Result analysis suggests that the
generated images are consistent with the guidance text, enabling the generation
of various results by providing different descriptions. Codes are available at
https://github.com/idealwhite/TDANet
- Abstract(参考訳): 画像インペインティングタスクは、腐敗した画像をコンテキストに一貫性のある内容で満たす必要があります。
この研究分野は, ニューラルネットワークインパインティング法を用いて, 有望な進歩を遂げている。
それでも、不足したコンテンツをコンテキストピクセルのみで推測する上で、依然として重要な課題がある。
本論文の目的は, 提供される記述文に従って, 劣化画像中の意味情報を埋めることである。
既存のテキスト誘導画像生成作業と異なり、入力モデルは、与えられたテキストの意味コンテンツと画像の残りの部分を比較し、欠落部分で埋めるべき意味コンテンツを見つけるために必要となる。
このような課題を達成するために,テキストガイドデュアルアテンション・インパインティング・ネットワーク (TDANet) という新しいインパインティング・モデルを提案する。
まず,二重マルチモーダル・アテンション機構は,記述テキストと補完画像領域を相互にアテンションにより比較することにより,破損領域に関する明示的な意味情報を抽出するように設計された。
次に、生成された画像とテキストの意味的類似性を最大化するために、画像テキストマッチング損失を適用する。
2つのオープンデータセットで実験を行う。
その結果,提案するtdanetモデルは,定量的および質的尺度の両方において新たな最先端に到達した。
結果分析の結果、生成された画像はガイダンステキストと一致しており、異なる記述を提供することで様々な結果を生成することができることが示唆された。
コードはhttps://github.com/idealwhite/TDANetで入手できる。
関連論文リスト
- Image2Text2Image: A Novel Framework for Label-Free Evaluation of Image-to-Text Generation with Text-to-Image Diffusion Models [16.00576040281808]
本稿では,画像キャプションモデルを評価するための新しいフレームワークであるImage2Text2Imageを提案する。
高い類似度スコアは、このモデルが忠実なテキスト記述を生み出し、低いスコアは相違点を強調していることを示唆している。
本フレームワークは人手によるキャプション参照に依存しないので,画像キャプションモデルを評価する上で貴重なツールである。
論文 参考訳(メタデータ) (2024-11-08T17:07:01Z) - CLII: Visual-Text Inpainting via Cross-Modal Predictive Interaction [23.683636588751753]
State-of-the-art inpainting法は主に自然画像用に設計されており、シーンテキスト画像内のテキストを正しく復元することができない。
高品質なシーン画像復元とテキスト補完を実現するために,視覚テキストの塗装作業を特定する。
論文 参考訳(メタデータ) (2024-07-23T06:12:19Z) - Visual Text Generation in the Wild [67.37458807253064]
野生で高品質なテキスト画像を生成する視覚テキスト生成装置(SceneVTG)を提案する。
提案したSceneVTGは、従来のレンダリングに基づく手法と最近の拡散に基づく手法を、忠実さと理性の観点から大きく上回っている。
生成された画像は、テキスト検出とテキスト認識を含むタスクに優れたユーティリティを提供する。
論文 参考訳(メタデータ) (2024-07-19T09:08:20Z) - Text-guided Image Restoration and Semantic Enhancement for Text-to-Image Person Retrieval [11.798006331912056]
テキスト・ツー・イメージ・パーソナリティ検索(TIPR)の目的は、与えられたテキスト記述に従って特定の人物画像を取得することである。
本稿では,人物画像と対応するテキスト間のきめ細かいインタラクションとアライメントを構築するための新しいTIPRフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-18T08:23:46Z) - Exploring Stroke-Level Modifications for Scene Text Editing [86.33216648792964]
シーンテキスト編集(STE)は、元のテキストの背景とスタイルを保存しながら、テキストを所望のテキストに置き換えることを目的としている。
画像全体を編集するには、背景領域とテキスト領域の異なる翻訳規則を同時に学習する必要がある。
Scene Text Image at strokE Level (MOSTEL) を用いた新しいネットワークを提案する。
論文 参考訳(メタデータ) (2022-12-05T02:10:59Z) - Knowledge Mining with Scene Text for Fine-Grained Recognition [53.74297368412834]
本研究では,シーンテキスト画像の背景にある暗黙的な文脈知識をマイニングする,エンドツーエンドのトレーニング可能なネットワークを提案する。
我々は,KnowBertを用いて意味表現の関連知識を検索し,それを画像特徴と組み合わせ,きめ細かい分類を行う。
本手法は,3.72%のmAPと5.39%のmAPをそれぞれ上回っている。
論文 参考訳(メタデータ) (2022-03-27T05:54:00Z) - CIGLI: Conditional Image Generation from Language & Image [5.159265382427163]
我々はCIGLI: Conditional Image Generation from Language and Imageを提案する。
テキスト画像生成のようにテキストに基づいて画像を生成する代わりに、このタスクでは、テキスト記述と画像プロンプトから画像を生成する必要がある。
論文 参考訳(メタデータ) (2021-08-20T00:58:42Z) - Context-Aware Image Inpainting with Learned Semantic Priors [100.99543516733341]
欠落した内容を推定するために意味的に意味のある前文タスクを導入する。
本研究では,グローバルなセマンティクスと局所的な特徴を適応的に統合した文脈認識型画像インパインティングモデルを提案する。
論文 参考訳(メタデータ) (2021-06-14T08:09:43Z) - VICTR: Visual Information Captured Text Representation for Text-to-Image
Multimodal Tasks [5.840117063192334]
テキスト入力からオブジェクトのリッチな視覚的意味情報をキャプチャするマルチモーダルタスクであるVICTRを提案する。
本稿では,シーングラフとそれに対応する幾何学的関係情報をグラフ畳み込みネットワークを用いて学習する。
テキスト表現は、単語レベルと文レベルの埋め込みで集約され、視覚的文脈表現と文表現の両方を生成する。
論文 参考訳(メタデータ) (2020-10-07T05:25:30Z) - Text as Neural Operator: Image Manipulation by Text Instruction [68.53181621741632]
本稿では、複雑なテキスト命令を用いて複数のオブジェクトで画像を編集し、オブジェクトの追加、削除、変更を可能にする設定について検討する。
タスクの入力は、(1)参照画像を含むマルチモーダルであり、(2)所望の修正を記述した自然言語の命令である。
提案モデルは,最近の3つの公開データセットの強いベースラインに対して良好に動作することを示す。
論文 参考訳(メタデータ) (2020-08-11T07:07:10Z) - Describe What to Change: A Text-guided Unsupervised Image-to-Image
Translation Approach [84.22327278486846]
本稿では,画像から画像への変換に基づく新しい教師なしの手法を提案する。
本モデルは視覚的属性から画像内容を切り離し,テキスト記述を用いて後者を変更することを学習する。
実験により,提案モデルが2つの大規模公開データセットに対して有望な性能を達成することを示す。
論文 参考訳(メタデータ) (2020-08-10T15:40:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。