論文の概要: BATINet: Background-Aware Text to Image Synthesis and Manipulation
Network
- arxiv url: http://arxiv.org/abs/2308.05921v1
- Date: Fri, 11 Aug 2023 03:22:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-14 15:15:46.674319
- Title: BATINet: Background-Aware Text to Image Synthesis and Manipulation
Network
- Title(参考訳): BATINet:画像合成・操作ネットワークのための背景対応テキスト
- Authors: Ryugo Morita, Zhiqiang Zhang, Jinjia Zhou
- Abstract要約: 生成したコンテンツが入力背景と一致する背景認識型テキスト2画像(BAT2I)タスクを解析した。
本研究では,背景認識による画像合成・操作ネットワーク (BATINet) を提案する。
我々は,CUBデータセットの質的,定量的な評価を通じて,提案モデルが他の最先端手法よりも優れていることを示した。
- 参考スコア(独自算出の注目度): 12.924990882126105
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Background-Induced Text2Image (BIT2I) aims to generate foreground content
according to the text on the given background image. Most studies focus on
generating high-quality foreground content, although they ignore the
relationship between the two contents. In this study, we analyzed a novel
Background-Aware Text2Image (BAT2I) task in which the generated content matches
the input background. We proposed a Background-Aware Text to Image synthesis
and manipulation Network (BATINet), which contains two key components: Position
Detect Network (PDN) and Harmonize Network (HN). The PDN detects the most
plausible position of the text-relevant object in the background image. The HN
harmonizes the generated content referring to background style information.
Finally, we reconstructed the generation network, which consists of the
multi-GAN and attention module to match more user preferences. Moreover, we can
apply BATINet to text-guided image manipulation. It solves the most challenging
task of manipulating the shape of an object. We demonstrated through
qualitative and quantitative evaluations on the CUB dataset that the proposed
model outperforms other state-of-the-art methods.
- Abstract(参考訳): 背景誘導型Text2Image(BIT2I)は,背景画像のテキストに基づいて前景コンテンツを生成することを目的としている。
ほとんどの研究は高品質の前景コンテンツの生成に焦点を当てているが、両者の関係は無視している。
本研究では,生成したコンテンツが入力背景と一致する背景認識型テキスト2画像(BAT2I)タスクを解析した。
本研究では,背景認識による画像合成・操作ネットワーク (BATINet) を提案し,その構成成分として位置検出ネットワーク (PDN) とハーモナイズネットワーク (HN) がある。
PDNは、背景画像中のテキスト関連オブジェクトの最も確実な位置を検出する。
HNは、バックグラウンドスタイル情報を参照して生成されたコンテンツを調和させる。
最後に,マルチガンとアテンションモジュールからなる生成ネットワークを再構成し,ユーザの好みに適合させた。
さらに、BATINetをテキスト誘導画像操作に適用できる。
物体の形状を操作するという最も難しい課題を解決する。
我々は,CUBデータセットの質的,定量的な評価を通じて,提案モデルが他の最先端手法よりも優れていることを示した。
関連論文リスト
- Advancing Visual Grounding with Scene Knowledge: Benchmark and Method [74.72663425217522]
ビジュアルグラウンドディング(VG)は、視覚と言語の間にきめ細かいアライメントを確立することを目的としている。
既存のVGデータセットの多くは、単純な記述テキストを使って構築されている。
我々は、アンダーラインScene underline-guided underlineVisual underlineGroundingの新たなベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-21T13:06:02Z) - Image-text Retrieval via Preserving Main Semantics of Vision [5.376441473801597]
本稿では,視覚的セマンティック・ロス (VSL) として実装された意味的最適化手法を提案する。
我々は、画像に対応する注釈付きテキストを活用して、画像の主コンテンツを取得する際のモデルを支援する。
2つのベンチマークデータセットの実験により,本手法の優れた性能が示された。
論文 参考訳(メタデータ) (2023-04-20T12:23:29Z) - Weakly Supervised Realtime Dynamic Background Subtraction [8.75682288556859]
画素単位のグランドトラスラベルを必要とせずにバックグラウンドサブトラクションを実行できる弱教師付きフレームワークを提案する。
本フレームワークは,移動対象のない画像列をトレーニングし,2つのネットワークから構成される。
提案手法は,オンライン,リアルタイム,効率的で,最小限のフレームレベルのアノテーションを必要とする。
論文 参考訳(メタデータ) (2023-03-06T03:17:48Z) - Fully Context-Aware Image Inpainting with a Learned Semantic Pyramid [102.24539566851809]
画像中の任意の欠落する領域に対して、合理的で現実的なコンテンツを復元することは、重要な課題である。
最近の画像インパインティングモデルは鮮明な視覚的詳細を生成するために大きな進歩を遂げているが、それでもテクスチャのぼやけや構造的歪みにつながる可能性がある。
本研究では,画像中の局所的欠落コンテンツの回復に大きく貢献する,多スケールなセマンティック・セマンティック・ピラミッド・ネットワーク(SPN)を提案する。
論文 参考訳(メタデータ) (2021-12-08T04:33:33Z) - Text as Neural Operator: Image Manipulation by Text Instruction [68.53181621741632]
本稿では、複雑なテキスト命令を用いて複数のオブジェクトで画像を編集し、オブジェクトの追加、削除、変更を可能にする設定について検討する。
タスクの入力は、(1)参照画像を含むマルチモーダルであり、(2)所望の修正を記述した自然言語の命令である。
提案モデルは,最近の3つの公開データセットの強いベースラインに対して良好に動作することを示す。
論文 参考訳(メタデータ) (2020-08-11T07:07:10Z) - BachGAN: High-Resolution Image Synthesis from Salient Object Layout [78.51640906030244]
本稿では、より実用的な画像生成のための新しい課題である、有能なオブジェクトレイアウトからの高品質な画像合成を提案する。
i) セグメンテーションマップ入力なしできめ細かい詳細と現実的なテクスチャを生成する方法、(ii) バックグラウンドを作成してスタンドアロンのオブジェクトにシームレスに織り込む方法である。
幻影背景表現を動的に生成することにより,高解像度画像をフォトリアリスティック・フォアグラウンドと積分背景の両方で合成することができる。
論文 参考訳(メタデータ) (2020-03-26T00:54:44Z) - SwapText: Image Based Texts Transfer in Scenes [13.475726959175057]
スワップテキスト(SwapText)はシーンイメージ間でテキストを転送するフレームワークである。
前景画像のみにテキストラベルを置換する新しいテキストスワップネットワークを提案する。
生成された前景画像と背景画像を用いて、融合ネットワークにより単語画像を生成する。
論文 参考訳(メタデータ) (2020-03-18T11:02:17Z) - Expressing Objects just like Words: Recurrent Visual Embedding for
Image-Text Matching [102.62343739435289]
既存の画像テキストマッチングアプローチは、テキストと画像の各独立オブジェクト間の親和性をキャプチャして集約することにより、画像テキストペアの類似性を推測する。
本稿では,リカレントニューラルネットワーク(RNN)を用いて画像と文を対称に処理するDual Path Recurrent Neural Network (DP-RNN)を提案する。
我々のモデルはFlickr30Kデータセットの最先端性能とMS-COCOデータセットの競合性能を達成する。
論文 参考訳(メタデータ) (2020-02-20T00:51:01Z) - Scene Text Synthesis for Efficient and Effective Deep Network Training [62.631176120557136]
我々は,背景画像に前景オブジェクトを埋め込むことで,注釈付き訓練画像を構成する革新的な画像合成技術を開発した。
提案手法は,ディープネットワークトレーニングにおける合成画像の有用性を高める2つの重要な要素から構成される。
複数の公開データセットに対する実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2019-01-26T10:15:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。