Fugu-MT 論文翻訳(概要): BATINet: Background-Aware Text to Image Synthesis and Manipulation Network

論文の概要: BATINet: Background-Aware Text to Image Synthesis and Manipulation Network

arxiv url: http://arxiv.org/abs/2308.05921v1
Date: Fri, 11 Aug 2023 03:22:33 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-14 15:15:46.674319
Title: BATINet: Background-Aware Text to Image Synthesis and Manipulation Network
Title（参考訳）: BATINet:画像合成・操作ネットワークのための背景対応テキスト
Authors: Ryugo Morita, Zhiqiang Zhang, Jinjia Zhou
Abstract要約: 生成したコンテンツが入力背景と一致する背景認識型テキスト2画像(BAT2I)タスクを解析した。本研究では,背景認識による画像合成・操作ネットワーク (BATINet) を提案する。我々は,CUBデータセットの質的,定量的な評価を通じて,提案モデルが他の最先端手法よりも優れていることを示した。
参考スコア（独自算出の注目度）: 12.924990882126105
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Background-Induced Text2Image (BIT2I) aims to generate foreground content according to the text on the given background image. Most studies focus on generating high-quality foreground content, although they ignore the relationship between the two contents. In this study, we analyzed a novel Background-Aware Text2Image (BAT2I) task in which the generated content matches the input background. We proposed a Background-Aware Text to Image synthesis and manipulation Network (BATINet), which contains two key components: Position Detect Network (PDN) and Harmonize Network (HN). The PDN detects the most plausible position of the text-relevant object in the background image. The HN harmonizes the generated content referring to background style information. Finally, we reconstructed the generation network, which consists of the multi-GAN and attention module to match more user preferences. Moreover, we can apply BATINet to text-guided image manipulation. It solves the most challenging task of manipulating the shape of an object. We demonstrated through qualitative and quantitative evaluations on the CUB dataset that the proposed model outperforms other state-of-the-art methods.
Abstract（参考訳）: 背景誘導型Text2Image(BIT2I)は,背景画像のテキストに基づいて前景コンテンツを生成することを目的としている。ほとんどの研究は高品質の前景コンテンツの生成に焦点を当てているが、両者の関係は無視している。本研究では,生成したコンテンツが入力背景と一致する背景認識型テキスト2画像(BAT2I)タスクを解析した。本研究では,背景認識による画像合成・操作ネットワーク (BATINet) を提案し,その構成成分として位置検出ネットワーク (PDN) とハーモナイズネットワーク (HN) がある。 PDNは、背景画像中のテキスト関連オブジェクトの最も確実な位置を検出する。 HNは、バックグラウンドスタイル情報を参照して生成されたコンテンツを調和させる。最後に,マルチガンとアテンションモジュールからなる生成ネットワークを再構成し,ユーザの好みに適合させた。さらに、BATINetをテキスト誘導画像操作に適用できる。物体の形状を操作するという最も難しい課題を解決する。我々は,CUBデータセットの質的,定量的な評価を通じて,提案モデルが他の最先端手法よりも優れていることを示した。

関連論文リスト

TextCenGen: Attention-Guided Text-Centric Background Adaptation for Text-to-Image Generation [21.171612603385405]
テキストフレンドリーな画像生成のための,空白領域におけるトレーニング不要な動的バックグラウンド適応であるTextCenGenを提案する。本手法は,テキスト領域に重なり合う矛盾するオブジェクトを識別するために,クロスアテンションマップを解析する。本手法はプラグ・アンド・プレイであり, セマンティックな忠実さと視覚的品質の両面のバランスを保ちながら, 追加の訓練は不要である。
論文参考訳（メタデータ） (2024-04-18T01:10:24Z)
Advancing Visual Grounding with Scene Knowledge: Benchmark and Method [74.72663425217522]
ビジュアルグラウンドディング(VG)は、視覚と言語の間にきめ細かいアライメントを確立することを目的としている。既存のVGデータセットの多くは、単純な記述テキストを使って構築されている。我々は、アンダーラインScene underline-guided underlineVisual underlineGroundingの新たなベンチマークを提案する。
論文参考訳（メタデータ） (2023-07-21T13:06:02Z)
Image-text Retrieval via Preserving Main Semantics of Vision [5.376441473801597]
本稿では,視覚的セマンティック・ロス (VSL) として実装された意味的最適化手法を提案する。我々は、画像に対応する注釈付きテキストを活用して、画像の主コンテンツを取得する際のモデルを支援する。 2つのベンチマークデータセットの実験により,本手法の優れた性能が示された。
論文参考訳（メタデータ） (2023-04-20T12:23:29Z)
Weakly Supervised Realtime Dynamic Background Subtraction [8.75682288556859]
画素単位のグランドトラスラベルを必要とせずにバックグラウンドサブトラクションを実行できる弱教師付きフレームワークを提案する。本フレームワークは,移動対象のない画像列をトレーニングし,2つのネットワークから構成される。提案手法は,オンライン,リアルタイム,効率的で,最小限のフレームレベルのアノテーションを必要とする。
論文参考訳（メタデータ） (2023-03-06T03:17:48Z)
Fully Context-Aware Image Inpainting with a Learned Semantic Pyramid [102.24539566851809]
画像中の任意の欠落する領域に対して、合理的で現実的なコンテンツを復元することは、重要な課題である。最近の画像インパインティングモデルは鮮明な視覚的詳細を生成するために大きな進歩を遂げているが、それでもテクスチャのぼやけや構造的歪みにつながる可能性がある。本研究では,画像中の局所的欠落コンテンツの回復に大きく貢献する,多スケールなセマンティック・セマンティック・ピラミッド・ネットワーク(SPN)を提案する。
論文参考訳（メタデータ） (2021-12-08T04:33:33Z)
Text as Neural Operator: Image Manipulation by Text Instruction [68.53181621741632]
本稿では、複雑なテキスト命令を用いて複数のオブジェクトで画像を編集し、オブジェクトの追加、削除、変更を可能にする設定について検討する。タスクの入力は、(1)参照画像を含むマルチモーダルであり、(2)所望の修正を記述した自然言語の命令である。提案モデルは,最近の3つの公開データセットの強いベースラインに対して良好に動作することを示す。
論文参考訳（メタデータ） (2020-08-11T07:07:10Z)
BachGAN: High-Resolution Image Synthesis from Salient Object Layout [78.51640906030244]
本稿では、より実用的な画像生成のための新しい課題である、有能なオブジェクトレイアウトからの高品質な画像合成を提案する。 i) セグメンテーションマップ入力なしできめ細かい詳細と現実的なテクスチャを生成する方法、(ii) バックグラウンドを作成してスタンドアロンのオブジェクトにシームレスに織り込む方法である。幻影背景表現を動的に生成することにより,高解像度画像をフォトリアリスティック・フォアグラウンドと積分背景の両方で合成することができる。
論文参考訳（メタデータ） (2020-03-26T00:54:44Z)
SwapText: Image Based Texts Transfer in Scenes [13.475726959175057]
スワップテキスト(SwapText)はシーンイメージ間でテキストを転送するフレームワークである。前景画像のみにテキストラベルを置換する新しいテキストスワップネットワークを提案する。生成された前景画像と背景画像を用いて、融合ネットワークにより単語画像を生成する。
論文参考訳（メタデータ） (2020-03-18T11:02:17Z)
Expressing Objects just like Words: Recurrent Visual Embedding for Image-Text Matching [102.62343739435289]
既存の画像テキストマッチングアプローチは、テキストと画像の各独立オブジェクト間の親和性をキャプチャして集約することにより、画像テキストペアの類似性を推測する。本稿では,リカレントニューラルネットワーク(RNN)を用いて画像と文を対称に処理するDual Path Recurrent Neural Network (DP-RNN)を提案する。我々のモデルはFlickr30Kデータセットの最先端性能とMS-COCOデータセットの競合性能を達成する。
論文参考訳（メタデータ） (2020-02-20T00:51:01Z)
Scene Text Synthesis for Efficient and Effective Deep Network Training [62.631176120557136]
我々は,背景画像に前景オブジェクトを埋め込むことで,注釈付き訓練画像を構成する革新的な画像合成技術を開発した。提案手法は,ディープネットワークトレーニングにおける合成画像の有用性を高める2つの重要な要素から構成される。複数の公開データセットに対する実験により,提案手法の有効性が示された。
論文参考訳（メタデータ） (2019-01-26T10:15:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。