論文の概要: TEXTOC: Text-driven Object-Centric Style Transfer
- arxiv url: http://arxiv.org/abs/2408.08461v2
- Date: Thu, 22 Aug 2024 04:49:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-26 17:10:58.756174
- Title: TEXTOC: Text-driven Object-Centric Style Transfer
- Title(参考訳): TEXTOC:テキスト駆動型オブジェクト中心スタイル転送
- Authors: Jihun Park, Jongmin Gim, Kyoungmin Lee, Seunghun Lee, Sunghoon Im,
- Abstract要約: TEXTOCは、テキスト入力を用いて、オブジェクト中心のレベルでスタイル転送をガイドする新しい方法である。
TEXTOCの中核は、正確なオブジェクト中心変換のために慎重に設計された、Patch-wise Co-Directional (PCD)損失です。
本手法の鍵となるのは,テキストマッチング・パッチ・セレクション (TMPS) とプレフィックス・リージョン・セレクション (PRS) モジュールである。
- 参考スコア(独自算出の注目度): 14.719149046240412
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Text-driven Object-Centric Style Transfer (TEXTOC), a novel method that guides style transfer at an object-centric level using textual inputs. The core of TEXTOC is our Patch-wise Co-Directional (PCD) loss, meticulously designed for precise object-centric transformations that are closely aligned with the input text. This loss combines a patch directional loss for text-guided style direction and a patch distribution consistency loss for even CLIP embedding distribution across object regions. It ensures a seamless and harmonious style transfer across object regions. Key to our method are the Text-Matched Patch Selection (TMPS) and Pre-fixed Region Selection (PRS) modules for identifying object locations via text, eliminating the need for segmentation masks. Lastly, we introduce an Adaptive Background Preservation (ABP) loss to maintain the original style and structural essence of the image's background. This loss is applied to dynamically identified background areas. Extensive experiments underline the effectiveness of our approach in creating visually coherent and textually aligned style transfers.
- Abstract(参考訳): テキスト入力を用いたオブジェクト中心レベルでのスタイル転送をガイドする,テキスト駆動型オブジェクト中心スタイル転送(TEXTOC)を提案する。
TEXTOCの中核は、私たちのPatch-wise Co-Directional (PCD)損失であり、入力テキストと密接に一致した正確なオブジェクト中心変換のために慎重に設計されている。
この損失は、テキスト誘導スタイルの方向に対するパッチ方向の損失と、CLIP埋め込みのオブジェクト領域間の分散に対するパッチ分布の整合性損失を組み合わせたものだ。
オブジェクト領域間のシームレスで調和の取れたスタイル転送を保証する。
本手法の鍵となるのは,テキストマッチング・パッチ・セレクション (TMPS) とプリフィックス・リージョン・セレクション (PRS) モジュールである。
最後に、画像の背景の本来のスタイルと構造的要素を維持するために、適応的背景保存(ABP)損失を導入する。
この損失は動的に同定された背景領域に適用される。
広汎な実験は、視覚的に一貫性があり、テキスト的に整合したスタイル転送の作成において、我々のアプローチの有効性を裏付けるものである。
関連論文リスト
- TextMaster: Universal Controllable Text Edit [5.7173370525015095]
本研究では,任意のシナリオや画像領域において,テキストを高いリアリズムと適切なレイアウトで正確に編集できるTextMasterを提案する。
本手法では,トレーニングの指導として適応標準文字スペーシングを用い,テキスト位置やサイズ情報の漏洩を防止するために適応マスクブースティングを用いる。
テキスト編集領域に高解像度の標準フォント情報を注入し,知覚的損失を付与することにより,テキストのレンダリング精度と忠実度をさらに向上する。
論文 参考訳(メタデータ) (2024-10-13T15:39:39Z) - DragText: Rethinking Text Embedding in Point-based Image Editing [3.1923251959845214]
拡散モデルにおける入力画像のプログレッシブな編集において,テキスト埋め込みは一定であることを示す。
そこで我々はDragTextを提案する。DragTextはドラッグ処理と同時にテキスト埋め込みを最適化し、修正された画像埋め込みと組み合わせる。
論文 参考訳(メタデータ) (2024-07-25T07:57:55Z) - Tuning-Free Adaptive Style Incorporation for Structure-Consistent Text-Driven Style Transfer [35.565157182236014]
テキスト駆動型スタイル転送タスク,すなわちAdaptive Style Incorporation(ASI)に対する新しいソリューションを提案する。
Siamese Cross-(SiCA)は、シングルトラックのクロスアテンションをデュアルトラック構造に分離し、コンテンツとスタイルの特徴を分離し、Adaptive Content-Style Blending (AdaBlending)モジュールは、コンテンツとスタイル情報を構造一貫性のある方法で結合する。
実験により, 構造保存とスタイリング効果の両面において, 優れた性能を示した。
論文 参考訳(メタデータ) (2024-04-10T08:54:00Z) - MSSRNet: Manipulating Sequential Style Representation for Unsupervised
Text Style Transfer [82.37710853235535]
教師なしのテキストスタイル転送タスクは、メインのコンテンツを保持しながらテキストをターゲットのスタイルに書き換えることを目的としている。
従来の方法では、固定サイズのベクトルを使ってテキストスタイルを規制するが、個々のトークンのスタイル強度を正確に伝達することは困難である。
提案手法は,テキスト中の各トークンに個々のスタイルベクトルを割り当てることでこの問題に対処する。
論文 参考訳(メタデータ) (2023-06-12T13:12:29Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - ITstyler: Image-optimized Text-based Style Transfer [25.60521982742093]
推論段階で最適化を必要としないテキストベースのスタイル転送手法を提案する。
具体的には,テキスト入力を事前学習したVGGネットワークのスタイル空間に変換し,より効果的なスタイルスワップを実現する。
本手法は,任意のテキスト入力スタイルをリアルタイムに転送し,高品質な芸術画像を合成する。
論文 参考訳(メタデータ) (2023-01-26T03:08:43Z) - Exploring Stroke-Level Modifications for Scene Text Editing [86.33216648792964]
シーンテキスト編集(STE)は、元のテキストの背景とスタイルを保存しながら、テキストを所望のテキストに置き換えることを目的としている。
画像全体を編集するには、背景領域とテキスト領域の異なる翻訳規則を同時に学習する必要がある。
Scene Text Image at strokE Level (MOSTEL) を用いた新しいネットワークを提案する。
論文 参考訳(メタデータ) (2022-12-05T02:10:59Z) - Diffusion-based Image Translation using Disentangled Style and Content
Representation [51.188396199083336]
セマンティックテキストや単一のターゲット画像でガイドされた拡散ベースの画像変換により、柔軟なスタイル変換が可能になった。
逆拡散中、画像の原内容を維持することはしばしば困難である。
本稿では,不整合スタイルとコンテンツ表現を用いた新しい拡散に基づく教師なし画像翻訳手法を提案する。
提案手法は,テキスト誘導と画像誘導の両方の翻訳作業において,最先端のベースラインモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-09-30T06:44:37Z) - A Text Attention Network for Spatial Deformation Robust Scene Text Image
Super-resolution [13.934846626570286]
シーンテキスト画像の超解像度は、低解像度画像におけるテキストの解像度と可読性を向上させることを目的としている。
空間的に変形したテキスト、特に回転して湾曲したテキストの高解像度画像の再構成は依然として困難である。
この問題に対処するために,CNN ベースの Text ATTention Network (TATT) を提案する。
論文 参考訳(メタデータ) (2022-03-17T15:28:29Z) - A Simple and Strong Baseline: Progressively Region-based Scene Text
Removal Networks [72.32357172679319]
本稿では, Progressively Region-based scene Text eraser (PERT)を提案する。
PERTはSTRタスクをいくつかの消去段階に分解する。
PERTは、テキストフリー領域の完全性を保証するために、リージョンベースの修正戦略を導入している。
論文 参考訳(メタデータ) (2021-06-24T14:06:06Z) - Contextual Text Style Transfer [73.66285813595616]
コンテキストテキストスタイル転送は、文をその周囲のコンテキストを考慮した所望のスタイルに変換することを目的としている。
本稿では,各入力文とその周辺コンテキストに対して2つの異なるエンコーダを使用するコンテキスト認識スタイル転送(CAST)モデルを提案する。
Enron-ContextとReddit-Contextという2つの新しいベンチマークが、フォーマル性と攻撃性スタイルの転送のために導入された。
論文 参考訳(メタデータ) (2020-04-30T23:01:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。