論文の概要: Point-Driven Interactive Text and Image Layer Editing Using Diffusion Models
- arxiv url: http://arxiv.org/abs/2504.14108v1
- Date: Fri, 18 Apr 2025 23:46:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 05:07:53.108597
- Title: Point-Driven Interactive Text and Image Layer Editing Using Diffusion Models
- Title(参考訳): 拡散モデルを用いた点駆動インタラクティブテキストと画像層編集
- Authors: Zhenyu Yu, Mohd Yamani Idna Idris, Pei Wang, Yuelong Xia,
- Abstract要約: DanceTextは、画像の多言語テキスト編集のためのトレーニング不要のフレームワークである。
複雑な幾何学的変換をサポートし、シームレスに前景と背景の統合を実現する。
- 参考スコア(独自算出の注目度): 4.415961468927045
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present DanceText, a training-free framework for multilingual text editing in images, designed to support complex geometric transformations and achieve seamless foreground-background integration. While diffusion-based generative models have shown promise in text-guided image synthesis, they often lack controllability and fail to preserve layout consistency under non-trivial manipulations such as rotation, translation, scaling, and warping. To address these limitations, DanceText introduces a layered editing strategy that separates text from the background, allowing geometric transformations to be performed in a modular and controllable manner. A depth-aware module is further proposed to align appearance and perspective between the transformed text and the reconstructed background, enhancing photorealism and spatial consistency. Importantly, DanceText adopts a fully training-free design by integrating pretrained modules, allowing flexible deployment without task-specific fine-tuning. Extensive experiments on the AnyWord-3M benchmark demonstrate that our method achieves superior performance in visual quality, especially under large-scale and complex transformation scenarios.
- Abstract(参考訳): 本研究では,画像の多言語テキスト編集のためのトレーニングフリーフレームワークであるDanceTextについて紹介する。
拡散に基づく生成モデルはテキスト誘導画像合成において有望であるが、制御性に欠け、ローテーション、翻訳、スケーリング、ワープといった非自明な操作の下でレイアウトの整合性を維持することができないことが多い。
これらの制限に対処するため、DanceTextはテキストを背景から分離する階層化された編集戦略を導入し、幾何学的変換をモジュール的で制御可能な方法で実行可能にする。
さらに、変換されたテキストと再構成された背景との外観と視点を整列させ、フォトリアリズムと空間整合性を高めるために、深度認識モジュールを提案する。
重要なことは、DanceTextはトレーニング済みのモジュールを統合することで完全にトレーニング不要の設計を採用しており、タスク固有の微調整なしで柔軟なデプロイメントを可能にしている。
AnyWord-3Mベンチマークの大規模な実験により, 大規模かつ複雑な変換シナリオにおいて, 視覚的品質の優れた性能が得られた。
関連論文リスト
- ShapeShift: Towards Text-to-Shape Arrangement Synthesis with Content-Aware Geometric Constraints [13.2441524021269]
ShapeShiftはテキスト誘導による画像から画像への変換タスクであり、入力された剛体形状の集合を重複しない構成に再構成する必要がある。
重複が発生した場合に,最小限の意味的コヒーレントな調整を施す,コンテンツ対応の衝突解決機構を導入する。
本手法は,空間的関係がテキストのプロンプトをはっきりと具現化した解釈可能な構成を与える。
論文 参考訳(メタデータ) (2025-03-18T20:48:58Z) - Beyond Flat Text: Dual Self-inherited Guidance for Visual Text Generation [17.552733309504486]
現実のイメージでは、斜めまたは湾曲したテキスト、特に缶、バナー、バッジは、芸術的なデザインやレイアウトの制約により、平らなテキストのように頻繁に現れる。
難易度の高いシナリオで視覚テキストを正確に生成する新しいトレーニングフリーフレームワークSTGenを導入する。
論文 参考訳(メタデータ) (2025-01-10T11:44:59Z) - InverseMeetInsert: Robust Real Image Editing via Geometric Accumulation Inversion in Guided Diffusion Models [20.90990477016161]
GEO(Geometry-Inverse-Meet-Pixel-Insert,略してGeometry-Meet-Pixel-Insert)は、非常に多用途な画像編集技術である。
本手法では,テキストプロンプトと画像プロンプトをシームレスに統合し,多種多様な正確な編集結果を得る。
論文 参考訳(メタデータ) (2024-09-18T06:43:40Z) - Task-Oriented Diffusion Inversion for High-Fidelity Text-based Editing [60.730661748555214]
textbfTask-textbfOriented textbfDiffusion textbfInversion (textbfTODInv) は、特定の編集タスクに適した実際の画像を反転して編集する新しいフレームワークである。
ToDInvは相互最適化によってインバージョンと編集をシームレスに統合し、高い忠実さと正確な編集性を保証する。
論文 参考訳(メタデータ) (2024-08-23T22:16:34Z) - TextCraftor: Your Text Encoder Can be Image Quality Controller [65.27457900325462]
拡散に基づくテキスト・画像生成モデル(例えば、安定拡散)は、コンテンツ生成の分野に革命をもたらした。
本研究では,テキスト・ツー・イメージ拡散モデルの性能を向上させるための微調整手法であるTextCraftorを提案する。
論文 参考訳(メタデータ) (2024-03-27T19:52:55Z) - Training-Free Consistent Text-to-Image Generation [80.4814768762066]
テキスト・ツー・イメージ・モデルは様々なプロンプトで同じ主題を表現できる。
既存のアプローチは、特定のユーザが提供する主題を記述する新しい単語を教えるためにモデルを微調整する。
本研究では、事前学習モデルの内部アクティベーションを共有することによって、一貫した主題生成を可能にする、トレーニング不要なアプローチであるConsiStoryを提案する。
論文 参考訳(メタデータ) (2024-02-05T18:42:34Z) - SPIRE: Semantic Prompt-Driven Image Restoration [66.26165625929747]
セマンティック・復元型画像復元フレームワークであるSPIREを開発した。
本手法は,復元強度の量的仕様を言語ベースで記述することで,より詳細な指導を支援する最初のフレームワークである。
本実験は, SPIREの修復性能が, 現状と比較して優れていることを示すものである。
論文 参考訳(メタデータ) (2023-12-18T17:02:30Z) - Textual and Visual Prompt Fusion for Image Editing via Step-Wise Alignment [10.82748329166797]
本研究では,生成した視覚的参照とテキストガイダンスを融合したフレームワークを提案する。
私たちのフレームワークは、小さなニューラルネットワークのみを使用して、テキストプロンプトによって直感的に駆動される多様なコンテンツや属性を制御する。
論文 参考訳(メタデータ) (2023-08-30T08:40:15Z) - Plug-and-Play Diffusion Features for Text-Driven Image-to-Image
Translation [10.39028769374367]
本稿では,画像間翻訳の領域にテキスト・ツー・イメージ合成を取り入れた新しいフレームワークを提案する。
本手法は,事前学習したテキスト・画像拡散モデルのパワーを利用して,対象のテキストに適合する新たな画像を生成する。
論文 参考訳(メタデータ) (2022-11-22T20:39:18Z) - FlexIT: Towards Flexible Semantic Image Translation [59.09398209706869]
我々は,任意の入力画像とユーザが定義したテキストを編集するための新しい方法であるFlexITを提案する。
まず、FlexITは入力画像とテキストをCLIPマルチモーダル埋め込み空間内の単一のターゲットポイントに結合する。
我々は、入力画像を目標点に向けて反復的に変換し、新しい正規化用語で一貫性と品質を確保する。
論文 参考訳(メタデータ) (2022-03-09T13:34:38Z) - Towards Full-to-Empty Room Generation with Structure-Aware Feature
Encoding and Soft Semantic Region-Adaptive Normalization [67.64622529651677]
本稿では,ソフトセマンティックな領域適応正規化モジュール (softSEAN) ブロックを提案する。
我々のアプローチは、トレーニングの複雑さと非微分可能性の問題を緩和することの利点の他に、比較した手法を量的にも質的にも上回っている。
我々のSoftSEANブロックは、既存の識別および生成モデルのためのドロップインモジュールとして使用することができる。
論文 参考訳(メタデータ) (2021-12-10T09:00:13Z) - TediGAN: Text-Guided Diverse Face Image Generation and Manipulation [52.83401421019309]
TediGANはマルチモーダル画像生成とテキスト記述による操作のためのフレームワークである。
StyleGANインバージョンモジュールは、よく訓練されたStyleGANの潜在空間に実際の画像をマッピングする。
視覚言語的類似性は、画像とテキストを共通の埋め込み空間にマッピングすることで、テキスト画像マッチングを学ぶ。
インスタンスレベルの最適化は、操作におけるID保存のためのものだ。
論文 参考訳(メタデータ) (2020-12-06T16:20:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。