論文の概要: Novel Object Synthesis via Adaptive Text-Image Harmony
- arxiv url: http://arxiv.org/abs/2410.20823v1
- Date: Mon, 28 Oct 2024 08:14:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:22:24.945508
- Title: Novel Object Synthesis via Adaptive Text-Image Harmony
- Title(参考訳): 適応的テキスト画像調和による新しいオブジェクト合成
- Authors: Zeren Xiong, Zedong Zhang, Zikun Chen, Shuo Chen, Xiang Li, Gan Sun, Jian Yang, Jun Li,
- Abstract要約: 本研究では、オブジェクトテキストとオブジェクトイメージを組み合わせたオブジェクト合成タスクについて検討し、新しいオブジェクト画像を生成する。
ほとんどの拡散モデルは、入力間の不均衡のため、このタスクに苦しむ。
そこで本研究では,アダプティブテキスト・イメージ・ハーモニー(Adaptive Text- Image Harmony)と呼ばれる手法を提案する。
- 参考スコア(独自算出の注目度): 29.595808957236052
- License:
- Abstract: In this paper, we study an object synthesis task that combines an object text with an object image to create a new object image. However, most diffusion models struggle with this task, \textit{i.e.}, often generating an object that predominantly reflects either the text or the image due to an imbalance between their inputs. To address this issue, we propose a simple yet effective method called Adaptive Text-Image Harmony (ATIH) to generate novel and surprising objects. First, we introduce a scale factor and an injection step to balance text and image features in cross-attention and to preserve image information in self-attention during the text-image inversion diffusion process, respectively. Second, to better integrate object text and image, we design a balanced loss function with a noise parameter, ensuring both optimal editability and fidelity of the object image. Third, to adaptively adjust these parameters, we present a novel similarity score function that not only maximizes the similarities between the generated object image and the input text/image but also balances these similarities to harmonize text and image integration. Extensive experiments demonstrate the effectiveness of our approach, showcasing remarkable object creations such as colobus-glass jar. Project page: https://xzr52.github.io/ATIH/.
- Abstract(参考訳): 本稿では,オブジェクトテキストとオブジェクト画像を組み合わせたオブジェクト合成タスクについて検討し,新しいオブジェクト画像を生成する。
しかし、ほとんどの拡散モデルは、入力間の不均衡により、主にテキストまたはイメージを反映するオブジェクトを生成するために、このタスクに苦しむ。
この問題に対処するために,Adaptive Text-Image Harmony (ATIH) というシンプルな手法を提案する。
まず,テキスト・イメージ・インバージョン拡散過程において,テキストと画像の特徴のバランスをとるためのスケールファクタとインジェクションステップを導入する。
第二に、オブジェクトのテキストと画像をよりよく統合するために、ノイズパラメータを持つバランスの取れた損失関数を設計し、オブジェクト画像の最適な編集性と忠実さを両立させる。
第3に、これらのパラメータを適応的に調整するために、生成されたオブジェクト画像と入力テキスト/画像の類似性を最大化するだけでなく、テキストと画像の統合を調和させるためにこれらの類似性をバランスさせる新しい類似度スコア関数を提案する。
広汎な実験により,コロンブスガラス瓶などの顕著なオブジェクト生成を実証し,本手法の有効性を実証した。
プロジェクトページ: https://xzr52.github.io/ATIH/。
関連論文リスト
- DiffUHaul: A Training-Free Method for Object Dragging in Images [78.93531472479202]
DiffUHaulと呼ばれるオブジェクトドラッグタスクのためのトレーニング不要な手法を提案する。
まず、各認知段階に注意マスキングを適用して、各生成を異なるオブジェクトにまたがってよりゆがみやすくする。
初期のデノナイジングステップでは、ソース画像とターゲット画像の注意特徴を補間して、新しいレイアウトを元の外観とスムーズに融合させる。
論文 参考訳(メタデータ) (2024-06-03T17:59:53Z) - LTOS: Layout-controllable Text-Object Synthesis via Adaptive Cross-attention Fusions [31.125592382816375]
制御可能なテキスト・ツー・イメージ生成は、ある条件下で画像中の視覚的テキストやオブジェクトを合成する。
ビジュアルテキストレンダリングとレイアウト・ツー・イメージ生成タスクは、制御可能なテキスト・ツー・イメージ生成で人気がある。
本稿では,テキストレンダリングとレイアウト・ツー・イメージ生成タスクをひとつのタスクに統合する。
論文 参考訳(メタデータ) (2024-04-21T08:37:43Z) - Beyond Generation: Harnessing Text to Image Models for Object Detection
and Segmentation [29.274362919954218]
精度の高いラベル付きトレーニングデータを自動的に生成する新しいパラダイムを提案する。
提案手法は、トレーニングデータ生成を前景オブジェクト生成とコンテキスト的に一貫性のある背景生成に分離する。
5つのオブジェクト検出とセグメンテーションデータセットに対するアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-09-12T04:41:45Z) - Harnessing the Spatial-Temporal Attention of Diffusion Models for
High-Fidelity Text-to-Image Synthesis [59.10787643285506]
拡散に基づくモデルは、テキストと画像の合成タスクで最先端のパフォーマンスを達成した。
これらのモデルの1つの重要な制限は、テキスト記述に関して生成された画像の忠実度が低いことである。
本研究では,拡散モデルにおける空間的時間的相互アテンションを明示的に制御する新しいテキスト・ツー・イメージアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-07T23:49:34Z) - Taming Encoder for Zero Fine-tuning Image Customization with
Text-to-Image Diffusion Models [55.04969603431266]
本稿では,ユーザが指定したカスタマイズされたオブジェクトの画像を生成する手法を提案する。
この手法は、従来のアプローチで要求される長大な最適化をバイパスする一般的なフレームワークに基づいている。
提案手法は, 出力品質, 外観の多様性, 被写体忠実度を考慮した画像合成が可能であることを示す。
論文 参考訳(メタデータ) (2023-04-05T17:59:32Z) - Layout-Bridging Text-to-Image Synthesis [20.261873143881573]
我々は、テキスト・ツー・イメージ生成とレイアウト・ツー・イメージ合成の両方において効果的なモデリングを推し進める。
入力テキストをレイアウト・ツー・イメージ合成プロセスに正確に組み込むために,レイアウト中のオブジェクトごとのテキスト・視覚的セマンティックアライメントを学習することに注力する。
論文 参考訳(メタデータ) (2022-08-12T08:21:42Z) - OptGAN: Optimizing and Interpreting the Latent Space of the Conditional
Text-to-Image GANs [8.26410341981427]
生成したサンプルが信頼でき、現実的、あるいは自然であることを保証する方法について研究する。
本稿では,条件付きテキスト・ツー・イメージGANアーキテクチャの潜在空間における意味論的理解可能な方向を識別するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-25T20:00:33Z) - Text as Neural Operator: Image Manipulation by Text Instruction [68.53181621741632]
本稿では、複雑なテキスト命令を用いて複数のオブジェクトで画像を編集し、オブジェクトの追加、削除、変更を可能にする設定について検討する。
タスクの入力は、(1)参照画像を含むマルチモーダルであり、(2)所望の修正を記述した自然言語の命令である。
提案モデルは,最近の3つの公開データセットの強いベースラインに対して良好に動作することを示す。
論文 参考訳(メタデータ) (2020-08-11T07:07:10Z) - Semantic Photo Manipulation with a Generative Image Prior [86.01714863596347]
GANは、ユーザスケッチ、テキスト、セマンティックラベルなどの入力に条件付きイメージを合成することができる。
GANが入力画像を正確に再現することは困難である。
本稿では,GANが以前に学んだイメージを個々の画像の統計に適応させることにより,これらの問題に対処する。
提案手法は,入力画像の外観と一致して,入力画像を正確に再構成し,新たなコンテンツを合成することができる。
論文 参考訳(メタデータ) (2020-05-15T18:22:05Z) - Expressing Objects just like Words: Recurrent Visual Embedding for
Image-Text Matching [102.62343739435289]
既存の画像テキストマッチングアプローチは、テキストと画像の各独立オブジェクト間の親和性をキャプチャして集約することにより、画像テキストペアの類似性を推測する。
本稿では,リカレントニューラルネットワーク(RNN)を用いて画像と文を対称に処理するDual Path Recurrent Neural Network (DP-RNN)を提案する。
我々のモデルはFlickr30Kデータセットの最先端性能とMS-COCOデータセットの競合性能を達成する。
論文 参考訳(メタデータ) (2020-02-20T00:51:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。