論文の概要: InteractDiffusion: Interaction Control in Text-to-Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2312.05849v2
- Date: Tue, 27 Feb 2024 02:00:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 21:39:50.885545
- Title: InteractDiffusion: Interaction Control in Text-to-Image Diffusion Models
- Title(参考訳): InteractDiffusion:テキスト間拡散モデルにおける相互作用制御
- Authors: Jiun Tian Hoe and Xudong Jiang and Chee Seng Chan and Yap-Peng Tan and
Weipeng Hu
- Abstract要約: 本研究では,Human-Object Interaction (HOI) 情報を用いたT2I拡散モデルの条件付け問題について検討する。
我々は、既存の訓練済みT2I拡散モデルを拡張する、InteractDiffusionと呼ばれるプラグイン可能な相互作用制御モデルを提案する。
我々のモデルは既存のT2I拡散モデルにおける相互作用と位置を制御できる。
- 参考スコア(独自算出の注目度): 43.62338454684645
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale text-to-image (T2I) diffusion models have showcased incredible
capabilities in generating coherent images based on textual descriptions,
enabling vast applications in content generation. While recent advancements
have introduced control over factors such as object localization, posture, and
image contours, a crucial gap remains in our ability to control the
interactions between objects in the generated content. Well-controlling
interactions in generated images could yield meaningful applications, such as
creating realistic scenes with interacting characters. In this work, we study
the problems of conditioning T2I diffusion models with Human-Object Interaction
(HOI) information, consisting of a triplet label (person, action, object) and
corresponding bounding boxes. We propose a pluggable interaction control model,
called InteractDiffusion that extends existing pre-trained T2I diffusion models
to enable them being better conditioned on interactions. Specifically, we
tokenize the HOI information and learn their relationships via interaction
embeddings. A conditioning self-attention layer is trained to map HOI tokens to
visual tokens, thereby conditioning the visual tokens better in existing T2I
diffusion models. Our model attains the ability to control the interaction and
location on existing T2I diffusion models, which outperforms existing baselines
by a large margin in HOI detection score, as well as fidelity in FID and KID.
Project page: https://jiuntian.github.io/interactdiffusion.
- Abstract(参考訳): 大規模テキスト・ツー・イメージ(t2i)拡散モデルは、テキスト記述に基づいてコヒーレントな画像を生成する素晴らしい能力を示しており、コンテンツ生成における広大な応用を可能にしている。
近年, 物体の局所化, 姿勢, 画像の輪郭などの要因の制御が進んでいるが, 生成コンテンツ中の物体間の相互作用を制御できる重要なギャップが残っている。
生成した画像内の対話をうまく制御することで、対話的なキャラクターで現実的なシーンを作るといった有意義な応用が可能になる。
本研究では,三重項ラベル(人,行動,対象)と対応する境界ボックスからなる人間-対象間相互作用(hoi)情報を用いたt2i拡散モデルの条件付け問題について検討する。
我々は、既存の訓練済みT2I拡散モデルを拡張して、相互作用により良い条件付けを可能にする、InteractDiffusionと呼ばれるプラグイン可能な相互作用制御モデルを提案する。
具体的には、HOI情報をトークン化し、インタラクション埋め込みを通じてそれらの関係を学習する。
条件付き自己アテンション層は、HOIトークンを視覚トークンにマッピングするように訓練され、既存のT2I拡散モデルにおいて視覚トークンをよりよく条件付ける。
提案モデルでは,既存のT2I拡散モデルにおける相互作用と位置の制御が可能であり,HOI検出スコアの差が大きく,FIDおよびKIDの忠実度も大きく向上する。
プロジェクトページ: https://jiuntian.github.io/interactdiffusion。
関連論文リスト
- Object-Attribute Binding in Text-to-Image Generation: Evaluation and Control [58.37323932401379]
現在の拡散モデルは、入力としてテキストプロンプトが与えられたイメージを生成するが、テキストで言及されている属性を画像の正しいオブジェクトに正しく結び付けるのに苦労する。
入力文中の構文的制約により視覚的注意マップを制御できる集中的横断注意(FCA)を提案する。
我々は、T2I生成の大幅な改善、特にいくつかのデータセットに対する属性オブジェクトのバインディングを示す。
論文 参考訳(メタデータ) (2024-04-21T20:26:46Z) - LaDiC: Are Diffusion Models Really Inferior to Autoregressive Counterparts for Image-to-Text Generation? [10.72249123249003]
我々は拡散モデルを再検討し、全体論的文脈モデリングと並列復号化の能力を強調した。
本稿では,分割BERTを用いた新しいアーキテクチャLaDiCを導入し,キャプション専用のラテント空間を創出する。
LaDiCは、38.2 BLEU@4と126.2 CIDErのMSデータセット上で拡散ベースのメソッドの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-04-16T17:47:16Z) - AID: Attention Interpolation of Text-to-Image Diffusion [64.87754163416241]
AID(Attention Interpolation via Diffusion)という,トレーニング不要な手法を導入する。
AIDは補間された注意を自己注意と融合させ、忠実性を高める。
また,条件に依存した生成過程として,拡散による条件誘導注意補間(AID)も提案する。
論文 参考訳(メタデータ) (2024-03-26T17:57:05Z) - Box It to Bind It: Unified Layout Control and Attribute Binding in T2I
Diffusion Models [28.278822620442774]
Box-it-to-Bind-it (B2B) は、テキスト・トゥ・イメージ(T2I)拡散モデルにおける空間制御と意味的精度を改善するためのトレーニング不要なアプローチである。
B2Bは、破滅的な無視、属性バインディング、レイアウトガイダンスという、T2Iの3つの重要な課題をターゲットにしている。
B2Bは既存のT2Iモデルのプラグイン・アンド・プレイモジュールとして設計されている。
論文 参考訳(メタデータ) (2024-02-27T21:51:32Z) - Beyond Inserting: Learning Identity Embedding for Semantic-Fidelity Personalized Diffusion Generation [21.739328335601716]
本稿では,パーソナライズされた生成のための安定拡散モデルに,正確でインタラクティブなIDを挿入することに焦点を当てる。
顔のレイアウトや背景などのIDに依存しない情報を絡み合わせるのではなく、顔領域にフィットする顔の注意損失を提案する。
その結果,従来の手法と比較して,IDの精度,テキストベースの操作能力,一般化性が向上した。
論文 参考訳(メタデータ) (2024-01-31T11:52:33Z) - DragDiffusion: Harnessing Diffusion Models for Interactive Point-based Image Editing [94.24479528298252]
DragGANは、ピクセルレベルの精度で印象的な編集結果を実現する、インタラクティブなポイントベースの画像編集フレームワークである。
大規模な事前学習拡散モデルを利用することで、実画像と拡散画像の両方における対話的点ベース編集の適用性を大幅に向上する。
本稿では,対話的点ベース画像編集手法の性能を評価するため,DragBenchというベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2023-06-26T06:04:09Z) - BLIP-Diffusion: Pre-trained Subject Representation for Controllable
Text-to-Image Generation and Editing [73.74570290836152]
BLIP-Diffusionはマルチモーダル制御をサポートする新しい主観駆動画像生成モデルである。
他の主観駆動生成モデルとは異なり、BLIP-Diffusionは主観表現を提供するために事前訓練された新しいマルチモーダルエンコーダを導入する。
論文 参考訳(メタデータ) (2023-05-24T04:51:04Z) - Harnessing the Spatial-Temporal Attention of Diffusion Models for
High-Fidelity Text-to-Image Synthesis [59.10787643285506]
拡散に基づくモデルは、テキストと画像の合成タスクで最先端のパフォーマンスを達成した。
これらのモデルの1つの重要な制限は、テキスト記述に関して生成された画像の忠実度が低いことである。
本研究では,拡散モデルにおける空間的時間的相互アテンションを明示的に制御する新しいテキスト・ツー・イメージアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-07T23:49:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。