Fugu-MT 論文翻訳(概要): InteractDiffusion: Interaction Control in Text-to-Image Diffusion Models

論文の概要: InteractDiffusion: Interaction Control in Text-to-Image Diffusion Models

arxiv url: http://arxiv.org/abs/2312.05849v2
Date: Tue, 27 Feb 2024 02:00:58 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-28 21:39:50.885545
Title: InteractDiffusion: Interaction Control in Text-to-Image Diffusion Models
Title（参考訳）: InteractDiffusion:テキスト間拡散モデルにおける相互作用制御
Authors: Jiun Tian Hoe and Xudong Jiang and Chee Seng Chan and Yap-Peng Tan and Weipeng Hu
Abstract要約: 本研究では,Human-Object Interaction (HOI) 情報を用いたT2I拡散モデルの条件付け問題について検討する。我々は、既存の訓練済みT2I拡散モデルを拡張する、InteractDiffusionと呼ばれるプラグイン可能な相互作用制御モデルを提案する。我々のモデルは既存のT2I拡散モデルにおける相互作用と位置を制御できる。
参考スコア（独自算出の注目度）: 43.62338454684645
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large-scale text-to-image (T2I) diffusion models have showcased incredible capabilities in generating coherent images based on textual descriptions, enabling vast applications in content generation. While recent advancements have introduced control over factors such as object localization, posture, and image contours, a crucial gap remains in our ability to control the interactions between objects in the generated content. Well-controlling interactions in generated images could yield meaningful applications, such as creating realistic scenes with interacting characters. In this work, we study the problems of conditioning T2I diffusion models with Human-Object Interaction (HOI) information, consisting of a triplet label (person, action, object) and corresponding bounding boxes. We propose a pluggable interaction control model, called InteractDiffusion that extends existing pre-trained T2I diffusion models to enable them being better conditioned on interactions. Specifically, we tokenize the HOI information and learn their relationships via interaction embeddings. A conditioning self-attention layer is trained to map HOI tokens to visual tokens, thereby conditioning the visual tokens better in existing T2I diffusion models. Our model attains the ability to control the interaction and location on existing T2I diffusion models, which outperforms existing baselines by a large margin in HOI detection score, as well as fidelity in FID and KID. Project page: https://jiuntian.github.io/interactdiffusion.
Abstract（参考訳）: 大規模テキスト・ツー・イメージ(t2i)拡散モデルは、テキスト記述に基づいてコヒーレントな画像を生成する素晴らしい能力を示しており、コンテンツ生成における広大な応用を可能にしている。近年, 物体の局所化, 姿勢, 画像の輪郭などの要因の制御が進んでいるが, 生成コンテンツ中の物体間の相互作用を制御できる重要なギャップが残っている。生成した画像内の対話をうまく制御することで、対話的なキャラクターで現実的なシーンを作るといった有意義な応用が可能になる。本研究では,三重項ラベル(人,行動,対象)と対応する境界ボックスからなる人間-対象間相互作用(hoi)情報を用いたt2i拡散モデルの条件付け問題について検討する。我々は、既存の訓練済みT2I拡散モデルを拡張して、相互作用により良い条件付けを可能にする、InteractDiffusionと呼ばれるプラグイン可能な相互作用制御モデルを提案する。具体的には、HOI情報をトークン化し、インタラクション埋め込みを通じてそれらの関係を学習する。条件付き自己アテンション層は、HOIトークンを視覚トークンにマッピングするように訓練され、既存のT2I拡散モデルにおいて視覚トークンをよりよく条件付ける。提案モデルでは,既存のT2I拡散モデルにおける相互作用と位置の制御が可能であり,HOI検出スコアの差が大きく,FIDおよびKIDの忠実度も大きく向上する。プロジェクトページ: https://jiuntian.github.io/interactdiffusion。

関連論文リスト

Generating Fine Details of Entity Interactions [17.130839907951877]
本稿では,3つの主要なシナリオをカバーする1000のきめ細かいプロンプトを持つインタラクション中心のデータセットであるInterActingを紹介する。本稿では,相互作用生成問題に対処する分解強化手法を提案する。当社のアプローチであるDetailScribeは、VLMを用いて生成した画像を批判し、拡散過程にターゲットの介入を適用する。
論文参考訳（メタデータ） (2025-04-11T17:24:58Z)
VerbDiff: Text-Only Diffusion Models with Enhanced Interaction Awareness [5.542712070598464]
VerbDiffは、インタラクションワードとオブジェクト間のバイアスを弱める新しいテキスト・画像生成モデルである。提案手法により,人間と物体の相互作用を正確に理解し,高品質な画像を生成する。
論文参考訳（メタデータ） (2025-03-20T17:56:20Z)
Consistent Human Image and Video Generation with Spatially Conditioned Diffusion [82.4097906779699]
一貫性のある人中心画像とビデオ合成は、所定の参照画像との外観整合性を維持しつつ、新しいポーズを持つ画像を生成することを目的としている。我々は,課題を空間条件付き塗装問題とみなし,対象画像をインペイントして参照との外観整合性を維持する。このアプローチにより、参照機能により、統一された認知ネットワーク内でのポーズ準拠のターゲットの生成をガイドすることができる。
論文参考訳（メタデータ） (2024-12-19T05:02:30Z)
Human-Object Interaction Detection Collaborated with Large Relation-driven Diffusion Models [65.82564074712836]
テキストと画像の拡散モデルに光を流す新しいHOI検出器であるDIFfusionHOIを紹介する。まず、埋め込み空間における人間と物体の関係パターンの表現をインバージョンベースで学習する戦略を考案する。これらの学習された関係埋め込みはテキストのプロンプトとして機能し、スタイア拡散モデルが特定の相互作用を記述する画像を生成する。
論文参考訳（メタデータ） (2024-10-26T12:00:33Z)
DreamMover: Leveraging the Prior of Diffusion Models for Image Interpolation with Large Motion [35.60459492849359]
本研究では,大きな動きを持つ画像対から中間画像を生成する問題について検討する。大きな動きのため、中間的な意味情報は入力画像に欠落する可能性がある。 3つの主要コンポーネントを持つ新しいイメージフレームワークであるDreamMoverを提案する。
論文参考訳（メタデータ） (2024-09-15T04:09:12Z)
Object-Attribute Binding in Text-to-Image Generation: Evaluation and Control [58.37323932401379]
現在の拡散モデルは、入力としてテキストプロンプトが与えられたイメージを生成するが、テキストで言及されている属性を画像の正しいオブジェクトに正しく結び付けるのに苦労する。入力文中の構文的制約により視覚的注意マップを制御できる集中的横断注意(FCA)を提案する。我々は、T2I生成の大幅な改善、特にいくつかのデータセットに対する属性オブジェクトのバインディングを示す。
論文参考訳（メタデータ） (2024-04-21T20:26:46Z)
AID: Attention Interpolation of Text-to-Image Diffusion [64.87754163416241]
AID(Attention Interpolation via Diffusion)という,トレーニング不要な手法を導入する。 AIDは補間された注意を自己注意と融合させ、忠実性を高める。また,条件に依存した生成過程として,拡散による条件誘導注意補間(AID)も提案する。
論文参考訳（メタデータ） (2024-03-26T17:57:05Z)
Beyond Inserting: Learning Identity Embedding for Semantic-Fidelity Personalized Diffusion Generation [21.739328335601716]
本稿では,パーソナライズされた生成のための安定拡散モデルに,正確でインタラクティブなIDを挿入することに焦点を当てる。顔のレイアウトや背景などのIDに依存しない情報を絡み合わせるのではなく、顔領域にフィットする顔の注意損失を提案する。その結果,従来の手法と比較して,IDの精度,テキストベースの操作能力,一般化性が向上した。
論文参考訳（メタデータ） (2024-01-31T11:52:33Z)
DragDiffusion: Harnessing Diffusion Models for Interactive Point-based Image Editing [94.24479528298252]
DragGANは、ピクセルレベルの精度で印象的な編集結果を実現する、インタラクティブなポイントベースの画像編集フレームワークである。大規模な事前学習拡散モデルを利用することで、実画像と拡散画像の両方における対話的点ベース編集の適用性を大幅に向上する。本稿では,対話的点ベース画像編集手法の性能を評価するため,DragBenchというベンチマークデータセットを提案する。
論文参考訳（メタデータ） (2023-06-26T06:04:09Z)
Harnessing the Spatial-Temporal Attention of Diffusion Models for High-Fidelity Text-to-Image Synthesis [59.10787643285506]
拡散に基づくモデルは、テキストと画像の合成タスクで最先端のパフォーマンスを達成した。これらのモデルの1つの重要な制限は、テキスト記述に関して生成された画像の忠実度が低いことである。本研究では,拡散モデルにおける空間的時間的相互アテンションを明示的に制御する新しいテキスト・ツー・イメージアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-04-07T23:49:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。