論文の概要: CEIDM: A Controlled Entity and Interaction Diffusion Model for Enhanced Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2508.17760v1
- Date: Mon, 25 Aug 2025 07:58:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.682168
- Title: CEIDM: A Controlled Entity and Interaction Diffusion Model for Enhanced Text-to-Image Generation
- Title(参考訳): CEIDM:テキスト対画像生成のための制御されたエンティティとインタラクション拡散モデル
- Authors: Mingyue Yang, Dianxi Shi, Jialu Zhou, Xinyu Wei, Leqian Li, Shaowu Yang, Chunping Qiu,
- Abstract要約: テキスト・ツー・イメージ(T2I)生成では、エンティティとその複雑な相互作用の複雑さが大きな課題となる。
本稿では,エンティティとインタラクションの二重制御による拡散モデルに基づく画像生成手法CEIDMを提案する。
実験により、CEIDM法は、エンティティ制御とインタラクション制御の両方において、最も代表的な方法よりも優れていることが示された。
- 参考スコア(独自算出の注目度): 11.838706306867373
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In Text-to-Image (T2I) generation, the complexity of entities and their intricate interactions pose a significant challenge for T2I method based on diffusion model: how to effectively control entity and their interactions to produce high-quality images. To address this, we propose CEIDM, a image generation method based on diffusion model with dual controls for entity and interaction. First, we propose an entity interactive relationships mining approach based on Large Language Models (LLMs), extracting reasonable and rich implicit interactive relationships through chain of thought to guide diffusion models to generate high-quality images that are closer to realistic logic and have more reasonable interactive relationships. Furthermore, We propose an interactive action clustering and offset method to cluster and offset the interactive action features contained in each text prompts. By constructing global and local bidirectional offsets, we enhance semantic understanding and detail supplementation of original actions, making the model's understanding of the concept of interactive "actions" more accurate and generating images with more accurate interactive actions. Finally, we design an entity control network which generates masks with entity semantic guidance, then leveraging multi-scale convolutional network to enhance entity feature and dynamic network to fuse feature. It effectively controls entities and significantly improves image quality. Experiments show that the proposed CEIDM method is better than the most representative existing methods in both entity control and their interaction control.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)生成において、エンティティとその複雑な相互作用の複雑さは、拡散モデルに基づくT2I法において重要な課題となる。
そこで本稿では,エンティティとインタラクションの二重制御による拡散モデルに基づく画像生成手法であるCEIDMを提案する。
まず,Large Language Models (LLMs) に基づく実体的相互関係のマイニング手法を提案する。
さらに,テキストプロンプトに含まれる対話型アクション特徴をクラスタリングし,オフセットする対話型アクションクラスタリングとオフセット手法を提案する。
グローバルな双方向オフセットとローカルなオフセットを構築することにより、元のアクションのセマンティック理解と詳細補完を強化し、インタラクティブな"アクション"の概念をより正確に理解し、より正確なインタラクティブなアクションを持つ画像を生成する。
最後に、エンティティ・セマンティック・ガイダンスを用いたマスクを生成するエンティティ・コントロール・ネットワークを設計し、その後、マルチスケールの畳み込みネットワークを活用してエンティティ・フィーチャと動的ネットワークを融合する。
実体を効果的に制御し、画質を大幅に改善する。
実験により、CEIDM法は、エンティティ制御とインタラクション制御の両方において、最も代表的な方法よりも優れていることが示された。
関連論文リスト
- Generating Fine Details of Entity Interactions [17.130839907951877]
本稿では,3つの主要なシナリオをカバーする1000のきめ細かいプロンプトを持つインタラクション中心のデータセットであるInterActingを紹介する。
本稿では,相互作用生成問題に対処する分解強化手法を提案する。
当社のアプローチであるDetailScribeは、VLMを用いて生成した画像を批判し、拡散過程にターゲットの介入を適用する。
論文 参考訳(メタデータ) (2025-04-11T17:24:58Z) - A Plug-and-Play Method for Rare Human-Object Interactions Detection by Bridging Domain Gap [50.079224604394]
textbfContext-textbfEnhanced textbfFeature textbfAment (CEFA) と呼ばれる新しいモデルに依存しないフレームワークを提案する。
CEFAは機能アライメントモジュールとコンテキスト拡張モジュールで構成される。
本手法は, 稀なカテゴリにおけるHOIモデルの検出性能を向上させるために, プラグアンドプレイモジュールとして機能する。
論文 参考訳(メタデータ) (2024-07-31T08:42:48Z) - InteractDiffusion: Interaction Control in Text-to-Image Diffusion Models [43.62338454684645]
本研究では,Human-Object Interaction (HOI) 情報を用いたT2I拡散モデルの条件付け問題について検討する。
我々は、既存の訓練済みT2I拡散モデルを拡張する、InteractDiffusionと呼ばれるプラグイン可能な相互作用制御モデルを提案する。
我々のモデルは既存のT2I拡散モデルにおける相互作用と位置を制御できる。
論文 参考訳(メタデータ) (2023-12-10T10:35:16Z) - DragDiffusion: Harnessing Diffusion Models for Interactive Point-based Image Editing [94.24479528298252]
DragGANは、ピクセルレベルの精度で印象的な編集結果を実現する、インタラクティブなポイントベースの画像編集フレームワークである。
大規模な事前学習拡散モデルを利用することで、実画像と拡散画像の両方における対話的点ベース編集の適用性を大幅に向上する。
本稿では,対話的点ベース画像編集手法の性能を評価するため,DragBenchというベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2023-06-26T06:04:09Z) - CoADNet: Collaborative Aggregation-and-Distribution Networks for
Co-Salient Object Detection [91.91911418421086]
Co-Salient Object Detection (CoSOD)は、2つ以上の関連する画像を含む所定のクエリグループに繰り返し現れる健全なオブジェクトを発見することを目的としている。
課題の1つは、画像間の関係をモデリングし、活用することによって、コ・サリヤ・キューを効果的にキャプチャする方法である。
我々は,複数画像から有能かつ反復的な視覚パターンを捉えるために,エンドツーエンドの協調集約配信ネットワーク(CoADNet)を提案する。
論文 参考訳(メタデータ) (2020-11-10T04:28:11Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。