論文の概要: MIGC: Multi-Instance Generation Controller for Text-to-Image Synthesis
- arxiv url: http://arxiv.org/abs/2402.05408v1
- Date: Thu, 8 Feb 2024 04:52:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-09 16:18:00.567144
- Title: MIGC: Multi-Instance Generation Controller for Text-to-Image Synthesis
- Title(参考訳): MIGC:テキスト・画像合成のためのマルチインスタンス生成制御
- Authors: Dewei Zhou, You Li, Fan Ma, Zongxin Yang, Yi Yang
- Abstract要約: 本稿では,複数のインスタンスを同時に生成するマルチインスタンス生成(MIG)タスクを提案する。
我々は、MIGタスクの課題に対処するために、MIGC(Multi-Instance Generation Controller)という革新的なアプローチを導入する。
MIGタスクにおける生成モデルの性能を評価するため、COCO-MIGベンチマークと評価パイプラインを提供する。
- 参考スコア(独自算出の注目度): 35.96666741165949
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a Multi-Instance Generation (MIG) task, simultaneously generating
multiple instances with diverse controls in one image. Given a set of
predefined coordinates and their corresponding descriptions, the task is to
ensure that generated instances are accurately at the designated locations and
that all instances' attributes adhere to their corresponding description. This
broadens the scope of current research on Single-instance generation, elevating
it to a more versatile and practical dimension. Inspired by the idea of divide
and conquer, we introduce an innovative approach named Multi-Instance
Generation Controller (MIGC) to address the challenges of the MIG task.
Initially, we break down the MIG task into several subtasks, each involving the
shading of a single instance. To ensure precise shading for each instance, we
introduce an instance enhancement attention mechanism. Lastly, we aggregate all
the shaded instances to provide the necessary information for accurately
generating multiple instances in stable diffusion (SD). To evaluate how well
generation models perform on the MIG task, we provide a COCO-MIG benchmark
along with an evaluation pipeline. Extensive experiments were conducted on the
proposed COCO-MIG benchmark, as well as on various commonly used benchmarks.
The evaluation results illustrate the exceptional control capabilities of our
model in terms of quantity, position, attribute, and interaction.
- Abstract(参考訳): 本稿では,複数のインスタンスを同時に生成するマルチインスタンス生成(MIG)タスクを提案する。
事前に定義された座標とその対応する記述が与えられたタスクは、生成されたインスタンスが指定された場所の正確な位置にあり、すべてのインスタンスの属性が対応する記述に準拠していることを保証する。
これにより、シングルインテンス生成に関する現在の研究の範囲が拡大され、より多様で実用的な次元に拡張される。
そこで我々は,MIGタスクの課題に対処するため,MIGC(Multi-Instance Generation Controller)という革新的なアプローチを導入する。
まず、MIGタスクをいくつかのサブタスクに分割します。
各インスタンスの正確なシェーディングを確保するために,インスタンス強化注意機構を導入する。
最後に、安定拡散(SD)において複数のインスタンスを正確に生成するために必要な情報を提供するために、すべての陰影インスタンスを集約する。
MIGタスクにおける生成モデルの性能を評価するため、COCO-MIGベンチマークと評価パイプラインを提供する。
提案したCOCO-MIGベンチマークおよび様々な一般的なベンチマークで大規模な実験を行った。
評価結果は、量、位置、属性、および相互作用の観点から、我々のモデルの特別な制御能力を示す。
関連論文リスト
- MIGC++: Advanced Multi-Instance Generation Controller for Image Synthesis [33.52454028815209]
マルチインスタンス生成(MIG)タスクを導入し、単一のイメージ内で複数のインスタンスを生成することに焦点を当てる。
MIGは、インスタンス間の属性リークを避けること、多様なインスタンス記述をサポートすること、反復生成における一貫性を維持することの3つの大きな課題に直面している。
これらの手法を評価するためにCOCO-MIGとMultimodal-MIGベンチマークを導入する。
論文 参考訳(メタデータ) (2024-07-02T14:59:37Z) - Deciphering Movement: Unified Trajectory Generation Model for Multi-Agent [53.637837706712794]
任意の軌道をマスク入力として処理する統一軌道生成モデルUniTrajを提案する。
具体的には,空間特徴抽出のためのトランスフォーマーエンコーダ内に埋め込まれたゴースト空間マスキング(GSM)モジュールを導入する。
バスケットボール-U,サッカー-U,サッカー-Uの3つの実用的なスポーツゲームデータセットをベンチマークして評価を行った。
論文 参考訳(メタデータ) (2024-05-27T22:15:23Z) - M$^3$Net: Multi-view Encoding, Matching, and Fusion for Few-shot
Fine-grained Action Recognition [80.21796574234287]
M$3$Netは、FS-FGアクション認識のためのマッチングベースのフレームワークである。
textitmulti-view エンコーディング、textitmulti-view matching、textitmulti-view fusion を組み込んで、埋め込みエンコーディング、類似性マッチング、意思決定を容易にする。
説明可能な可視化と実験結果により,M$3$Netの微細な動作の詳細を捉える上での優位性が示された。
論文 参考訳(メタデータ) (2023-08-06T09:15:14Z) - Generalizable Metric Network for Cross-domain Person Re-identification [55.71632958027289]
クロスドメイン(ドメインの一般化)シーンは、Re-IDタスクにおいて課題となる。
既存のほとんどのメソッドは、すべてのドメインのドメイン不変またはロバストな機能を学ぶことを目的としています。
本稿では,サンプルペア空間における標本類似性を調べるために,GMN(Generalizable Metric Network)を提案する。
論文 参考訳(メタデータ) (2023-06-21T03:05:25Z) - PointTAD: Multi-Label Temporal Action Detection with Learnable Query
Points [28.607690605262878]
時間的アクション検出(TAD)は通常、単一のラベルから少数のアクションインスタンスを持つ未トリミングビデオを処理する。
本稿では,マルチラベル・アントリム映像からすべてのアクション・インスタンスをローカライズすることを目的とした,マルチラベル・テンポラル・アクション検出の課題に焦点をあてる。
本稿では,従来のTADからスパースクエリに基づく検出パラダイムを拡張し,PointTADのマルチラベルTADフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-20T06:08:03Z) - MulT: An End-to-End Multitask Learning Transformer [66.52419626048115]
我々はMulTと呼ばれるエンドツーエンドのマルチタスク学習トランスフォーマフレームワークを提案し、複数のハイレベル視覚タスクを同時に学習する。
本フレームワークは,入力画像を共有表現にエンコードし,タスク固有のトランスフォーマーベースのデコーダヘッドを用いて各視覚タスクの予測を行う。
論文 参考訳(メタデータ) (2022-05-17T13:03:18Z) - Diverse Instance Discovery: Vision-Transformer for Instance-Aware
Multi-Label Image Recognition [24.406654146411682]
視覚変換器 (ViT) が研究基盤である。
私たちの目標は、ViTのパッチトークンとセルフアテンションメカニズムを活用して、リッチなインスタンスをマルチラベルイメージでマイニングすることにあります。
マルチスケールな局所的特徴を抽出するために、弱教師付きオブジェクトローカライゼーションに基づくアプローチを提案する。
論文 参考訳(メタデータ) (2022-04-22T14:38:40Z) - Scalable Video Object Segmentation with Identification Mechanism [125.4229430216776]
本稿では,半教師付きビデオオブジェクト(VOS)のスケーラブルで効果的なマルチオブジェクトモデリングを実現する上での課題について検討する。
AOT(Associating Objects with Transformers)とAOST(Associating Objects with Scalable Transformers)の2つの革新的なアプローチを提案する。
当社のアプローチは最先端の競合に勝って,6つのベンチマークすべてにおいて,例外的な効率性とスケーラビリティを一貫して示しています。
論文 参考訳(メタデータ) (2022-03-22T03:33:27Z) - UniT: Unified Knowledge Transfer for Any-shot Object Detection and
Segmentation [52.487469544343305]
オブジェクト検出とセグメンテーションの方法は、トレーニングのための大規模インスタンスレベルのアノテーションに依存します。
本稿では,直感的かつ統一的な半教師付きモデルを提案する。
論文 参考訳(メタデータ) (2020-06-12T22:45:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。