Fugu-MT 論文翻訳(概要): MIGC: Multi-Instance Generation Controller for Text-to-Image Synthesis

論文の概要: MIGC: Multi-Instance Generation Controller for Text-to-Image Synthesis

arxiv url: http://arxiv.org/abs/2402.05408v2
Date: Tue, 27 Feb 2024 08:04:11 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-28 21:09:59.551571
Title: MIGC: Multi-Instance Generation Controller for Text-to-Image Synthesis
Title（参考訳）: MIGC:テキスト・画像合成のためのマルチインスタンス生成制御
Authors: Dewei Zhou, You Li, Fan Ma, Xiaoting Zhang, Yi Yang
Abstract要約: 本稿では,複数のインスタンスを同時に生成するマルチインスタンス生成(MIG)タスクを提案する。我々は、MIGタスクの課題に対処するために、MIGC(Multi-Instance Generation Controller)という革新的なアプローチを導入する。 MIGタスクにおける生成モデルの性能を評価するため、COCO-MIGベンチマークと評価パイプラインを提供する。
参考スコア（独自算出の注目度）: 22.27724733876081
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present a Multi-Instance Generation (MIG) task, simultaneously generating multiple instances with diverse controls in one image. Given a set of predefined coordinates and their corresponding descriptions, the task is to ensure that generated instances are accurately at the designated locations and that all instances' attributes adhere to their corresponding description. This broadens the scope of current research on Single-instance generation, elevating it to a more versatile and practical dimension. Inspired by the idea of divide and conquer, we introduce an innovative approach named Multi-Instance Generation Controller (MIGC) to address the challenges of the MIG task. Initially, we break down the MIG task into several subtasks, each involving the shading of a single instance. To ensure precise shading for each instance, we introduce an instance enhancement attention mechanism. Lastly, we aggregate all the shaded instances to provide the necessary information for accurately generating multiple instances in stable diffusion (SD). To evaluate how well generation models perform on the MIG task, we provide a COCO-MIG benchmark along with an evaluation pipeline. Extensive experiments were conducted on the proposed COCO-MIG benchmark, as well as on various commonly used benchmarks. The evaluation results illustrate the exceptional control capabilities of our model in terms of quantity, position, attribute, and interaction. Code and demos will be released at https://migcproject.github.io/.
Abstract（参考訳）: 本稿では,複数のインスタンスを同時に生成するマルチインスタンス生成(MIG)タスクを提案する。事前に定義された座標とその対応する記述が与えられたタスクは、生成されたインスタンスが指定された場所の正確な位置にあり、すべてのインスタンスの属性が対応する記述に準拠していることを保証する。これにより、シングルインテンス生成に関する現在の研究の範囲が拡大され、より多様で実用的な次元に拡張される。そこで我々は,MIGタスクの課題に対処するため,MIGC(Multi-Instance Generation Controller)という革新的なアプローチを導入する。まず、MIGタスクをいくつかのサブタスクに分割します。各インスタンスの正確なシェーディングを確保するために,インスタンス強化注意機構を導入する。最後に、安定拡散(SD)において複数のインスタンスを正確に生成するために必要な情報を提供するために、すべての陰影インスタンスを集約する。 MIGタスクにおける生成モデルの性能を評価するため、COCO-MIGベンチマークと評価パイプラインを提供する。提案したCOCO-MIGベンチマークおよび様々な一般的なベンチマークで大規模な実験を行った。評価結果は、量、位置、属性、および相互作用の観点から、我々のモデルの特別な制御能力を示す。コードとデモはhttps://migcproject.github.io/で公開される。

関連論文リスト

OmniGenBench: A Benchmark for Omnipotent Multimodal Generation across 50+ Tasks [77.19223035769248]
大規模マルチモーダルモデル(LMM)の最近のブレークスルーは、画像生成のための汎用的な指示に従うのに顕著な熟練性を示している。 OmniGenBenchは、最先端のLMMの指示追従能力を評価するために、精密に設計された新しいベンチマークである。我々のOmniGenBenchには57の多様なサブタスクが含まれており、それらが要求する特定のモデル能力に応じて体系的に分類されている。
論文参考訳（メタデータ） (2025-05-24T16:29:34Z)
IDMR: Towards Instance-Driven Precise Visual Correspondence in Multimodal Retrieval [29.05476868272228]
インスタンス駆動型マルチモーダル画像検索(IDMR)は、テキスト記述シナリオにマッチしながら、クエリイメージと同じインスタンスを含む画像を取得するモデルを必要とする、新しいタスクである。この能力をベンチマークするために,実世界の物体追跡と一対一のビデオデータを用いたIDMRベンチを開発した。我々のMultimodal Large Language Model(MLLM)に基づく検索モデルは、1.2Mサンプルに基づいて訓練され、従来のベンチマークとゼロショットIDMRベンチの両方で最先端のアプローチより優れている。
論文参考訳（メタデータ） (2025-04-01T16:47:20Z)
MMO-IG: Multi-Class and Multi-Scale Object Image Generation for Remote Sensing [12.491684385808902]
MMO-IGは、グローバルな面とローカルな面から、教師付きオブジェクトラベルでRS画像を生成するように設計されている。 MMO間の複雑な相互依存性を考慮すると、空間的相互依存知識グラフを構築する。 MMO-IGは、高密度なMMO教師付きラベルを持つRS画像に対して優れた生成能力を示す。
論文参考訳（メタデータ） (2024-12-18T10:19:12Z)
MIGC++: Advanced Multi-Instance Generation Controller for Image Synthesis [33.52454028815209]
マルチインスタンス生成(MIG)タスクを導入し、単一のイメージ内で複数のインスタンスを生成することに焦点を当てる。 MIGは、インスタンス間の属性リークを避けること、多様なインスタンス記述をサポートすること、反復生成における一貫性を維持することの3つの大きな課題に直面している。これらの手法を評価するためにCOCO-MIGとMultimodal-MIGベンチマークを導入する。
論文参考訳（メタデータ） (2024-07-02T14:59:37Z)
Deciphering Movement: Unified Trajectory Generation Model for Multi-Agent [53.637837706712794]
任意の軌道をマスク入力として処理する統一軌道生成モデルUniTrajを提案する。具体的には,空間特徴抽出のためのトランスフォーマーエンコーダ内に埋め込まれたゴースト空間マスキング(GSM)モジュールを導入する。バスケットボール-U,サッカー-U,サッカー-Uの3つの実用的なスポーツゲームデータセットをベンチマークして評価を行った。
論文参考訳（メタデータ） (2024-05-27T22:15:23Z)
RMP-SAM: Towards Real-Time Multi-Purpose Segment Anything [117.02741621686677]
この研究はリアルタイム多目的セグメンテーションと呼ばれる新しいリアルタイムセグメンテーション設定を探索する。インタラクティブセグメンテーション、パノスコープセグメンテーション、ビデオインスタンスセグメンテーションの3つの基本的なサブタスクを含んでいる。動的畳み込みに基づく新しい動的畳み込み手法であるReal-Time Multi-Purpose SAM(RMP-SAM)を提案する。効率的なエンコーダと、プロンプト駆動のデコードを実行するための効率的なデカップリングアダプタを含む。
論文参考訳（メタデータ） (2024-01-18T18:59:30Z)
M$^3$Net: Multi-view Encoding, Matching, and Fusion for Few-shot Fine-grained Action Recognition [80.21796574234287]
M$3$Netは、FS-FGアクション認識のためのマッチングベースのフレームワークである。 textitmulti-view エンコーディング、textitmulti-view matching、textitmulti-view fusion を組み込んで、埋め込みエンコーディング、類似性マッチング、意思決定を容易にする。説明可能な可視化と実験結果により,M$3$Netの微細な動作の詳細を捉える上での優位性が示された。
論文参考訳（メタデータ） (2023-08-06T09:15:14Z)
Generalizable Metric Network for Cross-domain Person Re-identification [55.71632958027289]
クロスドメイン(ドメインの一般化)シーンは、Re-IDタスクにおいて課題となる。既存のほとんどのメソッドは、すべてのドメインのドメイン不変またはロバストな機能を学ぶことを目的としています。本稿では,サンプルペア空間における標本類似性を調べるために,GMN(Generalizable Metric Network)を提案する。
論文参考訳（メタデータ） (2023-06-21T03:05:25Z)
PointTAD: Multi-Label Temporal Action Detection with Learnable Query Points [28.607690605262878]
時間的アクション検出(TAD)は通常、単一のラベルから少数のアクションインスタンスを持つ未トリミングビデオを処理する。本稿では,マルチラベル・アントリム映像からすべてのアクション・インスタンスをローカライズすることを目的とした,マルチラベル・テンポラル・アクション検出の課題に焦点をあてる。本稿では,従来のTADからスパースクエリに基づく検出パラダイムを拡張し,PointTADのマルチラベルTADフレームワークを提案する。
論文参考訳（メタデータ） (2022-10-20T06:08:03Z)
MulT: An End-to-End Multitask Learning Transformer [66.52419626048115]
我々はMulTと呼ばれるエンドツーエンドのマルチタスク学習トランスフォーマフレームワークを提案し、複数のハイレベル視覚タスクを同時に学習する。本フレームワークは,入力画像を共有表現にエンコードし,タスク固有のトランスフォーマーベースのデコーダヘッドを用いて各視覚タスクの予測を行う。
論文参考訳（メタデータ） (2022-05-17T13:03:18Z)
Diverse Instance Discovery: Vision-Transformer for Instance-Aware Multi-Label Image Recognition [24.406654146411682]
視覚変換器 (ViT) が研究基盤である。私たちの目標は、ViTのパッチトークンとセルフアテンションメカニズムを活用して、リッチなインスタンスをマルチラベルイメージでマイニングすることにあります。マルチスケールな局所的特徴を抽出するために、弱教師付きオブジェクトローカライゼーションに基づくアプローチを提案する。
論文参考訳（メタデータ） (2022-04-22T14:38:40Z)
Scalable Video Object Segmentation with Identification Mechanism [125.4229430216776]
本稿では,半教師付きビデオオブジェクト(VOS)のスケーラブルで効果的なマルチオブジェクトモデリングを実現する上での課題について検討する。 AOT(Associating Objects with Transformers)とAOST(Associating Objects with Scalable Transformers)の2つの革新的なアプローチを提案する。当社のアプローチは最先端の競合に勝って,6つのベンチマークすべてにおいて,例外的な効率性とスケーラビリティを一貫して示しています。
論文参考訳（メタデータ） (2022-03-22T03:33:27Z)
UniT: Unified Knowledge Transfer for Any-shot Object Detection and Segmentation [52.487469544343305]
オブジェクト検出とセグメンテーションの方法は、トレーニングのための大規模インスタンスレベルのアノテーションに依存します。本稿では,直感的かつ統一的な半教師付きモデルを提案する。
論文参考訳（メタデータ） (2020-06-12T22:45:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。