論文の概要: MIGC++: Advanced Multi-Instance Generation Controller for Image Synthesis
- arxiv url: http://arxiv.org/abs/2407.02329v1
- Date: Tue, 2 Jul 2024 14:59:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-03 14:56:27.109410
- Title: MIGC++: Advanced Multi-Instance Generation Controller for Image Synthesis
- Title(参考訳): MIGC++:画像合成のための高度なマルチインスタンス生成制御
- Authors: Dewei Zhou, You Li, Fan Ma, Zongxin Yang, Yi Yang,
- Abstract要約: マルチインスタンス生成(MIG)タスクを導入し、単一のイメージ内で複数のインスタンスを生成することに焦点を当てる。
MIGは、インスタンス間の属性リークを避けること、多様なインスタンス記述をサポートすること、反復生成における一貫性を維持することの3つの大きな課題に直面している。
これらの手法を評価するためにCOCO-MIGとMultimodal-MIGベンチマークを導入する。
- 参考スコア(独自算出の注目度): 33.52454028815209
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce the Multi-Instance Generation (MIG) task, which focuses on generating multiple instances within a single image, each accurately placed at predefined positions with attributes such as category, color, and shape, strictly following user specifications. MIG faces three main challenges: avoiding attribute leakage between instances, supporting diverse instance descriptions, and maintaining consistency in iterative generation. To address attribute leakage, we propose the Multi-Instance Generation Controller (MIGC). MIGC generates multiple instances through a divide-and-conquer strategy, breaking down multi-instance shading into single-instance tasks with singular attributes, later integrated. To provide more types of instance descriptions, we developed MIGC++. MIGC++ allows attribute control through text \& images and position control through boxes \& masks. Lastly, we introduced the Consistent-MIG algorithm to enhance the iterative MIG ability of MIGC and MIGC++. This algorithm ensures consistency in unmodified regions during the addition, deletion, or modification of instances, and preserves the identity of instances when their attributes are changed. We introduce the COCO-MIG and Multimodal-MIG benchmarks to evaluate these methods. Extensive experiments on these benchmarks, along with the COCO-Position benchmark and DrawBench, demonstrate that our methods substantially outperform existing techniques, maintaining precise control over aspects including position, attribute, and quantity. Project page: https://github.com/limuloo/MIGC.
- Abstract(参考訳): マルチインスタンス生成(MIG)タスクを導入し、単一のイメージ内で複数のインスタンスを生成することに焦点を当て、それぞれがカテゴリ、色、形状などの属性を予め定義された位置に正確に配置され、厳密にユーザ仕様に従う。
MIGは、インスタンス間の属性リークを避けること、多様なインスタンス記述をサポートすること、反復生成における一貫性を維持することの3つの大きな課題に直面している。
属性リークに対処するため,MIGC(Multi-Instance Generation Controller)を提案する。
MIGCはパーティション・アンド・コンカ戦略を通じて複数のインスタンスを生成し、マルチインスタンスシェーディングを特異属性を持つ単一インスタンスタスクに分割し、後に統合する。
より多くのタイプのインスタンス記述を提供するため、MIGC++を開発した。
MIGC++はテキスト \&イメージによる属性制御とボックス \&マスクによる位置制御を可能にする。
最後に,MIGCとMIGC++の反復MIG能力を向上するConsistent-MIGアルゴリズムを導入した。
このアルゴリズムは、インスタンスの追加、削除、修正の間、未修正領域の一貫性を保証する。
これらの手法を評価するためにCOCO-MIGとMultimodal-MIGベンチマークを導入する。
提案手法はCOCO-PositionベンチマークやDrawBenchとともに,従来の手法よりもはるかに優れており,位置,属性,量といった側面の精密な制御を維持していることを示す。
プロジェクトページ:https://github.com/limuloo/MIGC。
関連論文リスト
- One Arrow, Many Targets: Probing LLMs for Multi-Attribute Controllable Text Summarization [7.734726150561089]
Multi-Attribute Controllable Summarization (MACS)は、自然言語処理(NLP)コミュニティの中で確立されたタスクである。
本研究は,大規模言語モデルのレンズを通してMACSタスクを調べることで,そのギャップに対処する。
2つの異なる制御可能な属性からの学習を統合するために,新しい階層型アダプタ融合手法を提案し,評価する。
論文 参考訳(メタデータ) (2024-11-02T11:07:25Z) - Bring Adaptive Binding Prototypes to Generalized Referring Expression Segmentation [18.806738617249426]
Generalized Referring Expressionは、複数のオブジェクトを記述したり、特定のオブジェクト参照を欠いたりすることで、新しい課題を導入する。
既存のRESメソッドは通常、洗練されたエンコーダデコーダと機能融合モジュールに依存している。
本稿では,適応結合型モデル (MABP) を提案する。
論文 参考訳(メタデータ) (2024-05-24T03:07:38Z) - MIGC: Multi-Instance Generation Controller for Text-to-Image Synthesis [22.27724733876081]
本稿では,複数のインスタンスを同時に生成するマルチインスタンス生成(MIG)タスクを提案する。
我々は、MIGタスクの課題に対処するために、MIGC(Multi-Instance Generation Controller)という革新的なアプローチを導入する。
MIGタスクにおける生成モデルの性能を評価するため、COCO-MIGベンチマークと評価パイプラインを提供する。
論文 参考訳(メタデータ) (2024-02-08T04:52:36Z) - GSVA: Generalized Segmentation via Multimodal Large Language Models [72.57095903188922]
Generalized Referring Expression (GRES)は、従来のRESの範囲を拡張して、1つの式で複数のオブジェクトを参照したり、画像に存在しない空のターゲットを特定する。
セグメンテーションMLLMは、ユーザが特定のプロンプトで複数の主題を参照するケースを正しく扱えないため、現在のGRESの解決策は満足できないままである。
本稿では,このギャップに対処する汎用ビジョンアシスタント(GSVA)を提案する。
論文 参考訳(メタデータ) (2023-12-15T02:54:31Z) - M$^3$Net: Multi-view Encoding, Matching, and Fusion for Few-shot
Fine-grained Action Recognition [80.21796574234287]
M$3$Netは、FS-FGアクション認識のためのマッチングベースのフレームワークである。
textitmulti-view エンコーディング、textitmulti-view matching、textitmulti-view fusion を組み込んで、埋め込みエンコーディング、類似性マッチング、意思決定を容易にする。
説明可能な可視化と実験結果により,M$3$Netの微細な動作の詳細を捉える上での優位性が示された。
論文 参考訳(メタデータ) (2023-08-06T09:15:14Z) - HyRSM++: Hybrid Relation Guided Temporal Set Matching for Few-shot
Action Recognition [51.2715005161475]
そこで本研究では,数発のアクション認識のための時間的マッチング手法として,ハイブリッドリレーションド・テンポラル・セット・マッチングを提案する。
HyRSM++の中核となる考え方は、すべてのビデオをタスクに統合して差別的な表現を学ぶことである。
提案手法は,様々な撮影条件下での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-01-09T13:32:50Z) - Robust Domain Adaptive Object Detection with Unified Multi-Granularity Alignment [59.831917206058435]
ドメイン適応検出は、ターゲットドメイン上の検出器の一般化を改善することを目的としている。
近年のアプローチは、異なる粒度の特徴アライメントを通じて、逆学習を通じてドメイン適応を実現する。
ドメイン不変な特徴学習のための統合多重粒度アライメント(MGA)に基づく検出フレームワークを提案する。
論文 参考訳(メタデータ) (2023-01-01T08:38:07Z) - A Distributional Lens for Multi-Aspect Controllable Text Generation [17.97374410245602]
マルチアスペクト制御可能なテキスト生成は、単一アスペクト制御よりも困難で実用的なタスクである。
既存手法は, 単一アスペクトから学習した複数のコントローラを融合することにより, 複雑なマルチアスペクト制御を実現する。
本稿では,複数属性分布の交点領域を直接探索して生成する手法を提案する。
論文 参考訳(メタデータ) (2022-10-06T13:08:04Z) - SOIT: Segmenting Objects with Instance-Aware Transformers [16.234574932216855]
本稿では,SOIT(Segments Objects with Instance-aware Transformer)と呼ばれるエンドツーエンドのインスタンスセグメンテーションフレームワークを提案する。
提案手法では,インスタンスのセグメンテーションを直接セット予測問題とみなし,多数の手作り部品の必要性を効果的に除去する。
MS COCOデータセットの実験結果は、SOITが最先端のインスタンスセグメンテーションアプローチを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2021-12-21T08:23:22Z) - PointINS: Point-based Instance Segmentation [117.38579097923052]
POI(Point-of-Interest)機能によるインスタンスセグメンテーションにおけるマスク表現は、各インスタンスの高次元マスク機能を学ぶには、計算負荷が重いため、難しい。
本稿では、このマスク表現学習タスクを2つの抽出可能なモジュールに分解するインスタンス認識畳み込みを提案する。
インスタンス認識の畳み込みとともに、単純で実用的なインスタンスセグメンテーションアプローチであるPointINSを提案する。
論文 参考訳(メタデータ) (2020-03-13T08:24:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。