論文の概要: ROICtrl: Boosting Instance Control for Visual Generation
- arxiv url: http://arxiv.org/abs/2411.17949v1
- Date: Wed, 27 Nov 2024 00:10:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 15:26:53.873295
- Title: ROICtrl: Boosting Instance Control for Visual Generation
- Title(参考訳): ROICtrl: ビジュアルジェネレーションのためのインスタンス制御の強化
- Authors: Yuchao Gu, Yipin Zhou, Yunfan Ye, Yixin Nie, Licheng Yu, Pingchuan Ma, Kevin Qinghong Lin, Mike Zheng Shou,
- Abstract要約: 本稿では,各インスタンスを自由形式のキャプションと組み合わせたバウンディングボックスで管理する地域インスタンス制御を紹介する。
オブジェクト検出においてROI-Alignにインスパイアされ、ROI-Unpoolと呼ばれる補完演算を導入する。
ROI-Unpool 上に構築した ROICtrl は,事前訓練した拡散モデルのアダプタであり,正確な地域インスタンス制御を可能にする。
- 参考スコア(独自算出の注目度): 35.37147527130338
- License:
- Abstract: Natural language often struggles to accurately associate positional and attribute information with multiple instances, which limits current text-based visual generation models to simpler compositions featuring only a few dominant instances. To address this limitation, this work enhances diffusion models by introducing regional instance control, where each instance is governed by a bounding box paired with a free-form caption. Previous methods in this area typically rely on implicit position encoding or explicit attention masks to separate regions of interest (ROIs), resulting in either inaccurate coordinate injection or large computational overhead. Inspired by ROI-Align in object detection, we introduce a complementary operation called ROI-Unpool. Together, ROI-Align and ROI-Unpool enable explicit, efficient, and accurate ROI manipulation on high-resolution feature maps for visual generation. Building on ROI-Unpool, we propose ROICtrl, an adapter for pretrained diffusion models that enables precise regional instance control. ROICtrl is compatible with community-finetuned diffusion models, as well as with existing spatial-based add-ons (\eg, ControlNet, T2I-Adapter) and embedding-based add-ons (\eg, IP-Adapter, ED-LoRA), extending their applications to multi-instance generation. Experiments show that ROICtrl achieves superior performance in regional instance control while significantly reducing computational costs.
- Abstract(参考訳): 自然言語はしばしば、位置情報と属性情報を正確に複数のインスタンスに関連付けるのに苦労する。
この制限に対処するため、この研究は、各インスタンスを自由形式のキャプションと組み合わせたバウンディングボックスで管理する地域インスタンス制御を導入することにより、拡散モデルを強化する。
この領域の以前の手法は、通常、暗黙的な位置エンコーディングまたは明示的な注意マスクを別々の関心領域(ROI)に頼り、不正確な座標注入または大きな計算オーバーヘッドをもたらす。
オブジェクト検出においてROI-Alignにインスパイアされ、ROI-Unpoolと呼ばれる補完演算を導入する。
ROI-Align と ROI-Unpool は共に、視覚生成のための高解像度の特徴マップ上で、明示的で効率的で正確なROI操作を可能にする。
ROI-Unpool 上に構築した ROICtrl は,事前訓練した拡散モデルのアダプタであり,正確な地域インスタンス制御を可能にする。
ROICtrlは、既存の空間ベースのアドオン(\eg, ControlNet, T2I-Adapter)や埋め込みベースのアドオン(\eg, IP-Adapter, ED-LoRA)と互換性があり、アプリケーションをマルチインスタンス生成に拡張している。
実験により、ROICtrlは、計算コストを大幅に削減しつつ、地域インスタンス制御において優れた性能を発揮することが示された。
関連論文リスト
- ELGC-Net: Efficient Local-Global Context Aggregation for Remote Sensing Change Detection [65.59969454655996]
本稿では,変化領域を正確に推定するために,リッチな文脈情報を利用する効率的な変化検出フレームワークELGC-Netを提案する。
提案するELGC-Netは、リモートセンシング変更検出ベンチマークにおいて、最先端の性能を新たに設定する。
また,ELGC-Net-LWも導入した。
論文 参考訳(メタデータ) (2024-03-26T17:46:25Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - SSMG: Spatial-Semantic Map Guided Diffusion Model for Free-form
Layout-to-Image Generation [68.42476385214785]
本稿では,レイアウトから派生した特徴写像を用いた空間意味マップガイド(SSMG)拡散モデルを提案する。
SSMGは,従来の研究に比べて空間的,意味的な制御性に優れた生成品質を実現する。
また,RSA(Relation-Sensitive Attention)機構とLSA(Location-Sensitive Attention)機構を提案する。
論文 参考訳(メタデータ) (2023-08-20T04:09:12Z) - Plug-and-Play Regulators for Image-Text Matching [76.28522712930668]
微細な対応と視覚的セマンティックなアライメントの爆発は、画像とテキストのマッチングにおいて大きな可能性を秘めている。
我々は、メッセージ出力を効率的にエンコードして、コンテキストを自動生成し、モーダル表現を集約する、シンプルだが非常に効果的な2つのレギュレータを開発した。
MSCOCOとFlickr30Kデータセットの実験は、複数のモデルで印象的で一貫したR@1ゲインをもたらすことができることを実証している。
論文 参考訳(メタデータ) (2023-03-23T15:42:05Z) - Towards Lightweight Cross-domain Sequential Recommendation via External
Attention-enhanced Graph Convolution Network [7.1102362215550725]
クロスドメインシークエンシャルレコメンデーション(CSR)は、複数のドメインからのインタラクションをモデル化することで、重複したユーザの振る舞いパターンの進化を描いている。
上記の課題,すなわちLEA-GCNを解決するために,軽量な外部注意強化GCNベースのフレームワークを導入する。
フレームワークの構造をさらに緩和し、ユーザ固有のシーケンシャルパターンを集約するために、新しい二重チャネル外部注意(EA)コンポーネントを考案する。
論文 参考訳(メタデータ) (2023-02-07T03:06:29Z) - Remote Sensing Cross-Modal Text-Image Retrieval Based on Global and
Local Information [15.32353270625554]
リモートセンシング(RS)画像の高速かつ柔軟な情報抽出を可能にするため,クロスモーダルリモートセンシングテキスト画像検索(RSCTIR)は近年,緊急な研究ホットスポットとなっている。
まず,グローバル・ローカル情報(GaLR)に基づく新しいRSCTIRフレームワークを提案し,多レベル情報ダイナミックフュージョン(MIDF)モジュールを設計し,異なるレベルの機能を効果的に統合する。
公開データセットの実験は、RSCTIRタスク上でのGaLR法の最先端性能を強く実証している。
論文 参考訳(メタデータ) (2022-04-21T03:18:09Z) - Learning to Aggregate Multi-Scale Context for Instance Segmentation in
Remote Sensing Images [28.560068780733342]
特徴抽出のプロセスを改善するために,新しいコンテキスト集約ネットワーク(CATNet)を提案する。
提案モデルは,高密度特徴ピラミッドネットワーク(DenseFPN),空間コンテキストピラミッド(SCP),階層的関心抽出器(HRoIE)の3つの軽量プラグアンドプレイモジュールを利用する。
論文 参考訳(メタデータ) (2021-11-22T08:55:25Z) - Communication Topology Co-Design in Graph Recurrent Neural Network Based
Distributed Control [4.492630871726495]
分散コントローラのコンパクトかつ表現力のあるグラフ繰り返しニューラルネットワーク(GRNN)パラメータ化について紹介する。
提案されたパラメータ化は,従来のGNN(Graph Neural Network)ベースのパラメータ化に類似した,ローカルおよび分散アーキテクチャである。
本研究では,性能/通信密度のトレードオフ曲線を効率よく近似できることを示す。
論文 参考訳(メタデータ) (2021-04-28T16:30:02Z) - MOGAN: Morphologic-structure-aware Generative Learning from a Single
Image [59.59698650663925]
近年,1つの画像のみに基づく生成モデルによる完全学習が提案されている。
多様な外観のランダムなサンプルを生成するMOGANというMOrphologic-structure-aware Generative Adversarial Networkを紹介します。
合理的な構造の維持や外観の変化など、内部機能に重点を置いています。
論文 参考訳(メタデータ) (2021-03-04T12:45:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。