論文の概要: IFAdapter: Instance Feature Control for Grounded Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2409.08240v3
- Date: Wed, 6 Nov 2024 13:03:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 21:20:36.336622
- Title: IFAdapter: Instance Feature Control for Grounded Text-to-Image Generation
- Title(参考訳): IFAdapter: 接地テキスト・画像生成のためのインスタンス特徴制御
- Authors: Yinwei Wu, Xianpan Zhou, Bing Ma, Xuefeng Su, Kai Ma, Xinchao Wang,
- Abstract要約: 生成したインスタンスの位置精度と特徴の忠実度を両立させるために, インスタンス特徴生成(IFG)タスクを提案する。
IFGタスクに対処するために、インスタンス・フィーチャー・アダプタ(IFAdapter)を導入します。
IFAdapterは、追加の外観トークンを導入し、インスタンスレベルの機能を空間的位置と整列するためにインスタンスセマンティックマップを活用することで、機能描写を強化する。
- 参考スコア(独自算出の注目度): 44.61981029052187
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Text-to-Image (T2I) diffusion models excel at generating visually appealing images of individual instances, they struggle to accurately position and control the features generation of multiple instances. The Layout-to-Image (L2I) task was introduced to address the positioning challenges by incorporating bounding boxes as spatial control signals, but it still falls short in generating precise instance features. In response, we propose the Instance Feature Generation (IFG) task, which aims to ensure both positional accuracy and feature fidelity in generated instances. To address the IFG task, we introduce the Instance Feature Adapter (IFAdapter). The IFAdapter enhances feature depiction by incorporating additional appearance tokens and utilizing an Instance Semantic Map to align instance-level features with spatial locations. The IFAdapter guides the diffusion process as a plug-and-play module, making it adaptable to various community models. For evaluation, we contribute an IFG benchmark and develop a verification pipeline to objectively compare models' abilities to generate instances with accurate positioning and features. Experimental results demonstrate that IFAdapter outperforms other models in both quantitative and qualitative evaluations.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)拡散モデルは個々のインスタンスの視覚的に魅力的な画像を生成するのに優れていますが、複数のインスタンスの特徴の生成を正確に位置決めし制御するのに苦労しています。
Layout-to-Image(L2I)タスクは、境界ボックスを空間制御信号として組み込むことによって位置決めの問題に対処するために導入された。
そこで本研究では,生成インスタンスにおける位置精度と特徴の忠実度を両立することを目的としたIFGタスクを提案する。
IFGタスクに対処するために、インスタンス・フィーチャー・アダプタ(IFAdapter)を導入します。
IFAdapterは、追加の外観トークンを導入し、インスタンスレベルの機能を空間的位置と整列するためにインスタンスセマンティックマップを活用することで、機能描写を強化する。
IFAdapterは、拡散プロセスをプラグアンドプレイモジュールとしてガイドし、様々なコミュニティモデルに適応できるようにする。
評価のために、IFGベンチマークにコントリビュートし、正確な位置決めと特徴を持つインスタンスを生成するためのモデルの能力を客観的に比較する検証パイプラインを開発する。
実験の結果,IFAdapterは定量評価と定性評価の両方において,他のモデルよりも優れていた。
関連論文リスト
- LocRef-Diffusion:Tuning-Free Layout and Appearance-Guided Generation [17.169772329737913]
LocRef-Diffusionは、画像内の複数のインスタンスの外観と位置をカスタマイズできるチューニング不要のモデルである。
インスタンス配置の精度を高めるために,インスタンス生成位置を制御するレイアウトネットを導入する。
参照画像に対する外観忠実度を改善するために,インスタンスの外観特徴を抽出する外観ネットを用いる。
論文 参考訳(メタデータ) (2024-11-22T08:44:39Z) - RADA: Robust and Accurate Feature Learning with Domain Adaptation [7.905594146253435]
本稿では、2つの重要な要素を組み込んだ多層機能集約ネットワークを導入し、堅牢で正確な特徴の学習を容易にする。
提案手法は,画像マッチング,カメラポーズ推定,視覚的ローカライゼーションタスクにおいて優れた結果が得られる。
論文 参考訳(メタデータ) (2024-07-22T16:49:58Z) - FilterPrompt: Guiding Image Transfer in Diffusion Models [9.386850486378382]
FilterPromptは、モデル制御効果を強化するアプローチである。
任意の拡散モデルに普遍的に適用することができ、ユーザーは特定の画像の特徴の表現を調整できる。
論文 参考訳(メタデータ) (2024-04-20T04:17:34Z) - DAMSDet: Dynamic Adaptive Multispectral Detection Transformer with
Competitive Query Selection and Adaptive Feature Fusion [82.2425759608975]
赤外可視物体検出は、赤外画像と可視画像の相補的情報を融合することにより、フルデイ物体検出の堅牢化を目指している。
本稿では,この2つの課題に対処する動的適応型マルチスペクトル検出変換器(DAMSDet)を提案する。
4つの公開データセットの実験は、他の最先端の手法と比較して大幅に改善されている。
論文 参考訳(メタデータ) (2024-03-01T07:03:27Z) - Adaptive Spot-Guided Transformer for Consistent Local Feature Matching [64.30749838423922]
局所的特徴マッチングのための適応スポットガイド変換器(ASTR)を提案する。
ASTRは、統一された粗いアーキテクチャにおける局所的な一貫性とスケールのバリエーションをモデル化する。
論文 参考訳(メタデータ) (2023-03-29T12:28:01Z) - Task-wise Sampling Convolutions for Arbitrary-Oriented Object Detection in Aerial Images [24.544567783734337]
Arbitrary-oriented Object Detection (AOOD) は、リモートセンシング画像において、様々な方向のオブジェクトを発見・分類するために広く応用されている。
本稿では,タスクワイドサンプリング畳み込み(TS-Conv)と呼ばれるAOOD手法を提案する。
TS-Convは、各センシティブな領域からタスクワイズな特徴を適応的にサンプリングし、これらの特徴をアライメントしてマッピングすることで、より優れた予測のための動的ラベル割り当てをガイドする。
論文 参考訳(メタデータ) (2022-09-06T03:42:18Z) - AdaZoom: Adaptive Zoom Network for Multi-Scale Object Detection in Large
Scenes [57.969186815591186]
大規模なシーンの検出は、小さなオブジェクトと極端なスケールの変動のために難しい問題である。
本稿では,物体検出のための焦点領域を適応的に拡大するために,フレキシブルな形状と焦点長を有する選択的拡大器として,新しい適応型Zoom(AdaZoom)ネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-19T03:30:22Z) - Self-Guided Adaptation: Progressive Representation Alignment for Domain
Adaptive Object Detection [86.69077525494106]
非教師なしドメイン適応(UDA)は、オブジェクト検出モデルのドメイン間ロバスト性を改善するために前例のない成功を収めた。
既存のUDA手法は、モデル学習中の瞬間的なデータ分布を無視しており、大きなドメインシフトによって特徴表現が劣化する可能性がある。
本稿では、特徴表現の整合とドメイン間のオブジェクト検出モデルの転送を目標とする自己ガイド適応モデルを提案する。
論文 参考訳(メタデータ) (2020-03-19T13:30:45Z) - iFAN: Image-Instance Full Alignment Networks for Adaptive Object
Detection [48.83883375118966]
iFANは、イメージレベルとインスタンスレベルの両方で、機能の分散を正確に調整することを目的としている。
ソースのみのベースライン上で10%以上のAPで、最先端のメソッドよりも優れています。
論文 参考訳(メタデータ) (2020-03-09T13:27:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。