論文の概要: Check, Locate, Rectify: A Training-Free Layout Calibration System for
Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2311.15773v2
- Date: Thu, 30 Nov 2023 13:14:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 13:08:07.413014
- Title: Check, Locate, Rectify: A Training-Free Layout Calibration System for
Text-to-Image Generation
- Title(参考訳): check, location, rectify:テキスト対画像生成のためのトレーニングフリーレイアウトキャリブレーションシステム
- Authors: Biao Gong, Siteng Huang, Yutong Feng, Shiwei Zhang, Yuyuan Li, Yu Liu
- Abstract要約: そこで本研究では,フライ時の生成過程に介入する,トレーニング不要なレイアウト校正システムSimMを提案する。
具体的には、"チェック位置修正"パイプラインに従って、システムはまずターゲットレイアウトを生成するプロンプトを分析し、中間出力と比較してエラーを自動的に検出する。
そして、位置したアクティベーションを移動させ、マップ内およびマップ間調整を行うことで、補正処理を無視可能な計算オーバーヘッドで行うことができる。
- 参考スコア(独自算出の注目度): 24.406535787173
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have recently achieved remarkable progress in generating
realistic images. However, challenges remain in accurately understanding and
synthesizing the layout requirements in the textual prompts. To align the
generated image with layout instructions, we present a training-free layout
calibration system SimM that intervenes in the generative process on the fly
during inference time. Specifically, following a "check-locate-rectify"
pipeline, the system first analyses the prompt to generate the target layout
and compares it with the intermediate outputs to automatically detect errors.
Then, by moving the located activations and making intra- and inter-map
adjustments, the rectification process can be performed with negligible
computational overhead. To evaluate SimM over a range of layout requirements,
we present a benchmark SimMBench that compensates for the lack of superlative
spatial relations in existing datasets. And both quantitative and qualitative
results demonstrate the effectiveness of the proposed SimM in calibrating the
layout inconsistencies. Our project page is at https://simm-t2i.github.io/SimM.
- Abstract(参考訳): 拡散モデルは最近、現実的な画像の生成において顕著な進歩を遂げた。
しかし、テキストプロンプトのレイアウト要求を正確に理解し、合成することは依然として課題である。
生成した画像をレイアウト指示と整合させるため,推定時間中に生成過程に介入するトレーニング不要なレイアウトキャリブレーションシステムSimMを提案する。
具体的には、"チェック位置修正"パイプラインに従って、システムはまずターゲットレイアウトを生成するプロンプトを分析し、中間出力と比較してエラーを自動的に検出する。
そして、配置されたアクティベーションを移動させ、マップ内およびマップ間調整を行うことで、整流処理を無視できる計算オーバーヘッドで行うことができる。
レイアウト要求の範囲でSimMを評価するため,既存のデータセットの空間関係の欠如を補うベンチマークSimMBenchを提案する。
また, 定量的および定性的な結果から, レイアウトの不整合の校正におけるSimMの有効性が示された。
プロジェクトページはhttps://simm-t2i.github.io/SimM.com/。
関連論文リスト
- Image2Sentence based Asymmetrical Zero-shot Composed Image Retrieval [92.13664084464514]
合成画像検索(CIR)の課題は,検索画像とユーザの意図を記述したテキストに基づいて画像を取得することである。
既存の手法は、CIRタスクにおける高度な大規模視覚言語(VL)モデルにおいて大きな進歩を遂げているが、それらは一般的に、モデルトレーニングのためのラベル付き三重項の欠如とリソース制限された環境への展開の困難という2つの大きな問題に悩まされている。
本稿では、VLモデルを利用して合成学習のためのラベルなし画像のみに依存する画像2Sentenceに基づく非対称ゼロショット合成画像検索(ISA)を提案する。
論文 参考訳(メタデータ) (2024-03-03T07:58:03Z) - Adversarial Supervision Makes Layout-to-Image Diffusion Models Thrive [21.49096276631859]
現行のL2Iモデルは、テキスト経由の編集性が悪いか、生成された画像と入力レイアウトとのアライメントが弱いかのいずれかである。
我々は、従来のL2I拡散モデル(ALDM)の訓練パイプラインに敵の監督を統合することを提案する。
具体的には,画像と入力レイアウトとの間の画素レベルのアライメントに対して,拡散発生器に対して明示的なフィードバックを提供するセグメンテーションに基づく判別器を用いる。
論文 参考訳(メタデータ) (2024-01-16T20:31:46Z) - Informal Safety Guarantees for Simulated Optimizers Through
Extrapolation from Partial Simulations [0.0]
自己教師付き学習は、最先端の言語モデリングのバックボーンである。
自己教師付きデータセットにおける予測損失を伴うトレーニングはシミュレータを引き起こすと論じられている。
論文 参考訳(メタデータ) (2023-11-29T09:32:56Z) - LayoutDiffusion: Improving Graphic Layout Generation by Discrete
Diffusion Probabilistic Models [50.73105631853759]
レイアウト自動生成のための新しい生成モデルLayoutDiffusionを提案する。
このプロセスでは,前方ステップの成長に伴うレイアウトの混乱が増している。
これにより、プラグアンドプレイ方式で2つの条件付きレイアウト生成タスクを再トレーニングすることなく実現し、既存の方法よりも優れたパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-03-21T04:41:02Z) - Read Pointer Meters in complex environments based on a Human-like
Alignment and Recognition Algorithm [16.823681016882315]
これらの問題を克服するための人間ライクなアライメントと認識アルゴリズムを提案する。
STM(Spatial Transformed Module)は,画像のフロントビューを自己自律的に取得するために提案される。
VAM(Value Acquisition Module)は、エンドツーエンドのトレーニングフレームワークによって正確なメーター値を推測するために提案される。
論文 参考訳(メタデータ) (2023-02-28T05:37:04Z) - Overlap-guided Gaussian Mixture Models for Point Cloud Registration [61.250516170418784]
確率的3Dポイントクラウド登録法は、ノイズ、アウトレーヤ、密度変動を克服する競合性能を示した。
本稿では,一致したガウス混合モデル(GMM)パラメータから最適変換を演算する,重複誘導確率登録手法を提案する。
論文 参考訳(メタデータ) (2022-10-17T08:02:33Z) - Self-Supervised Training with Autoencoders for Visual Anomaly Detection [55.52743265122446]
ディープオートエンコーダは視覚領域における異常検出のタスクに使われてきた。
我々は、訓練中に識別情報を使用することが可能な自己指導型学習体制を適用することで、この問題に対処する。
MVTec ADデータセットを用いた実験では,高い検出性能と局所化性能を示した。
論文 参考訳(メタデータ) (2022-06-23T14:16:30Z) - Multitask AET with Orthogonal Tangent Regularity for Dark Object
Detection [84.52197307286681]
暗黒環境下でのオブジェクト検出を強化するために,新しいマルチタスク自動符号化変換(MAET)モデルを提案する。
自己超越的な方法で、MAETは、現実的な照明劣化変換を符号化して復号することで、本質的な視覚構造を学習する。
我々は,合成および実世界のデータセットを用いて最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2022-05-06T16:27:14Z) - Unseen Object Instance Segmentation with Fully Test-time RGB-D
Embeddings Adaptation [14.258456366985444]
最近では、大規模な合成データのRGB-D機能を活用し、実世界のシナリオにモデルを適用するのが一般的である。
本稿では,Sim2Realドメイン間の適応プロセスを再強調する。
本稿では,BatchNorm層のパラメータに基づいて,完全テスト時間RGB-D埋め込み適応(FTEA)を行うフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-21T02:35:20Z) - Real-Time Scene Text Detection with Differentiable Binarization and
Adaptive Scale Fusion [62.269219152425556]
セグメンテーションに基づくシーンテキスト検出手法はシーンテキスト検出分野において大きな注目を集めている。
本稿では,二項化処理をセグメンテーションネットワークに統合する分散二項化(DB)モジュールを提案する。
アダプティブ・スケール・フュージョン (ASF) モジュールは, 異なるスケールの特徴を適応的に融合させることにより, スケールのロバスト性を向上させる。
論文 参考訳(メタデータ) (2022-02-21T15:30:14Z) - Learning Ultrasound Rendering from Cross-Sectional Model Slices for
Simulated Training [13.640630434743837]
計算シミュレーションは、バーチャルリアリティーにおけるそのようなスキルの訓練を容易にする。
インタラクティブな時間に任意のレンダリングやシミュレーションプロセスをバイパスするためにここに提案します。
我々は、専用のジェネレータアーキテクチャと入力供給方式を備えた生成的対向フレームワークを使用する。
論文 参考訳(メタデータ) (2021-01-20T21:58:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。