論文の概要: Check, Locate, Rectify: A Training-Free Layout Calibration System for
Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2311.15773v2
- Date: Thu, 30 Nov 2023 13:14:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 13:08:07.413014
- Title: Check, Locate, Rectify: A Training-Free Layout Calibration System for
Text-to-Image Generation
- Title(参考訳): check, location, rectify:テキスト対画像生成のためのトレーニングフリーレイアウトキャリブレーションシステム
- Authors: Biao Gong, Siteng Huang, Yutong Feng, Shiwei Zhang, Yuyuan Li, Yu Liu
- Abstract要約: そこで本研究では,フライ時の生成過程に介入する,トレーニング不要なレイアウト校正システムSimMを提案する。
具体的には、"チェック位置修正"パイプラインに従って、システムはまずターゲットレイアウトを生成するプロンプトを分析し、中間出力と比較してエラーを自動的に検出する。
そして、位置したアクティベーションを移動させ、マップ内およびマップ間調整を行うことで、補正処理を無視可能な計算オーバーヘッドで行うことができる。
- 参考スコア(独自算出の注目度): 24.406535787173
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have recently achieved remarkable progress in generating
realistic images. However, challenges remain in accurately understanding and
synthesizing the layout requirements in the textual prompts. To align the
generated image with layout instructions, we present a training-free layout
calibration system SimM that intervenes in the generative process on the fly
during inference time. Specifically, following a "check-locate-rectify"
pipeline, the system first analyses the prompt to generate the target layout
and compares it with the intermediate outputs to automatically detect errors.
Then, by moving the located activations and making intra- and inter-map
adjustments, the rectification process can be performed with negligible
computational overhead. To evaluate SimM over a range of layout requirements,
we present a benchmark SimMBench that compensates for the lack of superlative
spatial relations in existing datasets. And both quantitative and qualitative
results demonstrate the effectiveness of the proposed SimM in calibrating the
layout inconsistencies. Our project page is at https://simm-t2i.github.io/SimM.
- Abstract(参考訳): 拡散モデルは最近、現実的な画像の生成において顕著な進歩を遂げた。
しかし、テキストプロンプトのレイアウト要求を正確に理解し、合成することは依然として課題である。
生成した画像をレイアウト指示と整合させるため,推定時間中に生成過程に介入するトレーニング不要なレイアウトキャリブレーションシステムSimMを提案する。
具体的には、"チェック位置修正"パイプラインに従って、システムはまずターゲットレイアウトを生成するプロンプトを分析し、中間出力と比較してエラーを自動的に検出する。
そして、配置されたアクティベーションを移動させ、マップ内およびマップ間調整を行うことで、整流処理を無視できる計算オーバーヘッドで行うことができる。
レイアウト要求の範囲でSimMを評価するため,既存のデータセットの空間関係の欠如を補うベンチマークSimMBenchを提案する。
また, 定量的および定性的な結果から, レイアウトの不整合の校正におけるSimMの有効性が示された。
プロジェクトページはhttps://simm-t2i.github.io/SimM.com/。
関連論文リスト
- Layout-Corrector: Alleviating Layout Sticking Phenomenon in Discrete Diffusion Model [3.8748565070264753]
本稿では,レイアウトの調和を考慮し,レイアウト内の不調和要素を識別できる学習ベースモジュールを提案する。
このモジュールは、様々な最先端DDMと組み合わせてレイアウト生成性能を継続的に向上させる。
論文 参考訳(メタデータ) (2024-09-25T07:24:43Z) - Iterative Sizing Field Prediction for Adaptive Mesh Generation From Expert Demonstrations [49.173541207550485]
Adaptive Meshing By Expert Reconstruction (AMBER) は模倣学習問題である。
AMBERは、グラフニューラルネットワークとオンラインデータ取得スキームを組み合わせて、専門家メッシュの投影されたサイズフィールドを予測する。
我々は、人間の専門家が提供した2Dメッシュと3Dメッシュ上でAMBERを実験的に検証し、提供されたデモと密に一致し、シングルステップのCNNベースラインを上回った。
論文 参考訳(メタデータ) (2024-06-20T10:01:22Z) - Bayesian Adaptive Calibration and Optimal Design [16.821341360894706]
現在の機械学習アプローチは、主に観測データで利用可能な固定された設計セットに対する再実行シミュレーションに依存している。
本稿では,バッチシーケンスプロセス内で最大情報化シミュレーションを実行するためのデータ効率アルゴリズムを提案する。
合成問題と実データ問題にまたがる関連手法と比較して,本手法の利点を示す。
論文 参考訳(メタデータ) (2024-05-23T11:14:35Z) - Dreamer XL: Towards High-Resolution Text-to-3D Generation via Trajectory Score Matching [9.796880796900242]
Trajectory Score Matching (TSM) は、Interval Score Matching (ISM) における累積誤差に起因する疑似基底真理不整合問題を解決することを目的としている。
我々の TSM 法は DDIM の逆転過程を利用して, 計算開始点から 2 つの経路を生成する。
高解像度テキストから3次元生成までの現在の多段階最適化プロセスを最適化するために、ガイダンスに安定拡散XLを採用する。
論文 参考訳(メタデータ) (2024-05-18T10:41:57Z) - Image2Sentence based Asymmetrical Zero-shot Composed Image Retrieval [92.13664084464514]
合成画像検索(CIR)の課題は,検索画像とユーザの意図を記述したテキストに基づいて画像を取得することである。
既存の手法は、CIRタスクにおける高度な大規模視覚言語(VL)モデルにおいて大きな進歩を遂げているが、それらは一般的に、モデルトレーニングのためのラベル付き三重項の欠如とリソース制限された環境への展開の困難という2つの大きな問題に悩まされている。
本稿では、VLモデルを利用して合成学習のためのラベルなし画像のみに依存する画像2Sentenceに基づく非対称ゼロショット合成画像検索(ISA)を提案する。
論文 参考訳(メタデータ) (2024-03-03T07:58:03Z) - Adversarial Supervision Makes Layout-to-Image Diffusion Models Thrive [21.49096276631859]
現行のL2Iモデルは、テキスト経由の編集性が悪いか、生成された画像と入力レイアウトとのアライメントが弱いかのいずれかである。
我々は、従来のL2I拡散モデル(ALDM)の訓練パイプラインに敵の監督を統合することを提案する。
具体的には,画像と入力レイアウトとの間の画素レベルのアライメントに対して,拡散発生器に対して明示的なフィードバックを提供するセグメンテーションに基づく判別器を用いる。
論文 参考訳(メタデータ) (2024-01-16T20:31:46Z) - LayoutDiffusion: Improving Graphic Layout Generation by Discrete
Diffusion Probabilistic Models [50.73105631853759]
レイアウト自動生成のための新しい生成モデルLayoutDiffusionを提案する。
このプロセスでは,前方ステップの成長に伴うレイアウトの混乱が増している。
これにより、プラグアンドプレイ方式で2つの条件付きレイアウト生成タスクを再トレーニングすることなく実現し、既存の方法よりも優れたパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-03-21T04:41:02Z) - Read Pointer Meters in complex environments based on a Human-like
Alignment and Recognition Algorithm [16.823681016882315]
これらの問題を克服するための人間ライクなアライメントと認識アルゴリズムを提案する。
STM(Spatial Transformed Module)は,画像のフロントビューを自己自律的に取得するために提案される。
VAM(Value Acquisition Module)は、エンドツーエンドのトレーニングフレームワークによって正確なメーター値を推測するために提案される。
論文 参考訳(メタデータ) (2023-02-28T05:37:04Z) - Overlap-guided Gaussian Mixture Models for Point Cloud Registration [61.250516170418784]
確率的3Dポイントクラウド登録法は、ノイズ、アウトレーヤ、密度変動を克服する競合性能を示した。
本稿では,一致したガウス混合モデル(GMM)パラメータから最適変換を演算する,重複誘導確率登録手法を提案する。
論文 参考訳(メタデータ) (2022-10-17T08:02:33Z) - Multitask AET with Orthogonal Tangent Regularity for Dark Object
Detection [84.52197307286681]
暗黒環境下でのオブジェクト検出を強化するために,新しいマルチタスク自動符号化変換(MAET)モデルを提案する。
自己超越的な方法で、MAETは、現実的な照明劣化変換を符号化して復号することで、本質的な視覚構造を学習する。
我々は,合成および実世界のデータセットを用いて最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2022-05-06T16:27:14Z) - Real-Time Scene Text Detection with Differentiable Binarization and
Adaptive Scale Fusion [62.269219152425556]
セグメンテーションに基づくシーンテキスト検出手法はシーンテキスト検出分野において大きな注目を集めている。
本稿では,二項化処理をセグメンテーションネットワークに統合する分散二項化(DB)モジュールを提案する。
アダプティブ・スケール・フュージョン (ASF) モジュールは, 異なるスケールの特徴を適応的に融合させることにより, スケールのロバスト性を向上させる。
論文 参考訳(メタデータ) (2022-02-21T15:30:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。