論文の概要: Iterative Object Count Optimization for Text-to-image Diffusion Models
- arxiv url: http://arxiv.org/abs/2408.11721v1
- Date: Wed, 21 Aug 2024 15:51:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-22 16:28:00.778542
- Title: Iterative Object Count Optimization for Text-to-image Diffusion Models
- Title(参考訳): テキスト・画像拡散モデルの反復的対象数最適化
- Authors: Oz Zafar, Lior Wolf, Idan Schwartz,
- Abstract要約: 画像とテキストのペアから学ぶ現在のモデルは、本質的にカウントに苦慮している。
本稿では,物体のポテンシャルを集計する計数モデルから得られた計数損失に基づいて生成画像の最適化を提案する。
様々なオブジェクトの生成を評価し,精度を大幅に向上させた。
- 参考スコア(独自算出の注目度): 59.03672816121209
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We address a persistent challenge in text-to-image models: accurately generating a specified number of objects. Current models, which learn from image-text pairs, inherently struggle with counting, as training data cannot depict every possible number of objects for any given object. To solve this, we propose optimizing the generated image based on a counting loss derived from a counting model that aggregates an object\'s potential. Employing an out-of-the-box counting model is challenging for two reasons: first, the model requires a scaling hyperparameter for the potential aggregation that varies depending on the viewpoint of the objects, and second, classifier guidance techniques require modified models that operate on noisy intermediate diffusion steps. To address these challenges, we propose an iterated online training mode that improves the accuracy of inferred images while altering the text conditioning embedding and dynamically adjusting hyperparameters. Our method offers three key advantages: (i) it can consider non-derivable counting techniques based on detection models, (ii) it is a zero-shot plug-and-play solution facilitating rapid changes to the counting techniques and image generation methods, and (iii) the optimized counting token can be reused to generate accurate images without additional optimization. We evaluate the generation of various objects and show significant improvements in accuracy. The project page is available at https://ozzafar.github.io/count_token.
- Abstract(参考訳): 我々はテキスト・ツー・イメージ・モデルにおいて、指定された数のオブジェクトを正確に生成するという永続的な課題に対処する。
画像とテキストのペアから学習する現在のモデルは、トレーニングデータが任意のオブジェクトに対して可能なすべてのオブジェクトを表現できないため、本質的にカウントに苦慮している。
そこで本研究では,オブジェクトのポテンシャルを集計する計数モデルから得られた計数損失に基づいて生成画像の最適化を提案する。
第1に、オブジェクトの視点によって異なる潜在的な集約のためのスケーリングハイパーパラメータが必要であり、第2に、分類器誘導技術はノイズの多い中間拡散ステップで動作する修正モデルを必要とする。
これらの課題に対処するために,テキストコンディショニングの埋め込みを変更し,ハイパーパラメータを動的に調整しながら,推論画像の精度を向上させるオンライントレーニングモードを提案する。
我々の方法には3つの利点がある。
(i)検出モデルに基づく非導出可能なカウント技術を考えることができる。
(II)カウント技術や画像生成手法の迅速な変更を容易にするゼロショットプラグアンドプレイソリューションである。
三 最適化された計数トークンを再利用して、追加の最適化なしに正確な画像を生成することができる。
様々なオブジェクトの生成を評価し,精度を大幅に向上させた。
プロジェクトのページはhttps://ozzafar.github.io/count_token.comで公開されている。
関連論文リスト
- Make It Count: Text-to-Image Generation with an Accurate Number of Objects [31.909039527164403]
テキストを使って描かれたオブジェクトの数を制御するのは驚くほど難しい。
生成モデルは、オブジェクトのインスタンス毎に別々のアイデンティティの感覚を保持する必要があるため、オブジェクトの正しいカウントを生成することは難しい。
我々は、CountGenが正しいオブジェクト数でdenoisingをガイドするのにどのように使えるかを示す。
論文 参考訳(メタデータ) (2024-06-14T17:46:08Z) - Semantic Generative Augmentations for Few-Shot Counting [0.0]
合成データは,クラス非依存のカウントにどのように役立つかを検討する。
本稿では,安定拡散の二重条件付けをプロンプトと密度マップの両方で行うことを提案する。
実験により, 多様な生成戦略により, 2つの最近の数理モデルと数理モデルとのカウント精度が大幅に向上することが確認された。
論文 参考訳(メタデータ) (2023-10-26T11:42:48Z) - Counting Guidance for High Fidelity Text-to-Image Synthesis [2.6212127510234797]
テキストと画像の拡散モデルは、入力プロンプトに対して高い忠実度コンテンツを生成できない。
例えば、「テーブル上の5つのリンゴと10個のレモン」というプロンプトが与えられた場合、拡散生成画像は通常、間違った数のオブジェクトを含む。
本稿では,拡散モデルの改良手法を提案する。
論文 参考訳(メタデータ) (2023-06-30T11:40:35Z) - PoseMatcher: One-shot 6D Object Pose Estimation by Deep Feature Matching [51.142988196855484]
本稿では,PoseMatcherを提案する。
3ビューシステムに基づくオブジェクトと画像のマッチングのための新しいトレーニングパイプラインを作成します。
PoseMatcherは、画像とポイントクラウドの異なる入力モダリティに対応できるように、IO-Layerを導入します。
論文 参考訳(メタデータ) (2023-04-03T21:14:59Z) - Uncovering the Disentanglement Capability in Text-to-Image Diffusion
Models [60.63556257324894]
画像生成モデルの重要な特性は、異なる属性をアンタングルする能力である。
本稿では,2つのテキスト埋め込みの混合重みをスタイルマッチングとコンテンツ保存に最適化した,シンプルで軽量な画像編集アルゴリズムを提案する。
実験により,提案手法は拡散モデルに基づく画像編集アルゴリズムよりも優れた性能で,幅広い属性を修正可能であることが示された。
論文 参考訳(メタデータ) (2022-12-16T19:58:52Z) - Composing Ensembles of Pre-trained Models via Iterative Consensus [95.10641301155232]
本稿では,異なる事前学習モデルのアンサンブルを構成するための統一的なフレームワークを提案する。
事前学習したモデルを「ジェネレータ」あるいは「スコーラ」として使用し、クローズドループ反復コンセンサス最適化により構成する。
スコアラーのアンサンブルによって達成されたコンセンサスは、シングルスコアラーのフィードバックよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-20T18:46:31Z) - ClusTR: Exploring Efficient Self-attention via Clustering for Vision
Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。
具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。
結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文 参考訳(メタデータ) (2022-08-28T04:18:27Z) - Dynamic Proposals for Efficient Object Detection [48.66093789652899]
本稿では,オブジェクト検出のための動的提案を生成することによって,異なる計算資源に適応する簡易かつ効果的な手法を提案する。
提案手法は,2段階モデルと問合せモデルを含む広範囲な検出モデルにおいて,大幅な高速化を実現する。
論文 参考訳(メタデータ) (2022-07-12T01:32:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。