論文の概要: Iterative Object Count Optimization for Text-to-image Diffusion Models
- arxiv url: http://arxiv.org/abs/2408.11721v1
- Date: Wed, 21 Aug 2024 15:51:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-08-22 16:28:00.778542
- Title: Iterative Object Count Optimization for Text-to-image Diffusion Models
- Title(参考訳): テキスト・画像拡散モデルの反復的対象数最適化
- Authors: Oz Zafar, Lior Wolf, Idan Schwartz,
- Abstract要約: 画像とテキストのペアから学ぶ現在のモデルは、本質的にカウントに苦慮している。
本稿では,物体のポテンシャルを集計する計数モデルから得られた計数損失に基づいて生成画像の最適化を提案する。
様々なオブジェクトの生成を評価し,精度を大幅に向上させた。
- 参考スコア(独自算出の注目度): 59.03672816121209
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We address a persistent challenge in text-to-image models: accurately generating a specified number of objects. Current models, which learn from image-text pairs, inherently struggle with counting, as training data cannot depict every possible number of objects for any given object. To solve this, we propose optimizing the generated image based on a counting loss derived from a counting model that aggregates an object\'s potential. Employing an out-of-the-box counting model is challenging for two reasons: first, the model requires a scaling hyperparameter for the potential aggregation that varies depending on the viewpoint of the objects, and second, classifier guidance techniques require modified models that operate on noisy intermediate diffusion steps. To address these challenges, we propose an iterated online training mode that improves the accuracy of inferred images while altering the text conditioning embedding and dynamically adjusting hyperparameters. Our method offers three key advantages: (i) it can consider non-derivable counting techniques based on detection models, (ii) it is a zero-shot plug-and-play solution facilitating rapid changes to the counting techniques and image generation methods, and (iii) the optimized counting token can be reused to generate accurate images without additional optimization. We evaluate the generation of various objects and show significant improvements in accuracy. The project page is available at https://ozzafar.github.io/count_token.
- Abstract(参考訳): 我々はテキスト・ツー・イメージ・モデルにおいて、指定された数のオブジェクトを正確に生成するという永続的な課題に対処する。
画像とテキストのペアから学習する現在のモデルは、トレーニングデータが任意のオブジェクトに対して可能なすべてのオブジェクトを表現できないため、本質的にカウントに苦慮している。
そこで本研究では,オブジェクトのポテンシャルを集計する計数モデルから得られた計数損失に基づいて生成画像の最適化を提案する。
第1に、オブジェクトの視点によって異なる潜在的な集約のためのスケーリングハイパーパラメータが必要であり、第2に、分類器誘導技術はノイズの多い中間拡散ステップで動作する修正モデルを必要とする。
これらの課題に対処するために,テキストコンディショニングの埋め込みを変更し,ハイパーパラメータを動的に調整しながら,推論画像の精度を向上させるオンライントレーニングモードを提案する。
我々の方法には3つの利点がある。
(i)検出モデルに基づく非導出可能なカウント技術を考えることができる。
(II)カウント技術や画像生成手法の迅速な変更を容易にするゼロショットプラグアンドプレイソリューションである。
三 最適化された計数トークンを再利用して、追加の最適化なしに正確な画像を生成することができる。
様々なオブジェクトの生成を評価し,精度を大幅に向上させた。
プロジェクトのページはhttps://ozzafar.github.io/count_token.comで公開されている。
関連論文リスト
- Textual Inversion for Efficient Adaptation of Open-Vocabulary Object Detectors Without Forgetting [1.1871535995163365]
Textual Inversion (TI)は、VLM語彙を拡張して、新しいトークンを学習したり、既存のトークンを改善したりすることで、新しいオブジェクトやきめ細かいオブジェクトを、わずか3つの例から正確に検出することができる。
記憶と勾配の計算はトークンの埋め込み次元に限られており、フルモデルの微調整よりも大幅に少ない計算を必要とする。
本手法が,様々な量的,定性的実験において,忘れることに苦しむベースライン手法に適合するか否かを評価する。
論文 参考訳(メタデータ) (2025-08-07T12:28:08Z) - RobustSplat: Decoupling Densification and Dynamics for Transient-Free 3DGS [79.15416002879239]
3D Gaussian Splattingは、ノベルビュー合成と3Dモデリングにおけるリアルタイム、フォトリアリスティックレンダリングにおいて大きな注目を集めている。
既存の手法は、過渡的なオブジェクトに影響されたシーンを正確にモデル化するのに苦労し、描画された画像のアーティファクトに繋がる。
2つの重要な設計に基づく堅牢なソリューションであるRobustSplatを提案する。
論文 参考訳(メタデータ) (2025-06-03T11:13:48Z) - QUOTA: Quantifying Objects with Text-to-Image Models for Any Domain [40.661699970360736]
生成テキスト・画像モデルを用いてオブジェクトの数を定量化する問題に取り組む。
新しい画像領域ごとにそのようなモデルをトレーニングするのではなく、ドメインに依存しない視点からこの問題を最初に検討する。
テキスト・ツー・イメージ・モデルの最適化フレームワークであるQUOTAを提案する。
論文 参考訳(メタデータ) (2024-11-29T08:20:12Z) - Fast constrained sampling in pre-trained diffusion models [77.21486516041391]
任意の制約下で高速かつ高品質な生成を可能にするアルゴリズムを提案する。
推測中、ノイズの多い画像上で計算された勾配更新と、最終的なクリーンな画像で計算されたアップデートとを交換できる。
我々のアプローチは、最先端のトレーニングフリー推論アプローチに匹敵するか、超越した結果をもたらす。
論文 参考訳(メタデータ) (2024-10-24T14:52:38Z) - Adversarial Robustification via Text-to-Image Diffusion Models [56.37291240867549]
アドリラルロバスト性は、ニューラルネットワークをエンコードする難しい性質として伝統的に信じられてきた。
データを使わずに敵の堅牢性を実現するために,スケーラブルでモデルに依存しないソリューションを開発した。
論文 参考訳(メタデータ) (2024-07-26T10:49:14Z) - Make It Count: Text-to-Image Generation with an Accurate Number of Objects [31.909039527164403]
テキストを使って描かれたオブジェクトの数を制御するのは驚くほど難しい。
生成モデルは、オブジェクトのインスタンス毎に別々のアイデンティティの感覚を保持する必要があるため、オブジェクトの正しいカウントを生成することは難しい。
我々は、CountGenが正しいオブジェクト数でdenoisingをガイドするのにどのように使えるかを示す。
論文 参考訳(メタデータ) (2024-06-14T17:46:08Z) - AdaDiff: Adaptive Step Selection for Fast Diffusion Models [82.78899138400435]
我々は、インスタンス固有のステップ利用ポリシーを学ぶために設計された軽量フレームワークであるAdaDiffを紹介します。
AdaDiffはポリシーメソッドを使用して最適化され、慎重に設計された報酬関数を最大化する。
我々は3つの画像生成と2つのビデオ生成ベンチマークの実験を行い、本手法がベースラインと同じような視覚的品質を実現することを示す。
論文 参考訳(メタデータ) (2023-11-24T11:20:38Z) - Semantic Generative Augmentations for Few-Shot Counting [0.0]
合成データは,クラス非依存のカウントにどのように役立つかを検討する。
本稿では,安定拡散の二重条件付けをプロンプトと密度マップの両方で行うことを提案する。
実験により, 多様な生成戦略により, 2つの最近の数理モデルと数理モデルとのカウント精度が大幅に向上することが確認された。
論文 参考訳(メタデータ) (2023-10-26T11:42:48Z) - Reducing False Alarms in Video Surveillance by Deep Feature Statistical
Modeling [16.311150636417256]
我々は, 深部特徴の高次元統計的モデリングに基づいて, 弱教師付きa-コントラリオ検証法を開発した。
実験結果から,提案したa-contrarioバリデーションにより,画素レベルとオブジェクトレベルの偽アラームの回数を大幅に削減できることがわかった。
論文 参考訳(メタデータ) (2023-07-09T12:37:17Z) - Counting Guidance for High Fidelity Text-to-Image Synthesis [2.6212127510234797]
テキストと画像の拡散モデルは、入力プロンプトに対して高い忠実度コンテンツを生成できない。
例えば、「テーブル上の5つのリンゴと10個のレモン」というプロンプトが与えられた場合、拡散生成画像は通常、間違った数のオブジェクトを含む。
本稿では,拡散モデルの改良手法を提案する。
論文 参考訳(メタデータ) (2023-06-30T11:40:35Z) - PoseMatcher: One-shot 6D Object Pose Estimation by Deep Feature Matching [51.142988196855484]
本稿では,PoseMatcherを提案する。
3ビューシステムに基づくオブジェクトと画像のマッチングのための新しいトレーニングパイプラインを作成します。
PoseMatcherは、画像とポイントクラウドの異なる入力モダリティに対応できるように、IO-Layerを導入します。
論文 参考訳(メタデータ) (2023-04-03T21:14:59Z) - Uncovering the Disentanglement Capability in Text-to-Image Diffusion
Models [60.63556257324894]
画像生成モデルの重要な特性は、異なる属性をアンタングルする能力である。
本稿では,2つのテキスト埋め込みの混合重みをスタイルマッチングとコンテンツ保存に最適化した,シンプルで軽量な画像編集アルゴリズムを提案する。
実験により,提案手法は拡散モデルに基づく画像編集アルゴリズムよりも優れた性能で,幅広い属性を修正可能であることが示された。
論文 参考訳(メタデータ) (2022-12-16T19:58:52Z) - Composing Ensembles of Pre-trained Models via Iterative Consensus [95.10641301155232]
本稿では,異なる事前学習モデルのアンサンブルを構成するための統一的なフレームワークを提案する。
事前学習したモデルを「ジェネレータ」あるいは「スコーラ」として使用し、クローズドループ反復コンセンサス最適化により構成する。
スコアラーのアンサンブルによって達成されたコンセンサスは、シングルスコアラーのフィードバックよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-20T18:46:31Z) - ClusTR: Exploring Efficient Self-attention via Clustering for Vision
Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。
具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。
結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文 参考訳(メタデータ) (2022-08-28T04:18:27Z) - Dynamic Proposals for Efficient Object Detection [48.66093789652899]
本稿では,オブジェクト検出のための動的提案を生成することによって,異なる計算資源に適応する簡易かつ効果的な手法を提案する。
提案手法は,2段階モデルと問合せモデルを含む広範囲な検出モデルにおいて,大幅な高速化を実現する。
論文 参考訳(メタデータ) (2022-07-12T01:32:50Z) - Tackling the Background Bias in Sparse Object Detection via Cropped
Windows [17.547911599819837]
モデル自体を変更することなく、リモートセンシングケースにおける検出能力を向上する簡単なタイリング手法を提案する。
この手順は3つの異なるデータセットで検証され、性能と速度において同様のアプローチより優れていた。
論文 参考訳(メタデータ) (2021-06-04T06:59:56Z) - Powers of layers for image-to-image translation [60.5529622990682]
本稿では,未ペア画像から画像への変換タスクに対処するシンプルなアーキテクチャを提案する。
固定重み付きイメージオートエンコーダアーキテクチャから始める。
各タスクに対して、潜在空間で動作している残留ブロックを学習し、ターゲット領域に到達するまで繰り返し呼び出される。
論文 参考訳(メタデータ) (2020-08-13T09:02:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。