論文の概要: Detection-Driven Object Count Optimization for Text-to-Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2408.11721v2
- Date: Thu, 05 Jun 2025 15:25:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.172515
- Title: Detection-Driven Object Count Optimization for Text-to-Image Diffusion Models
- Title(参考訳): テキスト・画像拡散モデルにおける検出駆動オブジェクトカウント最適化
- Authors: Oz Zafar, Yuval Cohen, Lior Wolf, Idan Schwartz,
- Abstract要約: 本稿では,事前学習したオブジェクトカウント技術とオブジェクト検出器を用いて生成をガイドする新しいフレームワークを提案する。
まず、完全生成画像上で計算された外ループ損失を用いてカウントトークンを最適化する。
第二に、視点や比例シフトによる誤差を補正する検出駆動スケーリング項を導入する。
- 参考スコア(独自算出の注目度): 54.641726517633025
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurately controlling object count in text-to-image generation remains a key challenge. Supervised methods often fail, as training data rarely covers all count variations. Methods that manipulate the denoising process to add or remove objects can help; however, they still require labeled data, limit robustness and image quality, and rely on a slow, iterative process. Pre-trained differentiable counting models that rely on soft object density summation exist and could steer generation, but employing them presents three main challenges: (i) they are pre-trained on clean images, making them less effective during denoising steps that operate on noisy inputs; (ii) they are not robust to viewpoint changes; and (iii) optimization is computationally expensive, requiring repeated model evaluations per image. We propose a new framework that uses pre-trained object counting techniques and object detectors to guide generation. First, we optimize a counting token using an outer-loop loss computed on fully generated images. Second, we introduce a detection-driven scaling term that corrects errors caused by viewpoint and proportion shifts, among other factors, without requiring backpropagation through the detection model. Third, we show that the optimized parameters can be reused for new prompts, removing the need for repeated optimization. Our method provides efficiency through token reuse, flexibility via compatibility with various detectors, and accuracy with improved counting across diverse object categories.
- Abstract(参考訳): テキスト・画像生成におけるオブジェクトカウントの正確な制御は依然として重要な課題である。
トレーニングデータが全てのカウントのバリエーションをカバーすることは滅多にないため、監視されたメソッドは失敗することが多い。
オブジェクトの追加や削除をDenoisingプロセスを操作するメソッドは役に立つが、ラベル付きデータが必要であり、堅牢性と画質を制限し、遅い反復的なプロセスに依存している。
ソフトオブジェクト密度の和に依存する事前訓練された微分可能カウントモデルが存在し、生成を制御できるが、それらを利用することで3つの大きな課題が提示される。
一 清潔な画像で事前訓練し、うるさい入力を施す段落において、その効果を低下させる。
(二)視点変化に頑丈でないこと、及び
(iii)最適化は計算コストが高く,画像毎に繰り返しモデル評価を行う必要がある。
本稿では,事前学習したオブジェクトカウント技術とオブジェクト検出器を用いて生成をガイドする新しいフレームワークを提案する。
まず、完全生成画像上で計算された外ループ損失を用いてカウントトークンを最適化する。
第2に、検出モデルによるバックプロパゲーションを必要とせず、視点や比例シフトによる誤差を補正する検出駆動スケーリング項を導入する。
第3に、最適化されたパラメータを新しいプロンプトに再利用できることを示し、繰り返し最適化する必要がなくなる。
本手法は,トークンの再利用,各種検出器との互換性による柔軟性,および多種多様な対象カテゴリ間のカウントの改善による精度向上を実現する。
関連論文リスト
- Textual Inversion for Efficient Adaptation of Open-Vocabulary Object Detectors Without Forgetting [1.1871535995163365]
Textual Inversion (TI)は、VLM語彙を拡張して、新しいトークンを学習したり、既存のトークンを改善したりすることで、新しいオブジェクトやきめ細かいオブジェクトを、わずか3つの例から正確に検出することができる。
記憶と勾配の計算はトークンの埋め込み次元に限られており、フルモデルの微調整よりも大幅に少ない計算を必要とする。
本手法が,様々な量的,定性的実験において,忘れることに苦しむベースライン手法に適合するか否かを評価する。
論文 参考訳(メタデータ) (2025-08-07T12:28:08Z) - RobustSplat: Decoupling Densification and Dynamics for Transient-Free 3DGS [79.15416002879239]
3D Gaussian Splattingは、ノベルビュー合成と3Dモデリングにおけるリアルタイム、フォトリアリスティックレンダリングにおいて大きな注目を集めている。
既存の手法は、過渡的なオブジェクトに影響されたシーンを正確にモデル化するのに苦労し、描画された画像のアーティファクトに繋がる。
2つの重要な設計に基づく堅牢なソリューションであるRobustSplatを提案する。
論文 参考訳(メタデータ) (2025-06-03T11:13:48Z) - QUOTA: Quantifying Objects with Text-to-Image Models for Any Domain [40.661699970360736]
生成テキスト・画像モデルを用いてオブジェクトの数を定量化する問題に取り組む。
新しい画像領域ごとにそのようなモデルをトレーニングするのではなく、ドメインに依存しない視点からこの問題を最初に検討する。
テキスト・ツー・イメージ・モデルの最適化フレームワークであるQUOTAを提案する。
論文 参考訳(メタデータ) (2024-11-29T08:20:12Z) - Fast constrained sampling in pre-trained diffusion models [77.21486516041391]
任意の制約下で高速かつ高品質な生成を可能にするアルゴリズムを提案する。
推測中、ノイズの多い画像上で計算された勾配更新と、最終的なクリーンな画像で計算されたアップデートとを交換できる。
我々のアプローチは、最先端のトレーニングフリー推論アプローチに匹敵するか、超越した結果をもたらす。
論文 参考訳(メタデータ) (2024-10-24T14:52:38Z) - Adversarial Robustification via Text-to-Image Diffusion Models [56.37291240867549]
アドリラルロバスト性は、ニューラルネットワークをエンコードする難しい性質として伝統的に信じられてきた。
データを使わずに敵の堅牢性を実現するために,スケーラブルでモデルに依存しないソリューションを開発した。
論文 参考訳(メタデータ) (2024-07-26T10:49:14Z) - Make It Count: Text-to-Image Generation with an Accurate Number of Objects [31.909039527164403]
テキストを使って描かれたオブジェクトの数を制御するのは驚くほど難しい。
生成モデルは、オブジェクトのインスタンス毎に別々のアイデンティティの感覚を保持する必要があるため、オブジェクトの正しいカウントを生成することは難しい。
我々は、CountGenが正しいオブジェクト数でdenoisingをガイドするのにどのように使えるかを示す。
論文 参考訳(メタデータ) (2024-06-14T17:46:08Z) - AdaDiff: Adaptive Step Selection for Fast Diffusion Models [82.78899138400435]
我々は、インスタンス固有のステップ利用ポリシーを学ぶために設計された軽量フレームワークであるAdaDiffを紹介します。
AdaDiffはポリシーメソッドを使用して最適化され、慎重に設計された報酬関数を最大化する。
我々は3つの画像生成と2つのビデオ生成ベンチマークの実験を行い、本手法がベースラインと同じような視覚的品質を実現することを示す。
論文 参考訳(メタデータ) (2023-11-24T11:20:38Z) - Semantic Generative Augmentations for Few-Shot Counting [0.0]
合成データは,クラス非依存のカウントにどのように役立つかを検討する。
本稿では,安定拡散の二重条件付けをプロンプトと密度マップの両方で行うことを提案する。
実験により, 多様な生成戦略により, 2つの最近の数理モデルと数理モデルとのカウント精度が大幅に向上することが確認された。
論文 参考訳(メタデータ) (2023-10-26T11:42:48Z) - Reducing False Alarms in Video Surveillance by Deep Feature Statistical
Modeling [16.311150636417256]
我々は, 深部特徴の高次元統計的モデリングに基づいて, 弱教師付きa-コントラリオ検証法を開発した。
実験結果から,提案したa-contrarioバリデーションにより,画素レベルとオブジェクトレベルの偽アラームの回数を大幅に削減できることがわかった。
論文 参考訳(メタデータ) (2023-07-09T12:37:17Z) - Counting Guidance for High Fidelity Text-to-Image Synthesis [2.6212127510234797]
テキストと画像の拡散モデルは、入力プロンプトに対して高い忠実度コンテンツを生成できない。
例えば、「テーブル上の5つのリンゴと10個のレモン」というプロンプトが与えられた場合、拡散生成画像は通常、間違った数のオブジェクトを含む。
本稿では,拡散モデルの改良手法を提案する。
論文 参考訳(メタデータ) (2023-06-30T11:40:35Z) - PoseMatcher: One-shot 6D Object Pose Estimation by Deep Feature Matching [51.142988196855484]
本稿では,PoseMatcherを提案する。
3ビューシステムに基づくオブジェクトと画像のマッチングのための新しいトレーニングパイプラインを作成します。
PoseMatcherは、画像とポイントクラウドの異なる入力モダリティに対応できるように、IO-Layerを導入します。
論文 参考訳(メタデータ) (2023-04-03T21:14:59Z) - Uncovering the Disentanglement Capability in Text-to-Image Diffusion
Models [60.63556257324894]
画像生成モデルの重要な特性は、異なる属性をアンタングルする能力である。
本稿では,2つのテキスト埋め込みの混合重みをスタイルマッチングとコンテンツ保存に最適化した,シンプルで軽量な画像編集アルゴリズムを提案する。
実験により,提案手法は拡散モデルに基づく画像編集アルゴリズムよりも優れた性能で,幅広い属性を修正可能であることが示された。
論文 参考訳(メタデータ) (2022-12-16T19:58:52Z) - Composing Ensembles of Pre-trained Models via Iterative Consensus [95.10641301155232]
本稿では,異なる事前学習モデルのアンサンブルを構成するための統一的なフレームワークを提案する。
事前学習したモデルを「ジェネレータ」あるいは「スコーラ」として使用し、クローズドループ反復コンセンサス最適化により構成する。
スコアラーのアンサンブルによって達成されたコンセンサスは、シングルスコアラーのフィードバックよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-20T18:46:31Z) - ClusTR: Exploring Efficient Self-attention via Clustering for Vision
Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。
具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。
結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文 参考訳(メタデータ) (2022-08-28T04:18:27Z) - Dynamic Proposals for Efficient Object Detection [48.66093789652899]
本稿では,オブジェクト検出のための動的提案を生成することによって,異なる計算資源に適応する簡易かつ効果的な手法を提案する。
提案手法は,2段階モデルと問合せモデルを含む広範囲な検出モデルにおいて,大幅な高速化を実現する。
論文 参考訳(メタデータ) (2022-07-12T01:32:50Z) - Tackling the Background Bias in Sparse Object Detection via Cropped
Windows [17.547911599819837]
モデル自体を変更することなく、リモートセンシングケースにおける検出能力を向上する簡単なタイリング手法を提案する。
この手順は3つの異なるデータセットで検証され、性能と速度において同様のアプローチより優れていた。
論文 参考訳(メタデータ) (2021-06-04T06:59:56Z) - Powers of layers for image-to-image translation [60.5529622990682]
本稿では,未ペア画像から画像への変換タスクに対処するシンプルなアーキテクチャを提案する。
固定重み付きイメージオートエンコーダアーキテクチャから始める。
各タスクに対して、潜在空間で動作している残留ブロックを学習し、ターゲット領域に到達するまで繰り返し呼び出される。
論文 参考訳(メタデータ) (2020-08-13T09:02:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。