論文の概要: BBQ-to-Image: Numeric Bounding Box and Qolor Control in Large-Scale Text-to-Image Models
- arxiv url: http://arxiv.org/abs/2602.20672v1
- Date: Tue, 24 Feb 2026 08:22:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.672724
- Title: BBQ-to-Image: Numeric Bounding Box and Qolor Control in Large-Scale Text-to-Image Models
- Title(参考訳): BBQ-to- Image:大規模テキスト・画像モデルにおける数値境界ボックスとQolor制御
- Authors: Eliran Kachlon, Alexander Visheratin, Nimrod Sarid, Tal Hacham, Eyal Gutflaish, Saar Huberman, Hezi Zisman, David Ruppin, Ron Mokady,
- Abstract要約: BBQは,数値境界ボックスとRGB三重項を統一された構造化テキストフレームワーク内で条件付ける大規模テキスト・ツー・イメージモデルである。
BBQは強力なボックスアライメントを実現し、最先端のベースラインよりもRGB色の忠実度を向上させる。
- 参考スコア(独自算出の注目度): 34.68686478533657
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Text-to-image models have rapidly advanced in realism and controllability, with recent approaches leveraging long, detailed captions to support fine-grained generation. However, a fundamental parametric gap remains: existing models rely on descriptive language, whereas professional workflows require precise numeric control over object location, size, and color. In this work, we introduce BBQ, a large-scale text-to-image model that directly conditions on numeric bounding boxes and RGB triplets within a unified structured-text framework. We obtain precise spatial and chromatic control by training on captions enriched with parametric annotations, without architectural modifications or inference-time optimization. This also enables intuitive user interfaces such as object dragging and color pickers, replacing ambiguous iterative prompting with precise, familiar controls. Across comprehensive evaluations, BBQ achieves strong box alignment and improves RGB color fidelity over state-of-the-art baselines. More broadly, our results support a new paradigm in which user intent is translated into an intermediate structured language, consumed by a flow-based transformer acting as a renderer and naturally accommodating numeric parameters.
- Abstract(参考訳): テキスト・ツー・イメージ・モデルは現実主義と制御可能性において急速に進歩し、近年では細粒度生成を支援するために長い詳細なキャプションを活用している。
既存のモデルは記述言語に依存しているのに対して、プロのワークフローはオブジェクトの位置、サイズ、色に関する正確な数値制御を必要とする。
本研究では,数値境界ボックスとRGB三重項を統一された構造化テキストフレームワーク内で直接条件付ける大規模テキスト・ツー・イメージ・モデルBBQを紹介する。
パラメトリックアノテーションを付加したキャプションをトレーニングすることで,設計変更や推論時間最適化を伴わず,正確な空間的・色調制御を実現する。
これはまた、オブジェクトのドラッグやカラーピッカーといった直感的なユーザーインターフェイスを可能にし、あいまいな反復的なプロンプトを、正確に親しみやすいコントロールに置き換える。
包括的評価を通じて、BBQは強力なボックスアライメントを実現し、最先端のベースラインよりもRGB色の忠実度を向上させる。
より広義には、ユーザ意図が中間構造言語に変換され、レンダラーとして機能し、自然に数値パラメータを調節するフローベーストランスフォーマーによって消費される新しいパラダイムをサポートする。
関連論文リスト
- Generating an Image From 1,000 Words: Enhancing Text-to-Image With Structured Captions [33.440447854396446]
我々は、長文の字幕上で、最初のオープンソーステキスト・ツー・イメージモデルを訓練する。
長いキャプションを効率的に処理するために,DimFusionを提案する。
また,テキスト・アズ・ア・ブートネック・コンストラクション(TaBR)の評価プロトコルについても紹介する。
論文 参考訳(メタデータ) (2025-11-10T09:25:25Z) - TASeg: Text-aware RGB-T Semantic Segmentation based on Fine-tuning Vision Foundation Models [26.983562312613877]
本稿では,ローランド適応(LoRA)ファインチューニング技術を用いたテキスト認識RGB-Tセグメンテーションフレームワークを提案する。
具体的には,画像エンコーダにおける動的特徴融合モジュール (DFFM) を提案する。
論文 参考訳(メタデータ) (2025-06-27T07:34:28Z) - User-Aware Prefix-Tuning is a Good Learner for Personalized Image Captioning [35.211749514733846]
従来の画像キャプション方式は、ユーザの好みや特徴を無視することが多い。
既存のほとんどの手法は、メモリネットワークやトランスフォーマーによるユーザコンテキストの融合プロセスを強調している。
本稿では,ユーザコンテキストを利用したパーソナライズされた画像キャプションフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-08T02:08:00Z) - SSMG: Spatial-Semantic Map Guided Diffusion Model for Free-form
Layout-to-Image Generation [68.42476385214785]
本稿では,レイアウトから派生した特徴写像を用いた空間意味マップガイド(SSMG)拡散モデルを提案する。
SSMGは,従来の研究に比べて空間的,意味的な制御性に優れた生成品質を実現する。
また,RSA(Relation-Sensitive Attention)機構とLSA(Location-Sensitive Attention)機構を提案する。
論文 参考訳(メタデータ) (2023-08-20T04:09:12Z) - L-CAD: Language-based Colorization with Any-level Descriptions using
Diffusion Priors [62.80068955192816]
我々は,任意のレベルの記述で言語ベースの色付けを行う統一モデルを提案する。
我々は、その頑健な言語理解と豊かな色優先のために、事前訓練されたモダリティ生成モデルを活用する。
提案した新しいサンプリング戦略により,多様な複雑なシナリオにおいて,インスタンス認識のカラー化を実現する。
論文 参考訳(メタデータ) (2023-05-24T14:57:42Z) - Enhancing Black-Box Few-Shot Text Classification with Prompt-Based Data
Augmentation [42.05617728412819]
大規模言語モデルの勾配にアクセスすることなく、少数ショットのテキスト分類を最適化する方法を示す。
我々のアプローチはBT-Classifierと呼ばれ、最先端のブラックボックス学習者よりもはるかに優れています。
論文 参考訳(メタデータ) (2023-05-23T07:54:34Z) - Simple Open-Vocabulary Object Detection with Vision Transformers [51.57562920090721]
本稿では,画像テキストモデルをオープン語彙オブジェクト検出に転送するための強力なレシピを提案する。
我々は、最小限の修正、コントラスト的な画像テキスト事前学習、エンドツーエンド検出細調整を備えた標準のVision Transformerアーキテクチャを使用する。
我々は、ゼロショットテキスト条件とワンショット画像条件オブジェクト検出において、非常に強力な性能を達成するために必要な適応戦略と正規化を提供する。
論文 参考訳(メタデータ) (2022-05-12T17:20:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。