Fugu-MT 論文翻訳(概要): QUOTA: Quantifying Objects with Text-to-Image Models for Any Domain

論文の概要: QUOTA: Quantifying Objects with Text-to-Image Models for Any Domain

arxiv url: http://arxiv.org/abs/2411.19534v1
Date: Fri, 29 Nov 2024 08:20:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-02 20:28:07.95345
Title: QUOTA: Quantifying Objects with Text-to-Image Models for Any Domain
Title（参考訳）: QUOTA:任意のドメインに対するテキスト・ツー・イメージ・モデルによるオブジェクトの定量化
Authors: Wenfang Sun, Yingjun Du, Gaowen Liu, Cees G. M. Snoek,
Abstract要約: 生成テキスト・画像モデルを用いてオブジェクトの数を定量化する問題に取り組む。新しい画像領域ごとにそのようなモデルをトレーニングするのではなく、ドメインに依存しない視点からこの問題を最初に検討する。テキスト・ツー・イメージ・モデルの最適化フレームワークであるQUOTAを提案する。
参考スコア（独自算出の注目度）: 40.661699970360736
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We tackle the problem of quantifying the number of objects by a generative text-to-image model. Rather than retraining such a model for each new image domain of interest, which leads to high computational costs and limited scalability, we are the first to consider this problem from a domain-agnostic perspective. We propose QUOTA, an optimization framework for text-to-image models that enables effective object quantification across unseen domains without retraining. It leverages a dual-loop meta-learning strategy to optimize a domain-invariant prompt. Further, by integrating prompt learning with learnable counting and domain tokens, our method captures stylistic variations and maintains accuracy, even for object classes not encountered during training. For evaluation, we adopt a new benchmark specifically designed for object quantification in domain generalization, enabling rigorous assessment of object quantification accuracy and adaptability across unseen domains in text-to-image generation. Extensive experiments demonstrate that QUOTA outperforms conventional models in both object quantification accuracy and semantic consistency, setting a new benchmark for efficient and scalable text-to-image generation for any domain.
Abstract（参考訳）: 生成テキスト・画像モデルを用いてオブジェクトの数を定量化する問題に取り組む。新しい画像領域ごとにそのようなモデルをトレーニングするのではなく、高い計算コストと限られたスケーラビリティをもたらす。テキスト・ツー・イメージ・モデルの最適化フレームワークであるQUOTAを提案する。ドメイン不変プロンプトを最適化するために、デュアルループメタ学習戦略を活用する。さらに,学習可能なカウントやドメイントークンと即時学習を統合することで,学習中に遭遇しないオブジェクトクラスに対しても,スタイル的変動を捉え,精度を維持できる。評価のために、ドメイン一般化におけるオブジェクト定量化に特化した新しいベンチマークを採用し、テキスト・画像生成における未確認領域間のオブジェクト定量化精度と適応性の厳密な評価を可能にする。大規模な実験では、QUOTAはオブジェクトの定量化精度とセマンティック一貫性の両方で従来のモデルより優れており、任意のドメインに対して効率的でスケーラブルなテキスト・ツー・イメージ生成のための新しいベンチマークが設定されている。

関連論文リスト

Learning to Generalize Unseen Domains via Multi-Source Meta Learning for Text Classification [71.08024880298613]
テキスト分類の多元的領域一般化について検討する。本稿では、複数の参照ドメインを使用して、未知のドメインで高い精度を達成可能なモデルをトレーニングするフレームワークを提案する。
論文参考訳（メタデータ） (2024-09-20T07:46:21Z)
Iterative Object Count Optimization for Text-to-image Diffusion Models [59.03672816121209]
画像とテキストのペアから学ぶ現在のモデルは、本質的にカウントに苦慮している。本稿では,物体のポテンシャルを集計する計数モデルから得られた計数損失に基づいて生成画像の最適化を提案する。様々なオブジェクトの生成を評価し,精度を大幅に向上させた。
論文参考訳（メタデータ） (2024-08-21T15:51:46Z)
Unified Language-driven Zero-shot Domain Adaptation [55.64088594551629]
Unified Language-driven Zero-shot Domain Adaptation (ULDA)は、新しいタスクセットである。これにより、ドメインIDの知識を明示することなく、単一のモデルを多様なターゲットドメインに適応させることができる。
論文参考訳（メタデータ） (2024-04-10T16:44:11Z)
Few-Shot Object Detection with Sparse Context Transformers [37.106378859592965]
少ないショット検出は、少ないラベル付きデータでトレーニングされたモデルを使用してオブジェクトをローカライズするパターン認識における主要なタスクである。本稿では,ソース領域におけるオブジェクトの知識を効果的に活用し,対象領域内の少数のトレーニング画像からスパースコンテキストを自動的に学習する新しいスパースコンテキスト変換器を提案する。提案手法を2つの難易度オブジェクト検出ベンチマークで評価し,提案手法が関連する最先端技術と比較して競合性能を得ることを示す実験結果を得た。
論文参考訳（メタデータ） (2024-02-14T17:10:01Z)
Improving Diversity in Zero-Shot GAN Adaptation with Semantic Variations [61.132408427908175]
0ショットのGAN適応は、よく訓練されたジェネレータを再利用して、目に見えないターゲットドメインの画像を合成することを目的としている。実際の画像の代わりに1つの代表的テキスト機能しか持たないため、合成された画像は徐々に多様性を損なう。そこで本研究では,CLIP空間における対象テキストの意味的変化を見つけるための新しい手法を提案する。
論文参考訳（メタデータ） (2023-08-21T08:12:28Z)
Taming Encoder for Zero Fine-tuning Image Customization with Text-to-Image Diffusion Models [55.04969603431266]
本稿では,ユーザが指定したカスタマイズされたオブジェクトの画像を生成する手法を提案する。この手法は、従来のアプローチで要求される長大な最適化をバイパスする一般的なフレームワークに基づいている。提案手法は, 出力品質, 外観の多様性, 被写体忠実度を考慮した画像合成が可能であることを示す。
論文参考訳（メタデータ） (2023-04-05T17:59:32Z)
SemAug: Semantically Meaningful Image Augmentations for Object Detection Through Language Grounding [5.715548995729382]
本研究では,シーンに文脈的に意味のある知識を注入することで,画像強調のための効果的な手法を提案する。本手法は,意味的に適切な新しいオブジェクトを抽出することから,言語接地によるオブジェクト検出のための意味的意味的画像強調法であるSemAugを出発点とする。
論文参考訳（メタデータ） (2022-08-15T19:00:56Z)
Context-Conditional Adaptation for Recognizing Unseen Classes in Unseen Domains [48.17225008334873]
我々は,COCOA (COntext Conditional Adaptive) Batch-Normalization と統合された特徴生成フレームワークを提案する。生成されたビジュアル機能は、基礎となるデータ分散をよりよくキャプチャすることで、テスト時に見つからないクラスやドメインに一般化できます。確立した大規模ベンチマークであるDomainNetに対する我々のアプローチを徹底的に評価し、分析する。
論文参考訳（メタデータ） (2021-07-15T17:51:16Z)
PixMatch: Unsupervised Domain Adaptation via Pixelwise Consistency Training [4.336877104987131]
教師なしドメイン適応はセマンティックセグメンテーションの有望なテクニックである。対象領域整合性訓練の概念に基づく非監視領域適応のための新しいフレームワークを提案する。私たちのアプローチはシンプルで、実装が簡単で、トレーニング時にメモリ効率が向上します。
論文参考訳（メタデータ） (2021-05-17T19:36:28Z)
Object-Centric Image Generation from Layouts [93.10217725729468]
複数のオブジェクトを持つ複雑なシーンを生成するレイアウト・ツー・イメージ生成法を開発した。本手法は,シーン内のオブジェクト間の空間的関係の表現を学習し,レイアウトの忠実度の向上につながる。本稿では,Fr'echet Inception Distanceのオブジェクト中心適応であるSceneFIDを紹介する。
論文参考訳（メタデータ） (2020-03-16T21:40:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。