論文の概要: DALL-E for Detection: Language-driven Context Image Synthesis for Object
Detection
- arxiv url: http://arxiv.org/abs/2206.09592v1
- Date: Mon, 20 Jun 2022 06:43:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-22 17:01:48.005024
- Title: DALL-E for Detection: Language-driven Context Image Synthesis for Object
Detection
- Title(参考訳): dall-e for detection: オブジェクト検出のための言語駆動コンテキスト画像合成
- Authors: Yunhao Ge, Jiashu Xu, Brian Nlong Zhao, Laurent Itti, Vibhav Vineet
- Abstract要約: 本稿では,大規模なコンテキスト画像の自動生成のための新しいパラダイムを提案する。
我々のアプローチの核心は、文脈の言語記述と言語駆動画像生成の相互作用を利用することである。
本研究では,4つのオブジェクト検出データセットに対する事前の文脈画像生成手法に対するアプローチの利点を実証する。
- 参考スコア(独自算出の注目度): 18.276823176045525
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Object cut-and-paste has become a promising approach to efficiently generate
large sets of labeled training data. It involves compositing foreground object
masks onto background images. The background images, when congruent with the
objects, provide helpful context information for training object recognition
models. While the approach can easily generate large labeled data, finding
congruent context images for downstream tasks has remained an elusive problem.
In this work, we propose a new paradigm for automatic context image generation
at scale. At the core of our approach lies utilizing an interplay between
language description of context and language-driven image generation. Language
description of a context is provided by applying an image captioning method on
a small set of images representing the context. These language descriptions are
then used to generate diverse sets of context images using the language-based
DALL-E image generation framework. These are then composited with objects to
provide an augmented training set for a classifier. We demonstrate the
advantages of our approach over the prior context image generation approaches
on four object detection datasets. Furthermore, we also highlight the
compositional nature of our data generation approach on out-of-distribution and
zero-shot data generation scenarios.
- Abstract(参考訳): オブジェクトカット・アンド・ペーストは、ラベル付きトレーニングデータの大規模なセットを効率的に生成するための有望なアプローチとなっている。
前景のオブジェクトマスクを背景画像に合成する。
背景画像は、オブジェクトと一致した場合、オブジェクト認識モデルのトレーニングに有用なコンテキスト情報を提供する。
提案手法は大規模ラベル付きデータを容易に生成できるが,下流タスクのコングロレントなコンテキスト画像の発見はいまだ解明されていない。
本研究では,大規模コンテキスト画像の自動生成のための新しいパラダイムを提案する。
我々のアプローチの核心は、文脈の言語記述と言語駆動画像生成の相互作用を利用することである。
文脈を表す画像の小さなセットに画像キャプション法を適用することにより、文脈の言語記述を提供する。
これらの言語記述は、言語ベースのdall-eイメージ生成フレームワークを使用して、さまざまなコンテキストイメージを生成するために使用される。
これらはオブジェクトで合成され、分類器のための拡張トレーニングセットを提供する。
本研究では,4つのオブジェクト検出データセットに対する先行文脈画像生成手法に対するアプローチの利点を示す。
さらに,アウトオブディストリビューションとゼロショットデータ生成シナリオにおけるデータ生成アプローチの構成的性質についても強調する。
関連論文リスト
- Leveraging Open-Vocabulary Diffusion to Camouflaged Instance
Segmentation [59.78520153338878]
テキスト・ツー・イメージ拡散技術は、テキスト記述から高品質な画像を生成する素晴らしい能力を示している。
そこで本研究では,オープン語彙を応用した最先端拡散モデルを用いて,多スケールのテキスト・視覚的特徴を学習する手法を提案する。
論文 参考訳(メタデータ) (2023-12-29T07:59:07Z) - Synchronizing Vision and Language: Bidirectional Token-Masking
AutoEncoder for Referring Image Segmentation [26.262887028563163]
Referring Image (RIS)は、自然言語で表現されたターゲットオブジェクトをピクセルレベルのシーン内でセグメントすることを目的としている。
マスク付きオートエンコーダ(MAE)に触発された新しい双方向トークンマスキングオートエンコーダ(BTMAE)を提案する。
BTMAEは、画像と言語の両方に欠けている機能をトークンレベルで再構築することで、画像から言語、言語へのイメージのコンテキストを学習する。
論文 参考訳(メタデータ) (2023-11-29T07:33:38Z) - LLM Blueprint: Enabling Text-to-Image Generation with Complex and
Detailed Prompts [60.54912319612113]
拡散に基づく生成モデルは、テキストと画像の生成が著しく進歩するが、長く複雑なテキストプロンプトを処理する際には困難に直面する。
本稿では,Large Language Models (LLM) を利用してテキストプロンプトから重要なコンポーネントを抽出する手法を提案する。
複数のオブジェクトを特徴とする複雑なプロンプトの評価は,ベースライン拡散モデルと比較して,リコールの大幅な改善を示す。
論文 参考訳(メタデータ) (2023-10-16T17:57:37Z) - CtxMIM: Context-Enhanced Masked Image Modeling for Remote Sensing Image Understanding [38.53988682814626]
リモートセンシング画像理解のためのコンテキスト強化マスク画像モデリング手法(CtxMIM)を提案する。
CtxMIMは、オリジナルのイメージパッチを再構成テンプレートとして定式化し、2セットのイメージパッチを操作するために、Siameseフレームワークを使用している。
シンプルでエレガントな設計により、CtxMIMは、大規模データセットでオブジェクトレベルまたはピクセルレベルの機能を学ぶための事前トレーニングモデルを奨励する。
論文 参考訳(メタデータ) (2023-09-28T18:04:43Z) - Beyond Generation: Harnessing Text to Image Models for Object Detection
and Segmentation [29.274362919954218]
精度の高いラベル付きトレーニングデータを自動的に生成する新しいパラダイムを提案する。
提案手法は、トレーニングデータ生成を前景オブジェクト生成とコンテキスト的に一貫性のある背景生成に分離する。
5つのオブジェクト検出とセグメンテーションデータセットに対するアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-09-12T04:41:45Z) - Taming Encoder for Zero Fine-tuning Image Customization with
Text-to-Image Diffusion Models [55.04969603431266]
本稿では,ユーザが指定したカスタマイズされたオブジェクトの画像を生成する手法を提案する。
この手法は、従来のアプローチで要求される長大な最適化をバイパスする一般的なフレームワークに基づいている。
提案手法は, 出力品質, 外観の多様性, 被写体忠実度を考慮した画像合成が可能であることを示す。
論文 参考訳(メタデータ) (2023-04-05T17:59:32Z) - Local and Global GANs with Semantic-Aware Upsampling for Image
Generation [201.39323496042527]
ローカルコンテキストを用いて画像を生成することを検討する。
セマンティックマップをガイダンスとして用いたクラス固有の生成ネットワークを提案する。
最後に,セマンティック・アウェア・アップサンプリング手法を提案する。
論文 参考訳(メタデータ) (2022-02-28T19:24:25Z) - Text-to-Image Generation Grounded by Fine-Grained User Attention [62.94737811887098]
Localized Narrativesは、マウストレースと組み合わせた画像の詳細な自然言語記述を備えたデータセットである。
本稿では、このグラウンド化を利用して画像を生成するシーケンシャルモデルであるTReCSを提案する。
論文 参考訳(メタデータ) (2020-11-07T13:23:31Z) - Learning to Represent Image and Text with Denotation Graph [32.417311523031195]
本稿では,画像とテキスト間の暗黙的・視覚的接地表現の集合から学習表現を提案する。
得られた構造的関係を利用して,最先端のマルチモーダル学習モデルをさらに改良できることを示す。
論文 参考訳(メタデータ) (2020-10-06T18:00:58Z) - Learning Object Detection from Captions via Textual Scene Attributes [70.90708863394902]
キャプションには、オブジェクトの属性やそれらの関係など、画像に関するよりリッチな情報が含まれている、と我々は主張する。
本稿では,この「テキストシーングラフ」の属性を用いて物体検知器を訓練する手法を提案する。
得られたモデルが、いくつかの挑戦的なオブジェクト検出データセットに対して、最先端の結果を達成することを実証的に実証した。
論文 参考訳(メタデータ) (2020-09-30T10:59:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。