論文の概要: ImaginaryNet: Learning Object Detectors without Real Images and
Annotations
- arxiv url: http://arxiv.org/abs/2210.06886v1
- Date: Thu, 13 Oct 2022 10:25:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-14 16:27:34.966455
- Title: ImaginaryNet: Learning Object Detectors without Real Images and
Annotations
- Title(参考訳): ImaginaryNet: リアルイメージとアノテーションのないオブジェクト検出器を学習する
- Authors: Minheng Ni, Zitong Huang, Kailai Feng, Wangmeng Zuo
- Abstract要約: 本稿では,事前学習された言語モデルとテキスト・ツー・イメージモデルを組み合わせた画像合成フレームワークを提案する。
合成画像とクラスラベルを使用することで、弱い教師付きオブジェクト検出を利用してImaginary-Supervised Object Detectionを実現できる。
実験により、ImaginaryNetは、実際のデータに基づいてトレーニングされた同じバックボーンの弱い監督を受けたものと比較して、ISODで約70%の性能が得られることが示された。
- 参考スコア(独自算出の注目度): 66.30908705345973
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Without the demand of training in reality, humans can easily detect a known
concept simply based on its language description. Empowering deep learning with
this ability undoubtedly enables the neural network to handle complex vision
tasks, e.g., object detection, without collecting and annotating real images.
To this end, this paper introduces a novel challenging learning paradigm
Imaginary-Supervised Object Detection (ISOD), where neither real images nor
manual annotations are allowed for training object detectors. To resolve this
challenge, we propose ImaginaryNet, a framework to synthesize images by
combining pretrained language model and text-to-image synthesis model. Given a
class label, the language model is used to generate a full description of a
scene with a target object, and the text-to-image model deployed to generate a
photo-realistic image. With the synthesized images and class labels, weakly
supervised object detection can then be leveraged to accomplish ISOD. By
gradually introducing real images and manual annotations, ImaginaryNet can
collaborate with other supervision settings to further boost detection
performance. Experiments show that ImaginaryNet can (i) obtain about 70%
performance in ISOD compared with the weakly supervised counterpart of the same
backbone trained on real data, (ii) significantly improve the baseline while
achieving state-of-the-art or comparable performance by incorporating
ImaginaryNet with other supervision settings.
- Abstract(参考訳): 実際にはトレーニングの要求がなければ、人間は言語記述に基づいて簡単に既知の概念を検出できる。
この能力でディープラーニングを活用することで、ニューラルネットワークは、実際のイメージを収集、注釈付けすることなく、オブジェクト検出などの複雑な視覚タスクを処理できるようになる。
そこで本研究では,実画像や手動のアノテーションを物体検出装置の訓練に使用できない,新しい学習パラダイムImaginary-Supervised Object Detection(ISOD)を提案する。
この課題を解決するために,事前学習された言語モデルと画像合成モデルを組み合わせた画像合成フレームワークImaginaryNetを提案する。
クラスラベルが与えられると、言語モデルは、対象オブジェクトでシーンの完全な記述を生成するために使用され、テキストから画像へのモデルがデプロイされ、フォトリアリスティックな画像を生成する。
合成画像とクラスラベルにより、弱教師付きオブジェクト検出がISODを達成するために活用される。
現実の画像や手動アノテーションを徐々に導入することで、imaginarynetは他の監督設定と協調して検出性能を高めることができる。
ImaginaryNetが使えることを示す実験
(i)実データで訓練された同一のバックボーンの弱い教師による比較で、isodの約70%のパフォーマンスを得る。
(ii)imaginarynetと他の監督設定を組み込むことで、最先端または同等のパフォーマンスを実現しつつ、ベースラインを大幅に改善する。
関連論文リスト
- Learning to Ground VLMs without Forgetting [54.033346088090674]
我々は、既存の画像や言語理解スキルを忘れずに、事前訓練されたビジュアル言語モデルに視覚的接地能力を持たせるフレームワークであるLynXを紹介する。
モデルを効果的に訓練するために、私たちはSCouTと呼ばれる高品質な合成データセットを生成します。
我々はLynXを複数のオブジェクト検出および視覚的グラウンド化データセット上で評価し、オブジェクト検出、ゼロショットローカライゼーション、グラウンドド推論において強い性能を示す。
論文 参考訳(メタデータ) (2024-10-14T13:35:47Z) - PUG: Photorealistic and Semantically Controllable Synthetic Data for
Representation Learning [31.81199165450692]
制御性とリアリズムを両立する表現学習研究のための対話型環境を新たに提案する。
エンターテイメント業界で有名な強力なゲームエンジンであるUnreal Engineを使用して、表現学習のためのPUG環境とデータセットを生成します。
論文 参考訳(メタデータ) (2023-08-08T01:33:13Z) - Seeing in Words: Learning to Classify through Language Bottlenecks [59.97827889540685]
人間は簡潔で直感的な説明を使って予測を説明することができる。
特徴表現がテキストである視覚モデルでは,画像ネットイメージを効果的に分類できることを示す。
論文 参考訳(メタデータ) (2023-06-29T00:24:42Z) - Txt2Img-MHN: Remote Sensing Image Generation from Text Using Modern
Hopfield Networks [20.856451960761948]
本稿では,リアルタイムなリモートセンシング画像を生成するために,新しいテキスト・ツー・イメージのホップフィールドネットワーク(Txt2Img-MHN)を提案する。
生成した画像のリアリズムとセマンティック一貫性をよりよく評価するため,実リモートセンシングデータを用いてゼロショット分類を行う。
提案したTxt2Img-MHNはよりリアルなリモートセンシング画像を生成することができる。
論文 参考訳(メタデータ) (2022-08-08T22:02:10Z) - De-rendering 3D Objects in the Wild [21.16153549406485]
物体の1つの像を1つの形状に分解できる弱教師付き手法を提案する。
トレーニングでは、学習プロセスをブートストラップするために、トレーニング対象の粗い初期形状の推定にのみ依存する。
本実験では,2次元画像を3次元表現にデレンダリングし,未知のオブジェクトカテゴリに一般化できることを示す。
論文 参考訳(メタデータ) (2022-01-06T23:50:09Z) - Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic [72.60554897161948]
最近のテキストと画像のマッチングモデルは、未修正画像と文の大きなコーパスに対してコントラスト学習を適用している。
本研究では、そのようなモデルを用いて、推論時に画像が与えられた記述テキストを生成する。
結果として得られたキャプションは、教師付きキャプション法によるキャプションよりもはるかに制限を受けない。
論文 参考訳(メタデータ) (2021-11-29T11:01:49Z) - Unsupervised Object-Level Representation Learning from Scene Images [97.07686358706397]
Object-level Representation Learning (ORL) はシーンイメージに対する新たな自己教師型学習フレームワークである。
我々の重要な洞察は、画像レベルの自己教師付き事前学習を、オブジェクトレベルの意味的対応を見つけるための事前学習として活用することである。
ORLは、複数の下流タスクにおける教師付きImageNet事前学習を超越しても、シーンイメージ上での自己教師型学習のパフォーマンスを著しく向上させる。
論文 参考訳(メタデータ) (2021-06-22T17:51:24Z) - CONFIG: Controllable Neural Face Image Generation [10.443563719622645]
ConfigNetは、出力画像の個々の側面を意味のある方法で制御できる、ニューラルフェイスモデルである。
提案手法では,合成データを用いて遅延空間を従来のレンダリングパイプラインの入力に対応する要素に分解する。
論文 参考訳(メタデータ) (2020-05-06T09:19:46Z) - Self-Supervised Viewpoint Learning From Image Collections [116.56304441362994]
本稿では,解析・合成パラダイムを取り入れた新たな学習フレームワークを提案する。
提案手法は,人間の顔,車,バス,電車など,複数の対象カテゴリに対して,完全に教師されたアプローチに対して競争力を発揮することを示す。
論文 参考訳(メタデータ) (2020-04-03T22:01:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。