論文の概要: RTGen: Generating Region-Text Pairs for Open-Vocabulary Object Detection
- arxiv url: http://arxiv.org/abs/2405.19854v1
- Date: Thu, 30 May 2024 09:03:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-31 15:09:01.794074
- Title: RTGen: Generating Region-Text Pairs for Open-Vocabulary Object Detection
- Title(参考訳): RTGen:オープン語彙オブジェクト検出のための領域テキストペアの生成
- Authors: Fangyi Chen, Han Zhang, Zhantao Yang, Hao Chen, Kai Hu, Marios Savvides,
- Abstract要約: オープン・ボキャブラリ・オブジェクト検出は、地域-セマンティック関係のソリッド・モデリングを必要とする。
拡張性のあるオープン語彙領域-テキストペアを生成するRTGenを提案する。
- 参考スコア(独自算出の注目度): 20.630629383286262
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open-vocabulary object detection (OVD) requires solid modeling of the region-semantic relationship, which could be learned from massive region-text pairs. However, such data is limited in practice due to significant annotation costs. In this work, we propose RTGen to generate scalable open-vocabulary region-text pairs and demonstrate its capability to boost the performance of open-vocabulary object detection. RTGen includes both text-to-region and region-to-text generation processes on scalable image-caption data. The text-to-region generation is powered by image inpainting, directed by our proposed scene-aware inpainting guider for overall layout harmony. For region-to-text generation, we perform multiple region-level image captioning with various prompts and select the best matching text according to CLIP similarity. To facilitate detection training on region-text pairs, we also introduce a localization-aware region-text contrastive loss that learns object proposals tailored with different localization qualities. Extensive experiments demonstrate that our RTGen can serve as a scalable, semantically rich, and effective source for open-vocabulary object detection and continue to improve the model performance when more data is utilized, delivering superior performance compared to the existing state-of-the-art methods.
- Abstract(参考訳): OVD (Open-vocabulary Object Detection) は、大容量の領域テキストペアから学習可能な、領域-意味関係のソリッド・モデリングを必要とする。
しかし、こうしたデータはかなりのアノテーションコストのため、実際には限られている。
本研究では,拡張性のあるオープン語彙領域-テキストペアを生成するRTGenを提案し,オープン語彙オブジェクト検出の性能向上を実証する。
RTGenは、スケーラブルな画像キャプチャーデータに対して、テキスト・ツー・リージョンとリージョン・ツー・テキストの生成プロセスの両方を含んでいる。
テキスト・ツー・リージョン生成は画像のインパインティングによって実現され、レイアウト全体の調和のために提案したシーン認識型インパインティング・ガイドによって誘導される。
地域間テキスト生成では、複数の領域レベルの画像キャプションを様々なプロンプトで実行し、CLIPの類似性に応じて最適なテキストを選択する。
また,領域テキストペアの検出訓練を容易にするために,異なる位置化特性に適合したオブジェクト提案を学習する,局所化対応の領域テキストコントラスト損失を導入する。
大規模な実験により、我々のRTGenは、オープンな語彙オブジェクト検出のためのスケーラブルでセマンティックにリッチで効果的なソースとして機能し、より多くのデータを利用する場合のモデル性能の向上を継続し、既存の最先端手法よりも優れたパフォーマンスを提供できることを示した。
関連論文リスト
- Large Language Model with Region-guided Referring and Grounding for CT Report Generation [4.804660464589285]
既存の方法は主にボリューム全体のグローバルな特徴についてのみ考慮する。
我々は,CTレポート生成のための第1の領域誘導参照およびグラウンドディングフレームワークであるReg2RGを提案する。
論文 参考訳(メタデータ) (2024-11-23T12:25:06Z) - Visual Text Generation in the Wild [67.37458807253064]
野生で高品質なテキスト画像を生成する視覚テキスト生成装置(SceneVTG)を提案する。
提案したSceneVTGは、従来のレンダリングに基づく手法と最近の拡散に基づく手法を、忠実さと理性の観点から大きく上回っている。
生成された画像は、テキスト検出とテキスト認識を含むタスクに優れたユーティリティを提供する。
論文 参考訳(メタデータ) (2024-07-19T09:08:20Z) - LLMs Meet VLMs: Boost Open Vocabulary Object Detection with Fine-grained
Descriptors [58.75140338866403]
DVDetはディスクリプタ強化オープン語彙検出器である。
局所埋め込みをイメージライクな表現に変換することで、一般的なオープンな語彙検出トレーニングに直接統合することができる。
複数の大規模ベンチマークに対する大規模な実験により、DVDetは最先端技術よりも大きなマージンで一貫して優れていたことが示されている。
論文 参考訳(メタデータ) (2024-02-07T07:26:49Z) - CLIM: Contrastive Language-Image Mosaic for Region Representation [58.05870131126816]
Contrastive Language-Image Mosaic (CLIM) は、領域とテキストの表現を整合させる新しいアプローチである。
CLIMは、異なるオープン語彙オブジェクト検出方法を一貫して改善する。
視覚言語モデルの領域表現を効果的に強化することができる。
論文 参考訳(メタデータ) (2023-12-18T17:39:47Z) - Towards Natural Language-Guided Drones: GeoText-1652 Benchmark with Spatial Relation Matching [60.645802236700035]
自然言語コマンドを通じてドローンをナビゲートすることは、アクセス可能なマルチモーダルデータセットが不足しているため、依然として難しい。
我々は新しい自然言語誘導ジオローカライゼーションベンチマークGeoText-1652を紹介する。
このデータセットは、インタラクティブなヒューマンコンピュータプロセスを通じて体系的に構築される。
論文 参考訳(メタデータ) (2023-11-21T17:52:30Z) - SpaText: Spatio-Textual Representation for Controllable Image Generation [61.89548017729586]
SpaTextはオープン語彙シーン制御を用いたテキスト・ツー・イメージ生成の新しい手法である。
シーン全体を記述したグローバルテキストプロンプトに加えて、ユーザはセグメンテーションマップを提供する。
現状拡散モデルである画素ベースと潜在条件ベースでの有効性を示す。
論文 参考訳(メタデータ) (2022-11-25T18:59:10Z) - RegionCLIP: Region-based Language-Image Pretraining [94.29924084715316]
画像テキストペアを用いたコントラスト言語画像事前学習(CLIP)は,画像分類において顕著な結果を得た。
そこで我々は,CLIPを拡張して領域レベルの視覚表現を学習するRegionalCLIPという手法を提案する。
提案手法は,COCOデータセットとLVISデータセットの新たなカテゴリに対して,3.8 AP50と2.2 APの精度を著しく向上させる。
論文 参考訳(メタデータ) (2021-12-16T18:39:36Z) - Arbitrary-Shaped Text Detection withAdaptive Text Region Representation [1.4546816913520362]
密な隣接テキストインスタンスを正確に検出できる堅牢なパイプラインを備えた,新しいテキスト領域表現手法を提案する。
新しいtextregion表現が有効であり、パイプラインが軌道形状の近接したテキストインスタンスを正確に検出できることを実証します。
論文 参考訳(メタデータ) (2021-04-01T07:06:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。