論文の概要: CapDet: Unifying Dense Captioning and Open-World Detection Pretraining
- arxiv url: http://arxiv.org/abs/2303.02489v1
- Date: Sat, 4 Mar 2023 19:53:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-07 19:20:33.518485
- Title: CapDet: Unifying Dense Captioning and Open-World Detection Pretraining
- Title(参考訳): capdet: 密集したキャプションとオープンワールド検出の事前学習を統一する
- Authors: Yanxin Long, Youpeng Wen, Jianhua Han, Hang Xu, Pengzhen Ren, Wei
Zhang, Shen Zhao, Xiaodan Liang
- Abstract要約: 本稿では,所定のカテゴリリストに基づいて予測するか,あるいは予測された境界ボックスのカテゴリを直接生成する,CapDetという新しいオープンワールド検出器を提案する。
具体的には,オープンワールド検出と高密度キャプションタスクを,付加的な高密度キャプションヘッドを導入することで,単一の効果的なフレームワークに統合する。
- 参考スコア(独自算出の注目度): 68.8382821890089
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Benefiting from large-scale vision-language pre-training on image-text pairs,
open-world detection methods have shown superior generalization ability under
the zero-shot or few-shot detection settings. However, a pre-defined category
space is still required during the inference stage of existing methods and only
the objects belonging to that space will be predicted. To introduce a "real"
open-world detector, in this paper, we propose a novel method named CapDet to
either predict under a given category list or directly generate the category of
predicted bounding boxes. Specifically, we unify the open-world detection and
dense caption tasks into a single yet effective framework by introducing an
additional dense captioning head to generate the region-grounded captions.
Besides, adding the captioning task will in turn benefit the generalization of
detection performance since the captioning dataset covers more concepts.
Experiment results show that by unifying the dense caption task, our CapDet has
obtained significant performance improvements (e.g., +2.1% mAP on LVIS rare
classes) over the baseline method on LVIS (1203 classes). Besides, our CapDet
also achieves state-of-the-art performance on dense captioning tasks, e.g.,
15.44% mAP on VG V1.2 and 13.98% on the VG-COCO dataset.
- Abstract(参考訳): 画像テキストペアによる大規模視覚言語事前学習の恩恵を受け、ゼロショットまたは少数ショット検出設定下では、オープンワールド検出手法が優れた一般化能力を示している。
しかし、既に定義された圏空間は、既存の手法の推論段階で必要であり、その空間に属する対象だけが予測される。
本稿では,「現実」のオープンワールド検出器を導入するため,与えられたカテゴリリストの下で予測するか,予測されたバウンディングボックスのカテゴリを直接生成するcapdetという新しい手法を提案する。
具体的には, 地域別キャプションを生成するために, 新たなキャプションヘッドを導入することで, オープンワールド検出と高密度キャプションタスクを, 単一の有効なフレームワークに統合する。
さらに、キャプション処理を追加することは、キャプションデータセットがより多くの概念をカバーするため、検出性能の一般化に役立つ。
実験の結果,高密度キャプションタスクを統一することにより,LVIS(1203クラス)のベースライン法よりも高い性能(例えば,LVISレアクラスでは+2.1% mAP)が得られた。
さらに、当社のCapDetは、VG V1.2では15.44% mAP、VG-COCOデータセットでは13.98%といった、高密度キャプションタスクの最先端のパフォーマンスも達成しています。
関連論文リスト
- Positive-Augmented Contrastive Learning for Vision-and-Language Evaluation and Training [44.008094698200026]
PAC-S++はCLIPモデルを利用した学習可能なメトリックであり、Webコンパイルされたデータとクリーンなデータの両方で事前トレーニングされている。
PAC-S++をキャプションモデルの微調整段階に組み込むことで,文の繰り返しや文法的誤りが少なく,意味的に豊かなキャプションが得られることを示す。
論文 参考訳(メタデータ) (2024-10-09T18:00:09Z) - TROPE: TRaining-Free Object-Part Enhancement for Seamlessly Improving Fine-Grained Zero-Shot Image Captioning [30.506968671472517]
我々はTRaining-Free Object-Part Enhancement (TROPE)を紹介する。
TROPEは、オブジェクト検出の提案と自然言語処理技術を使用して、追加のオブジェクト部分の詳細でベースキャプションを豊かにする。
評価の結果,TROPEはテスト対象のゼロショットICアプローチすべてに対して一貫して性能を向上し,細粒度ICデータセットの最先端化を実現していることがわかった。
論文 参考訳(メタデータ) (2024-09-30T05:24:01Z) - Mining Fine-Grained Image-Text Alignment for Zero-Shot Captioning via
Text-Only Training [14.340740609933437]
そこで本研究では,モダリティギャップを低減するために,テキストのみのトレーニングを施したゼロショット画像キャプションフレームワークを提案する。
特に,地域情報を活用するためのサブリージョン機能アグリゲーションを導入する。
フレームワークを拡張してゼロショットのVQAパイプラインを構築し、その汎用性を実証します。
論文 参考訳(メタデータ) (2024-01-04T16:43:46Z) - CoDet: Co-Occurrence Guided Region-Word Alignment for Open-Vocabulary
Object Detection [78.0010542552784]
CoDetはオープン語彙オブジェクト検出のためのオブジェクトレベルの視覚言語表現を学習するための新しいアプローチである。
共有概念に言及するイメージをキャプションにグループ化することにより、共有概念に対応するオブジェクトは、高い共起性を示す。
CoDetは、オープン語彙検出において優れたパフォーマンスと魅力的なスケーラビリティを持っている。
論文 参考訳(メタデータ) (2023-10-25T14:31:02Z) - EdaDet: Open-Vocabulary Object Detection Using Early Dense Alignment [28.983503845298824]
本稿では,一般化可能な局所意味論とオブジェクトレベルの予測とのギャップを埋めるために,早期Dense Alignment (EDA)を提案する。
EDAでは、局所的なきめ細かなセマンティクスを維持するために、オブジェクトレベルのアライメントではなく、オブジェクトレベルのインシデントを学習するためにオブジェクトレベルのインシデントを使用します。
論文 参考訳(メタデータ) (2023-09-03T12:04:14Z) - DeCap: Decoding CLIP Latents for Zero-Shot Captioning via Text-Only
Training [73.74291217502928]
ゼロショットキャプションのための単純なフレームワークであるDeCapを提案する。
軽量な視覚認識言語デコーダを提案する。
視覚的な埋め込みはCLIPテキスト埋め込み空間に投影するが、投影された埋め込みは視覚的な入力の情報を保持する。
論文 参考訳(メタデータ) (2023-03-06T11:02:47Z) - Betrayed by Captions: Joint Caption Grounding and Generation for Open
Vocabulary Instance Segmentation [80.48979302400868]
オープンな語彙のインスタンスセグメンテーションに注目し、セグメンテーションモデルを拡張して、インスタンスレベルの新しいカテゴリを分類し、セグメンテーションする。
これまでは、画像領域と名詞の字幕間の1対1のマッピングを確立するために、大量の字幕データセットと複雑なパイプラインに頼っていた。
我々は,一致したオブジェクトのみに着目して学習効率を向上させる新しいグラウンドニング損失を取り入れた,共同の textbf Caption Grounding and Generation (CGG) フレームワークを考案した。
論文 参考訳(メタデータ) (2023-01-02T18:52:12Z) - A Simple Baseline for Zero-shot Semantic Segmentation with Pre-trained
Vision-language Model [61.58071099082296]
オブジェクト検出やセマンティックセグメンテーションといった、より広範な視覚問題に対して、ゼロショット認識をどのようにうまく機能させるかは定かではない。
本稿では,既訓練の視覚言語モデルであるCLIPを用いて,ゼロショットセマンティックセマンティックセマンティックセマンティクスを構築することを目的とした。
実験結果から, この単純なフレームワークは, 従来の最先端をはるかに上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2021-12-29T18:56:18Z) - Injecting Semantic Concepts into End-to-End Image Captioning [61.41154537334627]
本稿では、地域特徴を抽出することなくグリッド表現を使用する、純粋視覚変換器を用いた画像キャプションモデルViTCAPを提案する。
性能向上のために,意味論的概念を予測し,それをエンドツーエンドのキャプションに組み込む新しいコンセプトトークンネットワーク(CTN)を導入する。
特に、CTNは視覚変換器に基づいて構築され、分類タスクを通じて概念トークンを予測するように設計されている。
論文 参考訳(メタデータ) (2021-12-09T22:05:05Z) - Zero-Shot Detection via Vision and Language Knowledge Distillation [28.54818724798105]
視覚・言語知識蒸留によるトレーニング手法「ViLD」を提案します。
予め訓練したゼロショット画像分類モデルから知識を2段階検出器に抽出する。
本手法では,検出器内の領域埋め込みをテキストに調整し,事前学習したモデルにより推定した画像埋め込みを行う。
論文 参考訳(メタデータ) (2021-04-28T17:58:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。