論文の概要: Open-world Text-specified Object Counting
- arxiv url: http://arxiv.org/abs/2306.01851v2
- Date: Fri, 15 Sep 2023 23:13:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 23:25:46.632118
- Title: Open-world Text-specified Object Counting
- Title(参考訳): オープンワールドテキスト指定オブジェクトカウント
- Authors: Niki Amini-Naieni, Kiana Amini-Naieni, Tengda Han, Andrew Zisserman
- Abstract要約: CounTXは、画像中のオープンワールドオブジェクトをカウントするための、クラスに依存しないシングルステージモデルである。
テキスト記述付きFSC-147の強化版であるFSC-147-Dを提示・リリースする。
- 参考スコア(独自算出の注目度): 54.88804890463491
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Our objective is open-world object counting in images, where the target
object class is specified by a text description. To this end, we propose
CounTX, a class-agnostic, single-stage model using a transformer decoder
counting head on top of pre-trained joint text-image representations. CounTX is
able to count the number of instances of any class given only an image and a
text description of the target object class, and can be trained end-to-end. In
addition to this model, we make the following contributions: (i) we compare the
performance of CounTX to prior work on open-world object counting, and show
that our approach exceeds the state of the art on all measures on the FSC-147
benchmark for methods that use text to specify the task; (ii) we present and
release FSC-147-D, an enhanced version of FSC-147 with text descriptions, so
that object classes can be described with more detailed language than their
simple class names. FSC-147-D and the code are available at
https://www.robots.ox.ac.uk/~vgg/research/countx.
- Abstract(参考訳): 我々の目標は、対象のオブジェクトクラスがテキスト記述によって指定される、画像中のオープンワールドオブジェクトカウントである。
そこで本研究では,事前学習されたジョイントテキスト画像表現の上に,トランスデコーダカウントヘッドを用いた,クラスに依存しない単段モデルcountxを提案する。
CounTXは、対象のオブジェクトクラスのイメージとテキスト記述のみを与えられたクラスのインスタンス数をカウントすることができ、エンドツーエンドでトレーニングすることができる。
このモデルに加えて、以下の貢献をしている。
(i)CounTXの性能とオープンワールドオブジェクトカウントの先行研究を比較し,本手法がタスク指定にテキストを使用する手法について,FSC-147ベンチマークのすべての指標において,その手法が技術状況を上回ることを示す。
(II) FSC-147-D はテキスト記述付き FSC-147 の拡張版であり,単純なクラス名よりも詳細な言語で記述できる。
fsc-147-dとコードはhttps://www.robots.ox.ac.uk/~vgg/research/countxで入手できる。
関連論文リスト
- CountGD: Multi-Modal Open-World Counting [54.88804890463491]
本稿では,画像中のオープン語彙オブジェクトの数値化の一般化と精度の向上を目的とする。
本稿では,最初のオープンワールドカウントモデルであるCountGDを紹介した。
論文 参考訳(メタデータ) (2024-07-05T16:20:48Z) - Zero-Shot Object Counting with Language-Vision Models [50.1159882903028]
クラスに依存しないオブジェクトカウントは、テスト時に任意のクラスのオブジェクトインスタンスをカウントすることを目的としている。
現在の手法では、新しいカテゴリではしばしば利用できない入力として、人間に注釈をつけた模範を必要とする。
テスト期間中にクラス名のみを利用できる新しい設定であるゼロショットオブジェクトカウント(ZSC)を提案する。
論文 参考訳(メタデータ) (2023-09-22T14:48:42Z) - GIST: Generating Image-Specific Text for Fine-grained Object
Classification [8.118079247462425]
GISTは、画像のみのデータセットから、画像固有のきめ細かいテキスト記述を生成する方法である。
提案手法は,CLIP線形プローブよりも平均4.1%の精度向上を実現している。
論文 参考訳(メタデータ) (2023-07-21T02:47:18Z) - LPN: Language-guided Prototypical Network for few-shot classification [16.37959398470535]
ラベル付き例を限定して、新しいタスクに適応することを目的としている。
近年の手法では,クエリとサポート画像の類似性の適切な測定方法が検討されている。
本稿では,言語誘導型プロトタイプネットワーク(LPN)を提案する。
論文 参考訳(メタデータ) (2023-07-04T06:54:01Z) - COSA: Concatenated Sample Pretrained Vision-Language Foundation Model [78.32081709802873]
ほとんどの視覚言語基盤モデルは、事前トレーニングに画像テキストデータセットを使用している。
我々は,COncatenated SAmple pretrained vision- language foundation modelであるCOSAを提案する。
複数の画像テキストペアを事前学習用入力として逐次結合することで、これを実現する。
この変換により、既存の画像テキストコーパスを擬似長文ビデオパラグラフコーパスに変換する。
論文 参考訳(メタデータ) (2023-06-15T12:29:42Z) - CLIP-Count: Towards Text-Guided Zero-Shot Object Counting [32.07271723717184]
オープン語彙オブジェクトの密度マップをゼロショットで推定する,最初のエンドツーエンドパイプラインであるCLIP-Countを提案する。
テキスト埋め込みを濃密な視覚特徴と整合させるため、我々は、密集した予測のための情報的パッチレベルの視覚表現を学習するために、モデルを誘導するパッチテキストコントラスト損失を導入する。
本手法は,対象物に対する高品質な密度マップを効果的に生成する。
論文 参考訳(メタデータ) (2023-05-12T08:19:39Z) - CoBIT: A Contrastive Bi-directional Image-Text Generation Model [72.1700346308106]
CoBITは、新しいユニコーダ・デコーダ構造を採用しており、これは1つのフレームワークで3つの事前学習対象を統一しようとするものである。
CoBITは画像理解、画像テキスト理解(検索、キャプション、VQA、SNLI-VE)、テキストベースのコンテンツ生成、特にゼロショットシナリオにおいて優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-03-23T17:24:31Z) - Language Quantized AutoEncoders: Towards Unsupervised Text-Image
Alignment [81.73717488887938]
Language-Quantized AutoEncoder (LQAE)は、事前訓練された言語モデルを利用して、教師なしの方法でテキストイメージデータを整列することを学ぶ。
LQAEは類似した画像を類似したテキストトークンのクラスタで表現することを学び、一致したテキストイメージペアを使わずにこれら2つのモダリティを整列させる。
これにより、大きな言語モデル(例えばGPT-3)による少数ショット画像の分類や、BERTテキストの特徴に基づく画像の線形分類が可能になる。
論文 参考訳(メタデータ) (2023-02-02T06:38:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。