論文の概要: GRiT: A Generative Region-to-text Transformer for Object Understanding
- arxiv url: http://arxiv.org/abs/2212.00280v1
- Date: Thu, 1 Dec 2022 04:59:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 16:14:01.449247
- Title: GRiT: A Generative Region-to-text Transformer for Object Understanding
- Title(参考訳): grit: オブジェクト理解のための生成領域からテキストへのトランスフォーマー
- Authors: Jialian Wu, Jianfeng Wang, Zhengyuan Yang, Zhe Gan, Zicheng Liu,
Junsong Yuan, Lijuan Wang
- Abstract要約: オブジェクト理解のための生成型RegIon-to-Text変換器GRiTを提案する。
GRiTは、オブジェクトの理解をリージョン、テキスト>ペアとして定式化します。
GRiTは単純な名詞だけでなく、オブジェクト属性やアクションを含むリッチな記述文を通じてオブジェクトを理解することができる。
- 参考スコア(独自算出の注目度): 155.00470334858818
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a Generative RegIon-to-Text transformer, GRiT, for object
understanding. The spirit of GRiT is to formulate object understanding as
<region, text> pairs, where region locates objects and text describes objects.
For example, the text in object detection denotes class names while that in
dense captioning refers to descriptive sentences. Specifically, GRiT consists
of a visual encoder to extract image features, a foreground object extractor to
localize objects, and a text decoder to generate open-set object descriptions.
With the same model architecture, GRiT can understand objects via not only
simple nouns, but also rich descriptive sentences including object attributes
or actions. Experimentally, we apply GRiT to object detection and dense
captioning tasks. GRiT achieves 60.4 AP on COCO 2017 test-dev for object
detection and 15.5 mAP on Visual Genome for dense captioning. Code is available
at https://github.com/JialianW/GRiT
- Abstract(参考訳): 本稿では,オブジェクト理解のためのジェネレーティブレジイオン・トゥ・テキスト変換器GRiTを提案する。
gritの精神は、領域がオブジェクトを見つけ、テキストがオブジェクトを記述する<region, text>ペアとして、オブジェクトの理解を定式化することである。
例えば、オブジェクト検出のテキストはクラス名を示し、密度の高いキャプションでは記述文を指します。
具体的には、画像特徴を抽出するビジュアルエンコーダ、オブジェクトをローカライズするフォアグラウンドオブジェクト抽出器、オープンセットオブジェクト記述を生成するテキストデコーダから構成される。
同じモデルアーキテクチャで、gritは単純な名詞だけでなく、オブジェクト属性やアクションを含むリッチな記述文でもオブジェクトを理解できる。
実験では,GRiTを物体検出および高密度キャプションタスクに適用した。
GRiTはオブジェクト検出のためのCOCO 2017 test-devで60.4 AP、高密度キャプションのためのVisual Genomeで15.5 mAPを達成した。
コードはhttps://github.com/JialianW/GRiTで入手できる。
関連論文リスト
- TP-GMOT: Tracking Generic Multiple Object by Textual Prompt with Motion-Appearance Cost (MAC) SORT [0.0]
マルチオブジェクト追跡(MOT)は、かなり進歩しているが、事前の知識に大きく依存している。
ジェネリック・マルチプル・オブジェクト・トラッキング(GMOT)は、類似した外観を持つ複数のオブジェクトを追跡するが、ターゲットに関する事前情報が少ない。
我々はtextbftextTP-GMOTと呼ばれる新しいテキストプロンプトベースのオープン語彙GMOTフレームワークを導入する。
GMOTタスク用のtextRefer-GMOTデータセット上で、コントリビューションをベンチマークします。
論文 参考訳(メタデータ) (2024-09-04T07:33:09Z) - In Defense of Lazy Visual Grounding for Open-Vocabulary Semantic Segmentation [50.79940712523551]
我々は,非教師対象マスク発見の2段階的アプローチである遅延視覚接地を行い,それに続いて物体接地を行う。
私たちのモデルは、追加のトレーニングは必要ありませんが、5つの公開データセットで優れたパフォーマンスを示します。
論文 参考訳(メタデータ) (2024-08-09T09:28:35Z) - Generative Region-Language Pretraining for Open-Ended Object Detection [55.42484781608621]
我々は,高密度物体を検出し,その名前を自由形式の方法で生成できるGenerateUというフレームワークを提案する。
本フレームワークはオープン語彙オブジェクト検出手法GLIPに匹敵する結果が得られる。
論文 参考訳(メタデータ) (2024-03-15T10:52:39Z) - Referring Camouflaged Object Detection [97.90911862979355]
Ref-COD は、特定のカモフラージュされたオブジェクトを、サルエントターゲットオブジェクトによる参照画像の小さなセットに基づいて分割することを目的としている。
R2C7Kと呼ばれる大規模なデータセットは、実世界のシナリオで64のオブジェクトカテゴリをカバーする7Kイメージで構成されています。
論文 参考訳(メタデータ) (2023-06-13T04:15:37Z) - DEVICE: DEpth and VIsual ConcEpts Aware Transformer for TextCaps [10.87327544629769]
テキストキャプチャのためのDEVICE(Depth and VIsual ConcEpts Aware Transformer)を提案する。
我々の装置は、より包括的にシーンを一般化し、記述された視覚的実体の精度を高めることができる。
論文 参考訳(メタデータ) (2023-02-03T04:31:13Z) - Learning Object-Language Alignments for Open-Vocabulary Object Detection [83.09560814244524]
画像とテキストのペアデータから直接学習する新しいオープン語彙オブジェクト検出フレームワークを提案する。
これにより、画像とテキストのペア上でオープンな語彙オブジェクト検出器を、よりシンプルで効果的な方法で訓練することが可能になります。
論文 参考訳(メタデータ) (2022-11-27T14:47:31Z) - Detecting out-of-context objects using contextual cues [29.92843037720968]
画像中の文脈外(OOC)オブジェクトを検出するためのグラフコンテキスト推論ネットワーク(GCRN)を提案する。
GCRNは2つの別々のグラフで構成され、画像の文脈的手がかりに基づいてオブジェクトラベルを予測する。
GCRNはコンテキストキューを明示的にキャプチャして、コンテキスト内オブジェクトの検出を改善し、コンテキスト関係に違反するオブジェクトを識別する。
論文 参考訳(メタデータ) (2022-02-11T23:15:01Z) - Learning Object Detection from Captions via Textual Scene Attributes [70.90708863394902]
キャプションには、オブジェクトの属性やそれらの関係など、画像に関するよりリッチな情報が含まれている、と我々は主張する。
本稿では,この「テキストシーングラフ」の属性を用いて物体検知器を訓練する手法を提案する。
得られたモデルが、いくつかの挑戦的なオブジェクト検出データセットに対して、最先端の結果を達成することを実証的に実証した。
論文 参考訳(メタデータ) (2020-09-30T10:59:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。