論文の概要: Tokenize Anything via Prompting
- arxiv url: http://arxiv.org/abs/2312.09128v1
- Date: Thu, 14 Dec 2023 17:01:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-15 20:50:09.322440
- Title: Tokenize Anything via Prompting
- Title(参考訳): プロンプティングによるものごとのトークン化
- Authors: Ting Pan, Lulu Tang, Xinlong Wang, Shiguang Shan
- Abstract要約: 我々は,任意のものを同時にセグメンテーションし,認識し,キャプションすることができる統一的,迅速なモデルを提案する。
私たちは、SA-1Bマスクのような巨大なセグメンテーションマスクと、事前訓練されたCLIPモデルからのセマンティックプリミティブを持つ一般化可能なモデルを訓練する。
我々は,このモデルが汎用領域コンテキストを符号化できる汎用領域レベルの画像トークン化器であると考えている。
- 参考スコア(独自算出の注目度): 72.02446432548518
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a unified, promptable model capable of simultaneously segmenting,
recognizing, and captioning anything. Unlike SAM, we aim to build a versatile
region representation in the wild via visual prompting. To achieve this, we
train a generalizable model with massive segmentation masks, e.g., SA-1B masks,
and semantic priors from a pre-trained CLIP model with 5 billion parameters.
Specifically, we construct a promptable image decoder by adding a semantic
token to each mask token. The semantic token is responsible for learning the
semantic priors in a predefined concept space. Through joint optimization of
segmentation on mask tokens and concept prediction on semantic tokens, our
model exhibits strong regional recognition and localization capabilities. For
example, an additional 38M-parameter causal text decoder trained from scratch
sets a new record with a CIDEr score of 150.7 on the Visual Genome region
captioning task. We believe this model can be a versatile region-level image
tokenizer, capable of encoding general-purpose region context for a broad range
of perception tasks. Code and models are available at
https://github.com/baaivision/tokenize-anything.
- Abstract(参考訳): 我々は,同時セグメント化,認識,キャプション化が可能な統一的,即効性のあるモデルを提案する。
SAMと異なり、視覚的なプロンプトによって、野生に多目的な領域表現を構築することを目指している。
これを実現するために、50億のパラメータを持つ事前学習されたCLIPモデルから、SA-1Bマスクなどの巨大なセグメンテーションマスクを用いた一般化可能なモデルをトレーニングする。
具体的には,各マスクトークンに意味トークンを追加することで,プロンプト可能な画像デコーダを構築する。
セマンティックトークンは、事前に定義された概念空間におけるセマンティックな事前学習に責任がある。
マスクトークンのセグメンテーションとセマンティックトークンの概念予測を共同で最適化することにより,強力な地域認識と局所化能力を示す。
例えば、スクラッチからトレーニングされた38Mパラメータの因果テキストデコーダは、Visual Genome領域のキャプションタスクでCIDErスコアが150.7の新たなレコードを設定する。
このモデルは,広い範囲の知覚タスクに対して汎用領域コンテキストを符号化できる,多目的領域レベルの画像トークン化器として利用できると考えている。
コードとモデルはhttps://github.com/baaivision/tokenize-anythingで入手できる。
関連論文リスト
- MaskInversion: Localized Embeddings via Optimization of Explainability Maps [49.50785637749757]
MaskInversionは、テスト時にマスクによって指定されたクエリ画像領域に対するコンテキスト認識の埋め込みを生成する。
オープン語彙のクラス検索、表現理解の参照、局所的なキャプションや画像生成など、幅広いタスクに使用することができる。
論文 参考訳(メタデータ) (2024-07-29T14:21:07Z) - Boosting Unsupervised Semantic Segmentation with Principal Mask Proposals [15.258631373740686]
教師なしセマンティックセグメンテーションは、画像コーパス内のグローバルセマンティックカテゴリをアノテーションなしで識別することで、画像を自動的に意味のある領域に分割することを目的としている。
そこで,PriMaP - 主マスク提案 - 特徴表現に基づいてイメージを意味的に意味のあるマスクに分解する。
これにより、予測最大化アルゴリズムであるPriMaPs-EMを用いて、クラスプロトタイプをPriMaPsに適合させることで、教師なしセマンティックセマンティックセマンティクスを実現することができる。
論文 参考訳(メタデータ) (2024-04-25T17:58:09Z) - SA$^2$VP: Spatially Aligned-and-Adapted Visual Prompt [59.280491260635266]
視覚的プロンプトチューニングの方法は、NLPから派生した逐次モデリングパラダイムに従う。
マイモデルモデルは、画像トークンマップに等しい大きさ(またはスケールした)の2次元プロンプトトークンマップを学習する。
我々のモデルは、個々の画像トークンをきめ細かな方法でプロンプトすることができる。
論文 参考訳(メタデータ) (2023-12-16T08:23:43Z) - Leveraging per Image-Token Consistency for Vision-Language Pre-training [52.825150269820696]
クロスモーダルマスク言語モデリング(CMLM)は視覚言語事前学習には不十分である。
視覚言語事前学習のためのEPIC(Leveraging Per Image-Token Consistency)を提案する。
提案手法は, 事前学習法と容易に組み合わせることができる。
論文 参考訳(メタデータ) (2022-11-20T12:10:53Z) - Open-Vocabulary Semantic Segmentation with Mask-adapted CLIP [45.81698881151867]
Open-vocabulary semantic segmentationは、トレーニング中に見られなかったかもしれないテキスト記述に従って、イメージをセマンティック領域に分割することを目的としている。
最近の2段階の手法では、まずクラスに依存しないマスクの提案を生成し、次にCLIPなどの事前訓練された視覚言語モデルを利用してマスク付き領域を分類する。
マスクされた画像領域とその対応するテキスト記述の集合上でCLIPを微調整する。
特に、COCOで訓練しADE20K-150で評価すると、我々の最良のモデルは29.6% mIoUであり、これは以前の状態より+8.5%高い。
論文 参考訳(メタデータ) (2022-10-09T02:57:32Z) - SdAE: Self-distillated Masked Autoencoder [95.3684955370897]
本稿では,自己蒸留マスク付きオートエンコーダネットワークSdAEを提案する。
300エポックの事前トレーニングで、バニラViT-BaseモデルはImageNet-1k分類において84.1%の微調整精度を達成する。
論文 参考訳(メタデータ) (2022-07-31T15:07:25Z) - Single-Stream Multi-Level Alignment for Vision-Language Pretraining [103.09776737512078]
モーダルを複数のレベルで整列させる単一ストリームモデルを提案する。
対称的相互モダリティ再構築と擬似ラベル付きキーワード予測という2つの新しいタスクを用いてこれを実現する。
我々は、ゼロショット/ファインチューニングされた画像/テキスト検索、参照表現、VQAといった一連の視覚言語タスクにおいて、トップパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-27T21:16:10Z) - iBOT: Image BERT Pre-Training with Online Tokenizer [23.997853010642046]
マスク付き画像モデリング(MIM)について検討し,意味論的に意味のある視覚的トークン化手法の利点と課題を示す。
オンライントークン化装置を用いてマスキング予測を行うことができる自己教師型フレームワークiBOTを提案する。
81.6%の線形探索精度と86.3%の微調整精度をImageNet-1Kで評価することにより,iBOTの優位性を示す。
論文 参考訳(メタデータ) (2021-11-15T15:18:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。