論文の概要: All in Tokens: Unifying Output Space of Visual Tasks via Soft Token
- arxiv url: http://arxiv.org/abs/2301.02229v1
- Date: Thu, 5 Jan 2023 18:55:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-06 13:34:55.080921
- Title: All in Tokens: Unifying Output Space of Visual Tasks via Soft Token
- Title(参考訳): all in tokens: soft tokenによるビジュアルタスクの出力空間の統一
- Authors: Jia Ning, Chen Li, Zheng Zhang, Zigang Geng, Qi Dai, Kun He, Han Hu
- Abstract要約: インスタンス分割と深度推定の2つの典型的な視覚的タスクを同時に扱う単一の統一モデルを示す。
本稿では,視覚的タスクの特異性を考慮した新しい手法を提案する。
我々はNYUv2深度推定の特定のタスクに対して0.279 RMSEを達成し、このベンチマークで新しい記録を樹立した。
- 参考スコア(独自算出の注目度): 30.6086480249568
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unlike language tasks, where the output space is usually limited to a set of
tokens, the output space of visual tasks is more complicated, making it
difficult to build a unified visual model for various visual tasks. In this
paper, we seek to unify the output space of visual tasks, so that we can also
build a unified model for visual tasks. To this end, we demonstrate a single
unified model that simultaneously handles two typical visual tasks of instance
segmentation and depth estimation, which have discrete/fixed-length and
continuous/varied-length outputs, respectively. We propose several new
techniques that take into account the particularity of visual tasks: 1) Soft
token. We employ soft token to represent the task output. Unlike hard tokens in
the common VQ-VAE which are assigned one-hot to discrete
codebooks/vocabularies, the soft token is assigned softly to the codebook
embeddings. Soft token can improve the accuracy of both the next token
inference and decoding of the task output; 2) Mask augmentation. Many visual
tasks have corruption, undefined or invalid values in label annotations, i.e.,
occluded area of depth maps. We show that a mask augmentation technique can
greatly benefit these tasks. With these new techniques and other designs, we
show that the proposed general-purpose task-solver can perform both instance
segmentation and depth estimation well. Particularly, we achieve 0.279 RMSE on
the specific task of NYUv2 depth estimation, setting a new record on this
benchmark. The general-purpose task-solver, dubbed AiT, is available at
\url{https://github.com/SwinTransformer/AiT}.
- Abstract(参考訳): 通常、出力空間がトークンの集合に制限される言語タスクとは異なり、視覚タスクの出力空間はより複雑であり、様々な視覚タスクのための統一された視覚モデルを構築するのが困難である。
本稿では,視覚タスクの出力空間を統一し,視覚タスクの統一モデルを構築することを目的とする。
この目的のために,インスタンス分割と深さ推定という2つの典型的な視覚的タスクを同時に処理し,それぞれ離散的・固定的・可変的出力を持つ単一統一モデルを示す。
視覚タスクの特異性を考慮した新しい手法をいくつか提案する。
1)ソフトトークン。
タスクの出力を表すためにソフトトークンを使用します。
共通のVQ-VAEのハードトークンとは異なり、ソフトトークンはコードブックの埋め込みにソフトに割り当てられる。
ソフトトークンは次のトークン推論とタスク出力の復号の両方の精度を向上させることができる。
2)マスクの強化。
多くの視覚的タスクは、ラベルアノテーションの破損、未定義または無効な値、すなわち奥行きマップの排除された領域を持っている。
マスク強化技術がこれらの課題に大いに役立つことを示す。
これらの新しい手法および他の設計により,提案する汎用タスクソルバは,インスタンス分割と深さ推定の両方をうまく実行できることを示す。
特に,nyuv2深度推定の特定のタスクにおいて0.279 rmseを達成し,このベンチマークで新たな記録を樹立した。
AiT と呼ばれる汎用タスク解決器は \url{https://github.com/SwinTransformer/AiT} で入手できる。
関連論文リスト
- Masked AutoDecoder is Effective Multi-Task Vision Generalist [64.43215311406195]
Masked AutoDecoder (MAD) はマルチタスク・ビジョン・ジェネラリストである。
我々は、コンテキスト依存を捉えるために双方向の注意を喚起する並列デコーディングフレームワークを開発する。
第二に、マスキングとタスクシーケンス再構築により、リッチなタスクコンテキストを学習するマスキングシーケンスモデリング手法を設計する。
論文 参考訳(メタデータ) (2024-03-12T14:36:52Z) - Jack of All Tasks, Master of Many: Designing General-purpose Coarse-to-Fine Vision-Language Model [83.85856356798531]
VistaLLMは、粗くきめ細かな視覚言語タスクに対処する視覚システムである。
2値分割マスクをシーケンスとして表現するために、勾配対応の適応サンプリング技術を採用している。
また、新しいタスクであるAttCoSegを導入し、複数の入力画像に対してモデルの推論とグラウンド化能力を高める。
論文 参考訳(メタデータ) (2023-12-19T18:53:01Z) - SA$^2$VP: Spatially Aligned-and-Adapted Visual Prompt [59.280491260635266]
視覚的プロンプトチューニングの方法は、NLPから派生した逐次モデリングパラダイムに従う。
マイモデルモデルは、画像トークンマップに等しい大きさ(またはスケールした)の2次元プロンプトトークンマップを学習する。
我々のモデルは、個々の画像トークンをきめ細かな方法でプロンプトすることができる。
論文 参考訳(メタデータ) (2023-12-16T08:23:43Z) - A Dynamic Feature Interaction Framework for Multi-task Visual Perception [100.98434079696268]
複数の共通認識課題を解決するための効率的な統合フレームワークを考案する。
これらのタスクには、インスタンスセグメンテーション、セマンティックセグメンテーション、モノクル3D検出、深さ推定が含まれる。
提案するフレームワークはD2BNetと呼ばれ,マルチタスク認識のためのパラメータ効率予測に一意なアプローチを示す。
論文 参考訳(メタデータ) (2023-06-08T09:24:46Z) - Universal Few-shot Learning of Dense Prediction Tasks with Visual Token
Matching [26.26540176172197]
任意の密接な予測タスクに対して,ビジュアルトークンマッチング(VTM)を汎用的な数ショット学習として提案する。
VTMは、マッチングアルゴリズムを変調するタスク固有のパラメータの少ないタスクに柔軟に適応する。
我々は,タスクノミーデータセットの挑戦的な変種を用いてVTMを実験し,無意味な高密度な予測タスクを頑健に学習していることを観察した。
論文 参考訳(メタデータ) (2023-03-27T07:58:42Z) - A Unified Sequence Interface for Vision Tasks [87.328893553186]
計算機ビジョンタスクの多種多様な集合は、共有画素対シーケンスインタフェースで定式化すれば統一可能であることを示す。
オブジェクト検出、インスタンスのセグメンテーション、キーポイント検出、イメージキャプションの4つのタスクにフォーカスする。
我々は、タスク固有のカスタマイズなしで、単一のモデルアーキテクチャと損失関数でニューラルネットワークをトレーニングできることを示します。
論文 参考訳(メタデータ) (2022-06-15T17:08:53Z) - Vector-Quantized Input-Contextualized Soft Prompts for Natural Language
Understanding [62.45760673220339]
本稿では,Vector-quantized Input-contextualized Prompt Tuning (VIP)を提案する。
自然言語理解タスクの幅広い範囲において,提案するVIPフレームワークが1.19%の差でPTモデルに勝っている。
論文 参考訳(メタデータ) (2022-05-23T03:51:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。