論文の概要: TSP-Transformer: Task-Specific Prompts Boosted Transformer for Holistic
Scene Understanding
- arxiv url: http://arxiv.org/abs/2311.03427v1
- Date: Mon, 6 Nov 2023 18:20:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-08 18:18:28.429111
- Title: TSP-Transformer: Task-Specific Prompts Boosted Transformer for Holistic
Scene Understanding
- Title(参考訳): TSP変換器:全体的情景理解のためのタスク特化プロンプト強化変圧器
- Authors: Shuo Wang, Jing Li, Zibo Zhao, Dongze Lian, Binbin Huang, Xiaomei
Wang, Zhengxin Li, Shenghua Gao
- Abstract要約: 本稿では,TSP変換器と呼ばれるタスク特化プロンプト変換器を提案する。
初期はバニラ変換器、外側はタスク固有のプロンプトエンコーダ、外側はタスク固有のプロンプトが増設される。
NYUD-v2 と PASCAL-Context の実験により,本手法が最先端の性能を実現することを示す。
- 参考スコア(独自算出の注目度): 38.40969494998194
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Holistic scene understanding includes semantic segmentation, surface normal
estimation, object boundary detection, depth estimation, etc. The key aspect of
this problem is to learn representation effectively, as each subtask builds
upon not only correlated but also distinct attributes. Inspired by
visual-prompt tuning, we propose a Task-Specific Prompts Transformer, dubbed
TSP-Transformer, for holistic scene understanding. It features a vanilla
transformer in the early stage and tasks-specific prompts transformer encoder
in the lateral stage, where tasks-specific prompts are augmented. By doing so,
the transformer layer learns the generic information from the shared parts and
is endowed with task-specific capacity. First, the tasks-specific prompts serve
as induced priors for each task effectively. Moreover, the task-specific
prompts can be seen as switches to favor task-specific representation learning
for different tasks. Extensive experiments on NYUD-v2 and PASCAL-Context show
that our method achieves state-of-the-art performance, validating the
effectiveness of our method for holistic scene understanding. We also provide
our code in the following link https://github.com/tb2-sy/TSP-Transformer.
- Abstract(参考訳): 全体像理解にはセマンティックセグメンテーション、表面正規推定、オブジェクト境界検出、深さ推定などが含まれる。
この問題の鍵となる側面は表現を効果的に学習することであり、各サブタスクは相関するだけでなく、異なる属性の上に構築される。
視覚的プロンプトチューニングにインスパイアされたタスク特化プロンプト変換器(TSP-Transformer)を提案する。
初期はバニラトランス、外側にはタスク固有のプロンプトエンコーダがあり、タスク固有のプロンプトが拡張されている。
これにより、トランス層は共有部分から汎用情報を学習し、タスク固有の能力が付与される。
まず、タスク固有のプロンプトが各タスクの誘導先として効果的に機能する。
さらに、タスク固有のプロンプトは、異なるタスクに対するタスク固有の表現学習を好むスイッチとして見ることができる。
NYUD-v2 と PASCAL-Context の大規模な実験により,本手法は最先端の性能を実現し,本手法の有効性を検証した。
私たちはまた、以下のリンクhttps://github.com/tb2-sy/tsp-transformerでコードを提供しています。
関連論文リスト
- DOCTR: Disentangled Object-Centric Transformer for Point Scene Understanding [7.470587868134298]
ポイントシーン理解は、現実世界のシーンポイントクラウドを処理する上で難しいタスクです。
最近の最先端の手法はまず各オブジェクトを分割し、次に異なるサブタスクの複数のステージで独立に処理する。
本稿では,オブジェクト中心表現を探索するDECTR(Disentangled Object-Centric TRansformer)を提案する。
論文 参考訳(メタデータ) (2024-03-25T05:22:34Z) - TransPrompt v2: A Transferable Prompting Framework for Cross-task Text
Classification [37.824031151922604]
そこで本研究では,テキスト分類タスク間の数ショット学習を実現するための,トランスプロンプトv2を提案する。
類似したタスクを学習するために、メタラーナーを訓練するためにマルチタスクメタ知識獲得(MMA)手順を用いる。
遠隔タスクを学習するために、タスクタイプ記述をプロンプトに注入し、タイプ内およびタイプ間プロンプト埋め込みをキャプチャする。
論文 参考訳(メタデータ) (2023-08-29T04:16:57Z) - Vision Transformer Adapters for Generalizable Multitask Learning [61.79647180647685]
一般化可能なタスク親和性を学習する最初のマルチタスク・ビジョン・トランスフォーマー・アダプタを提案する。
我々のアダプタはパラメータ効率の良い方法で複数の高密度視覚タスクを同時に解くことができる。
並行メソッドとは対照的に、新しいタスクやドメインが追加されるたびに、再トレーニングや微調整は不要です。
論文 参考訳(メタデータ) (2023-08-23T18:40:48Z) - PromptonomyViT: Multi-Task Prompt Learning Improves Video Transformers
using Synthetic Scene Data [85.48684148629634]
本稿では,映像理解を改善するために合成シーンデータを活用する手法を提案する。
本稿では,ビデオトランスのためのマルチタスク・プロンプト学習手法を提案する。
複数のビデオ理解タスクやデータセットに対して,高いパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2022-12-08T18:55:31Z) - Multitask Vision-Language Prompt Tuning [103.5967011236282]
マルチタスク視覚言語プロンプトチューニング(MV)を提案する。
MVはクロスタスクの知識を視覚言語モデルの迅速なチューニングに取り入れている。
20個の視覚タスクの結果、提案手法は全ての単一タスクのベースライン・プロンプト・チューニング法より優れていることが示された。
論文 参考訳(メタデータ) (2022-11-21T18:41:44Z) - Multi-Task Learning with Multi-Query Transformer for Dense Prediction [38.476408482050815]
本稿では,複数のタスク間の推論を容易にするために,Multi-Query Transformer (MQ Transformer) という単純なパイプラインを提案する。
異なるタスク間での高密度なピクセル単位のコンテキストをモデル化する代わりに、タスク固有のプロキシを使ってクロスタスク推論を行う。
実験の結果,提案手法は有効な手法であり,最先端の結果が得られた。
論文 参考訳(メタデータ) (2022-05-28T06:51:10Z) - Vector-Quantized Input-Contextualized Soft Prompts for Natural Language
Understanding [62.45760673220339]
本稿では,Vector-quantized Input-contextualized Prompt Tuning (VIP)を提案する。
自然言語理解タスクの幅広い範囲において,提案するVIPフレームワークが1.19%の差でPTモデルに勝っている。
論文 参考訳(メタデータ) (2022-05-23T03:51:27Z) - MulT: An End-to-End Multitask Learning Transformer [66.52419626048115]
我々はMulTと呼ばれるエンドツーエンドのマルチタスク学習トランスフォーマフレームワークを提案し、複数のハイレベル視覚タスクを同時に学習する。
本フレームワークは,入力画像を共有表現にエンコードし,タスク固有のトランスフォーマーベースのデコーダヘッドを用いて各視覚タスクの予測を行う。
論文 参考訳(メタデータ) (2022-05-17T13:03:18Z) - Zero-shot Learning by Generating Task-specific Adapters [38.452434222367515]
タスク記述からタスク固有のアダプタを生成するためのハイパーネットワークをトレーニングすることで、ゼロショット転送性を改善するフレームワークであるHypterを紹介する。
この定式化はタスクレベルでの学習を可能にし、軽量アダプタを使用することでパラメータの数を大幅に削減する。
論文 参考訳(メタデータ) (2021-01-02T10:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。