論文の概要: Inverted Pyramid Multi-task Transformer for Dense Scene Understanding
- arxiv url: http://arxiv.org/abs/2203.07997v1
- Date: Tue, 15 Mar 2022 15:29:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-16 15:49:21.712503
- Title: Inverted Pyramid Multi-task Transformer for Dense Scene Understanding
- Title(参考訳): シーン理解のための逆ピラミッドマルチタスク変換器
- Authors: Hanrong Ye and Dan Xu
- Abstract要約: InvPT(Invert-to-end Inverted Pyramid Multi-task Transformer)を提案する。
InvPTは効率の良いUP-Transformerブロックを示し、徐々に高解像度でマルチタスク特徴の相互作用を学習する。
提案手法は,NYUD-v2 と PASCAL-Context のデータセット上でのマルチタスク性能を向上し,従来よりも大幅に向上した。
- 参考スコア(独自算出の注目度): 11.608682595506354
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multi-task dense scene understanding is a thriving research domain that
requires simultaneous perception and reasoning on a series of correlated tasks
with pixel-wise prediction. Most existing works encounter a severe limitation
of modeling in the locality due to heavy utilization of convolution operations,
while learning interactions and inference in a global spatial-position and
multi-task context is critical for this problem. In this paper, we propose a
novel end-to-end Inverted Pyramid multi-task (InvPT) Transformer to perform
simultaneous modeling of spatial positions and multiple tasks in a unified
framework. To the best of our knowledge, this is the first work that explores
designing a transformer structure for multi-task dense prediction for scene
understanding. Besides, it is widely demonstrated that a higher spatial
resolution is remarkably beneficial for dense predictions, while it is very
challenging for existing transformers to go deeper with higher resolutions due
to huge complexity to large spatial size. InvPT presents an efficient
UP-Transformer block to learn multi-task feature interaction at gradually
increased resolutions, which also incorporates effective self-attention message
passing and multi-scale feature aggregation to produce task-specific prediction
at a high resolution. Our method achieves superior multi-task performance on
NYUD-v2 and PASCAL-Context datasets respectively, and significantly outperforms
previous state-of-the-arts. Code and trained models will be publicly available.
- Abstract(参考訳): マルチタスク密集シーン理解(マルチタスク密集シーン理解)は、画素ワイドな予測を伴う一連の関連タスクの同時認識と推論を必要とする、繁栄する研究領域である。
既存の作業の多くは畳み込み操作の多用による局所性モデリングの厳しい制限に直面するが、グローバルな空間配置とマルチタスクのコンテキストにおける相互作用と推論の学習はこの問題に欠かせない。
本稿では,空間位置と複数のタスクの同時モデリングを統一的なフレームワークで行うための,エンドツーエンドの逆ピラミッドマルチタスク(InvPT)トランスを提案する。
我々の知る限りでは、シーン理解のためのマルチタスク密度予測のためのトランスフォーマー構造の設計を探求する最初の研究である。
さらに,高解像度の空間分解能は高密度な予測には極めて有益であることが広く証明されている。
invptは、徐々に増加する解像度でマルチタスク機能インタラクションを学ぶための効率的なアップトランスフォーマブロックを提供し、効果的なセルフアテンションメッセージパッシングとマルチスケール機能アグリゲーションを組み込んで、高い解像度でタスク固有の予測を生成する。
提案手法は,NYUD-v2 と PASCAL-Context のデータセット上でのマルチタスク性能を向上し,従来よりも大幅に向上した。
コードとトレーニングされたモデルは一般公開される。
関連論文リスト
- Task Indicating Transformer for Task-conditional Dense Predictions [16.92067246179703]
この課題に対処するために,タスク表示変換(TIT)と呼ばれる新しいタスク条件フレームワークを導入する。
本手法では,行列分解によるタスク指示行列を組み込んだMix Task Adapterモジュールをトランスフォーマーブロック内に設計する。
また,タスク表示ベクトルとゲーティング機構を利用するタスクゲートデコーダモジュールを提案する。
論文 参考訳(メタデータ) (2024-03-01T07:06:57Z) - Rethinking of Feature Interaction for Multi-task Learning on Dense
Prediction [30.30105024946622]
我々は,多タスクインタラクションプロセスには,豊富な詳細と豊富なタスク情報を持つ高レベル表現が関与していないことを観察した。
現在のマルチタスク学習アーキテクチャにも、低品質と低効率の問題が存在する。
本稿では,タスクジェネリック機能とタスク固有機能の両方から,包括的中間機能をグローバルに学習するための新しいBRFI法を提案する。
論文 参考訳(メタデータ) (2023-12-21T01:30:44Z) - Multi-task Learning with 3D-Aware Regularization [55.97507478913053]
本稿では,画像エンコーダから抽出した特徴を共有3D特徴空間に投影することで,複数のタスクをインタフェースする構造化3D認識正規化器を提案する。
提案手法はアーキテクチャ非依存であり,従来のマルチタスクバックボーンにプラグインすることで,性能を向上できることを示す。
論文 参考訳(メタデータ) (2023-10-02T08:49:56Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - ComPtr: Towards Diverse Bi-source Dense Prediction Tasks via A Simple
yet General Complementary Transformer [91.43066633305662]
本稿では,多種多様な二ソース密度予測タスクのためのアンダーラインComPlementaryアンダーライン変換器textbfComPtrを提案する。
ComPtrは異なる入力を等しく扱い、変換器上にシーケンス・ツー・シーケンスの形で効率的な密な相互作用モデルを構築する。
論文 参考訳(メタデータ) (2023-07-23T15:17:45Z) - InvPT++: Inverted Pyramid Multi-Task Transformer for Visual Scene
Understanding [11.608682595506354]
マルチタスクシーン理解は、複数のシーン理解タスクを1つの多目的モデルで同時に予測できるモデルを設計することを目的としている。
従来の研究は通常、より局所的な方法でマルチタスクの特徴を処理するため、空間的にグローバルな相互作用とクロスタスクの相互作用を効果的に学習することはできない。
異なるタスクの空間的特徴間の相互タスク相互作用をグローバルな文脈でモデル化できる逆ピラミッドマルチタスク変換器を提案する。
論文 参考訳(メタデータ) (2023-06-08T00:28:22Z) - MulT: An End-to-End Multitask Learning Transformer [66.52419626048115]
我々はMulTと呼ばれるエンドツーエンドのマルチタスク学習トランスフォーマフレームワークを提案し、複数のハイレベル視覚タスクを同時に学習する。
本フレームワークは,入力画像を共有表現にエンコードし,タスク固有のトランスフォーマーベースのデコーダヘッドを用いて各視覚タスクの予測を行う。
論文 参考訳(メタデータ) (2022-05-17T13:03:18Z) - SDTP: Semantic-aware Decoupled Transformer Pyramid for Dense Image
Prediction [33.29925021875922]
階層内セマンティック・プロモーション(ISP)、クロスレベルデカップリング・インタラクション(CDI)、アテンション・リファインメント・ファンクション(ARF)からなる画像予測のための新しいセマンティック・アウェア・デカップリング・トランスフォーマー・ピラミッド(SDTP)を提案する。
ISPは、異なる受容空間における意味的多様性を探求する。CDIは、疎結合空間における異なるレベル間のグローバルな関心と相互作用を構築し、重計算の問題を解決する。
提案手法の有効性と一般性を示す実験結果から,高密度画像予測タスクにおいて,最先端の精度を著しく上回る結果が得られた。
論文 参考訳(メタデータ) (2021-09-18T16:29:14Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z) - UPDeT: Universal Multi-agent Reinforcement Learning via Policy
Decoupling with Transformers [108.92194081987967]
タスクに適合する1つのアーキテクチャを設計し、汎用的なマルチエージェント強化学習パイプラインを最初に試行する。
従来のRNNモデルとは異なり、トランスフォーマーモデルを用いてフレキシブルなポリシーを生成する。
提案方式はUPDeT(Universal Policy Decoupling Transformer)と名付けられ,動作制限を緩和し,マルチエージェントタスクの決定プロセスをより説明しやすいものにする。
論文 参考訳(メタデータ) (2021-01-20T07:24:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。