Fugu-MT 論文翻訳(概要): Inverted Pyramid Multi-task Transformer for Dense Scene Understanding

論文の概要: Inverted Pyramid Multi-task Transformer for Dense Scene Understanding

arxiv url: http://arxiv.org/abs/2203.07997v1
Date: Tue, 15 Mar 2022 15:29:08 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-16 15:49:21.712503
Title: Inverted Pyramid Multi-task Transformer for Dense Scene Understanding
Title（参考訳）: シーン理解のための逆ピラミッドマルチタスク変換器
Authors: Hanrong Ye and Dan Xu
Abstract要約: InvPT(Invert-to-end Inverted Pyramid Multi-task Transformer)を提案する。 InvPTは効率の良いUP-Transformerブロックを示し、徐々に高解像度でマルチタスク特徴の相互作用を学習する。提案手法は,NYUD-v2 と PASCAL-Context のデータセット上でのマルチタスク性能を向上し,従来よりも大幅に向上した。
参考スコア（独自算出の注目度）: 11.608682595506354
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Multi-task dense scene understanding is a thriving research domain that requires simultaneous perception and reasoning on a series of correlated tasks with pixel-wise prediction. Most existing works encounter a severe limitation of modeling in the locality due to heavy utilization of convolution operations, while learning interactions and inference in a global spatial-position and multi-task context is critical for this problem. In this paper, we propose a novel end-to-end Inverted Pyramid multi-task (InvPT) Transformer to perform simultaneous modeling of spatial positions and multiple tasks in a unified framework. To the best of our knowledge, this is the first work that explores designing a transformer structure for multi-task dense prediction for scene understanding. Besides, it is widely demonstrated that a higher spatial resolution is remarkably beneficial for dense predictions, while it is very challenging for existing transformers to go deeper with higher resolutions due to huge complexity to large spatial size. InvPT presents an efficient UP-Transformer block to learn multi-task feature interaction at gradually increased resolutions, which also incorporates effective self-attention message passing and multi-scale feature aggregation to produce task-specific prediction at a high resolution. Our method achieves superior multi-task performance on NYUD-v2 and PASCAL-Context datasets respectively, and significantly outperforms previous state-of-the-arts. Code and trained models will be publicly available.
Abstract（参考訳）: マルチタスク密集シーン理解(マルチタスク密集シーン理解)は、画素ワイドな予測を伴う一連の関連タスクの同時認識と推論を必要とする、繁栄する研究領域である。既存の作業の多くは畳み込み操作の多用による局所性モデリングの厳しい制限に直面するが、グローバルな空間配置とマルチタスクのコンテキストにおける相互作用と推論の学習はこの問題に欠かせない。本稿では,空間位置と複数のタスクの同時モデリングを統一的なフレームワークで行うための,エンドツーエンドの逆ピラミッドマルチタスク(InvPT)トランスを提案する。我々の知る限りでは、シーン理解のためのマルチタスク密度予測のためのトランスフォーマー構造の設計を探求する最初の研究である。さらに,高解像度の空間分解能は高密度な予測には極めて有益であることが広く証明されている。 invptは、徐々に増加する解像度でマルチタスク機能インタラクションを学ぶための効率的なアップトランスフォーマブロックを提供し、効果的なセルフアテンションメッセージパッシングとマルチスケール機能アグリゲーションを組み込んで、高い解像度でタスク固有の予測を生成する。提案手法は,NYUD-v2 と PASCAL-Context のデータセット上でのマルチタスク性能を向上し,従来よりも大幅に向上した。コードとトレーニングされたモデルは一般公開される。

関連論文リスト

Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy [56.424032454461695]
本稿では,Transformerアーキテクチャを活用した拡張性のあるフレームワークであるDitaについて紹介する。 Ditaはコンテキスト内コンディショニング(context conditioning)を採用しており、歴史的観察から生の視覚トークンと識別されたアクションをきめ細やかなアライメントを可能にする。 Ditaは、さまざまなカメラパースペクティブ、観察シーン、タスク、アクションスペースの横断的なデータセットを効果的に統合する。
論文参考訳（メタデータ） (2025-03-25T15:19:56Z)
Optimizing Dense Visual Predictions Through Multi-Task Coherence and Prioritization [7.776434991976473]
マルチタスク学習(MTL)は、複数のタスクの同時トレーニングを含む。本稿では,高密度視覚タスクに特化して設計された高度MTLモデルを提案する。
論文参考訳（メタデータ） (2024-12-04T10:05:47Z)
LaVin-DiT: Large Vision Diffusion Transformer [99.98106406059333]
LaVin-DiTは、20以上のコンピュータビジョンタスクを生成フレームワークで扱うために設計された、スケーラブルで統一された基盤モデルである。視覚タスクの生成性能を最適化するための重要なイノベーションを紹介する。このモデルは0.1Bから3.4Bのパラメータに拡張され、様々な視覚タスクにまたがる相当なスケーラビリティと最先端の性能を示す。
論文参考訳（メタデータ） (2024-11-18T12:05:27Z)
HRVMamba: High-Resolution Visual State Space Model for Dense Prediction [60.80423207808076]
効率的なハードウェアを意識した設計のステートスペースモデル(SSM)は、コンピュータビジョンタスクにおいて大きな可能性を証明している。これらのモデルは、誘導バイアスの不足、長距離の忘れ、低解像度の出力表現の3つの主要な課題によって制約されている。本稿では, 変形可能な畳み込みを利用して, 長距離忘れ問題を緩和する動的ビジュアル状態空間(DVSS)ブロックを提案する。また,DVSSブロックに基づく高分解能視覚空間モデル(HRVMamba)を導入し,プロセス全体を通して高分解能表現を保存する。
論文参考訳（メタデータ） (2024-10-04T06:19:29Z)
DeepInteraction++: Multi-Modality Interaction for Autonomous Driving [80.8837864849534]
我々は,モダリティごとの個別表現を学習し,維持することのできる,新しいモダリティインタラクション戦略を導入する。 DeepInteraction++はマルチモーダルなインタラクション・フレームワークであり、マルチモーダルな表現型インタラクション・エンコーダとマルチモーダルな予測型インタラクション・デコーダを特徴とする。実験では,3次元物体検出とエンドツーエンドの自律走行の両方において,提案手法の優れた性能を示す。
論文参考訳（メタデータ） (2024-08-09T14:04:21Z)
A Multitask Deep Learning Model for Classification and Regression of Hyperspectral Images: Application to the large-scale dataset [44.94304541427113]
ハイパースペクトル画像上で複数の分類タスクと回帰タスクを同時に行うマルチタスク深層学習モデルを提案する。我々は、TAIGAと呼ばれる大規模なハイパースペクトルデータセットに対するアプローチを検証した。結果の総合的定性的および定量的分析により,提案手法が他の最先端手法よりも有意に優れていることを示す。
論文参考訳（メタデータ） (2024-07-23T11:14:54Z)
RepVF: A Unified Vector Fields Representation for Multi-task 3D Perception [64.80760846124858]
本稿では,様々な知覚タスクの表現を調和させる新しい統一表現RepVFを提案する。 RepVFは、ベクトル場を通じてシーン内の異なるターゲットの構造を特徴付け、シングルヘッドでマルチタスクの学習モデルを可能にする。 RepVF 上に構築された RFTR は,タスク間の固有性を利用したネットワークである。
論文参考訳（メタデータ） (2024-07-15T16:25:07Z)
Task Indicating Transformer for Task-conditional Dense Predictions [16.92067246179703]
この課題に対処するために,タスク表示変換(TIT)と呼ばれる新しいタスク条件フレームワークを導入する。本手法では,行列分解によるタスク指示行列を組み込んだMix Task Adapterモジュールをトランスフォーマーブロック内に設計する。また,タスク表示ベクトルとゲーティング機構を利用するタスクゲートデコーダモジュールを提案する。
論文参考訳（メタデータ） (2024-03-01T07:06:57Z)
ComPtr: Towards Diverse Bi-source Dense Prediction Tasks via A Simple yet General Complementary Transformer [91.43066633305662]
本稿では,多種多様な二ソース密度予測タスクのためのアンダーラインComPlementaryアンダーライン変換器textbfComPtrを提案する。 ComPtrは異なる入力を等しく扱い、変換器上にシーケンス・ツー・シーケンスの形で効率的な密な相互作用モデルを構築する。
論文参考訳（メタデータ） (2023-07-23T15:17:45Z)
InvPT++: Inverted Pyramid Multi-Task Transformer for Visual Scene Understanding [11.608682595506354]
マルチタスクシーン理解は、複数のシーン理解タスクを1つの多目的モデルで同時に予測できるモデルを設計することを目的としている。従来の研究は通常、より局所的な方法でマルチタスクの特徴を処理するため、空間的にグローバルな相互作用とクロスタスクの相互作用を効果的に学習することはできない。異なるタスクの空間的特徴間の相互タスク相互作用をグローバルな文脈でモデル化できる逆ピラミッドマルチタスク変換器を提案する。
論文参考訳（メタデータ） (2023-06-08T00:28:22Z)
MulT: An End-to-End Multitask Learning Transformer [66.52419626048115]
我々はMulTと呼ばれるエンドツーエンドのマルチタスク学習トランスフォーマフレームワークを提案し、複数のハイレベル視覚タスクを同時に学習する。本フレームワークは,入力画像を共有表現にエンコードし,タスク固有のトランスフォーマーベースのデコーダヘッドを用いて各視覚タスクの予測を行う。
論文参考訳（メタデータ） (2022-05-17T13:03:18Z)
SDTP: Semantic-aware Decoupled Transformer Pyramid for Dense Image Prediction [33.29925021875922]
階層内セマンティック・プロモーション(ISP)、クロスレベルデカップリング・インタラクション(CDI)、アテンション・リファインメント・ファンクション(ARF)からなる画像予測のための新しいセマンティック・アウェア・デカップリング・トランスフォーマー・ピラミッド(SDTP)を提案する。 ISPは、異なる受容空間における意味的多様性を探求する。CDIは、疎結合空間における異なるレベル間のグローバルな関心と相互作用を構築し、重計算の問題を解決する。提案手法の有効性と一般性を示す実験結果から,高密度画像予測タスクにおいて,最先端の精度を著しく上回る結果が得られた。
論文参考訳（メタデータ） (2021-09-18T16:29:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。