Fugu-MT 論文翻訳(概要): InvPT++: Inverted Pyramid Multi-Task Transformer for Visual Scene Understanding

論文の概要: InvPT++: Inverted Pyramid Multi-Task Transformer for Visual Scene Understanding

arxiv url: http://arxiv.org/abs/2306.04842v1
Date: Thu, 8 Jun 2023 00:28:22 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-09 17:04:01.459596
Title: InvPT++: Inverted Pyramid Multi-Task Transformer for Visual Scene Understanding
Title（参考訳）: InvPT++:ビジュアルシーン理解のための逆ピラミッドマルチタスク変換器
Authors: Hanrong Ye and Dan Xu
Abstract要約: マルチタスクシーン理解は、複数のシーン理解タスクを1つの多目的モデルで同時に予測できるモデルを設計することを目的としている。従来の研究は通常、より局所的な方法でマルチタスクの特徴を処理するため、空間的にグローバルな相互作用とクロスタスクの相互作用を効果的に学習することはできない。異なるタスクの空間的特徴間の相互タスク相互作用をグローバルな文脈でモデル化できる逆ピラミッドマルチタスク変換器を提案する。
参考スコア（独自算出の注目度）: 11.608682595506354
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Multi-task scene understanding aims to design models that can simultaneously predict several scene understanding tasks with one versatile model. Previous studies typically process multi-task features in a more local way, and thus cannot effectively learn spatially global and cross-task interactions, which hampers the models' ability to fully leverage the consistency of various tasks in multi-task learning. To tackle this problem, we propose an Inverted Pyramid multi-task Transformer, capable of modeling cross-task interaction among spatial features of different tasks in a global context. Specifically, we first utilize a transformer encoder to capture task-generic features for all tasks. And then, we design a transformer decoder to establish spatial and cross-task interaction globally, and a novel UP-Transformer block is devised to increase the resolutions of multi-task features gradually and establish cross-task interaction at different scales. Furthermore, two types of Cross-Scale Self-Attention modules, i.e., Fusion Attention and Selective Attention, are proposed to efficiently facilitate cross-task interaction across different feature scales. An Encoder Feature Aggregation strategy is further introduced to better model multi-scale information in the decoder. Comprehensive experiments on several 2D/3D multi-task benchmarks clearly demonstrate our proposal's effectiveness, establishing significant state-of-the-art performances.
Abstract（参考訳）: マルチタスクシーン理解は、1つの汎用モデルで複数のシーン理解タスクを同時に予測できるモデルを設計することを目的としている。これまでの研究では、よりローカルな方法でマルチタスク機能を処理しているため、空間的にグローバルでクロスタスクなインタラクションを効果的に学習できないため、マルチタスク学習におけるさまざまなタスクの一貫性を十分に活用できない。そこで本稿では,様々なタスクの空間的特徴間のクロスタスクインタラクションをグローバルコンテキストでモデル化できる逆ピラミッド型マルチタスクトランスフォーマを提案する。具体的には,まずまずトランスフォーマーエンコーダを用いてタスク生成機能をキャプチャする。そして,グローバルに空間的およびクロスタスクインタラクションを確立するためのトランスフォーマーデコーダを設計し,マルチタスク機能の解像度を徐々に向上し,異なるスケールでクロスタスクインタラクションを確立するために,新しいUP-Transformerブロックを考案した。さらに,様々な機能尺度間でのクロスタスクインタラクションを効率的に行うために,融合注意と選択的注意という2種類のクロススケール・セルフアテンションモジュールが提案されている。さらに,デコーダのマルチスケール情報をモデル化するために,エンコーダの特徴集約戦略を導入する。複数の2d/3dマルチタスクベンチマークにおける包括的実験により,提案手法の有効性を明確に示し,最先端の性能を確立した。

関連論文リスト

Pilot: Building the Federated Multimodal Instruction Tuning Framework [79.56362403673354]
本フレームワークは、視覚エンコーダとLCMのコネクタに「アダプタのアダプタ」の2つの段階を統合する。ステージ1では視覚情報からタスク固有の特徴とクライアント固有の特徴を抽出する。ステージ2では、クロスタスクインタラクションを実行するために、クロスタスクMixture-of-Adapters(CT-MoA)モジュールを構築します。
論文参考訳（メタデータ） (2025-01-23T07:49:24Z)
A Multitask Deep Learning Model for Classification and Regression of Hyperspectral Images: Application to the large-scale dataset [44.94304541427113]
ハイパースペクトル画像上で複数の分類タスクと回帰タスクを同時に行うマルチタスク深層学習モデルを提案する。我々は、TAIGAと呼ばれる大規模なハイパースペクトルデータセットに対するアプローチを検証した。結果の総合的定性的および定量的分析により,提案手法が他の最先端手法よりも有意に優れていることを示す。
論文参考訳（メタデータ） (2024-07-23T11:14:54Z)
RepVF: A Unified Vector Fields Representation for Multi-task 3D Perception [64.80760846124858]
本稿では,様々な知覚タスクの表現を調和させる新しい統一表現RepVFを提案する。 RepVFは、ベクトル場を通じてシーン内の異なるターゲットの構造を特徴付け、シングルヘッドでマルチタスクの学習モデルを可能にする。 RepVF 上に構築された RFTR は,タスク間の固有性を利用したネットワークである。
論文参考訳（メタデータ） (2024-07-15T16:25:07Z)
Task Indicating Transformer for Task-conditional Dense Predictions [16.92067246179703]
この課題に対処するために,タスク表示変換(TIT)と呼ばれる新しいタスク条件フレームワークを導入する。本手法では,行列分解によるタスク指示行列を組み込んだMix Task Adapterモジュールをトランスフォーマーブロック内に設計する。また,タスク表示ベクトルとゲーティング機構を利用するタスクゲートデコーダモジュールを提案する。
論文参考訳（メタデータ） (2024-03-01T07:06:57Z)
Vision Transformer Adapters for Generalizable Multitask Learning [61.79647180647685]
一般化可能なタスク親和性を学習する最初のマルチタスク・ビジョン・トランスフォーマー・アダプタを提案する。我々のアダプタはパラメータ効率の良い方法で複数の高密度視覚タスクを同時に解くことができる。並行メソッドとは対照的に、新しいタスクやドメインが追加されるたびに、再トレーニングや微調整は不要です。
論文参考訳（メタデータ） (2023-08-23T18:40:48Z)
An Efficient General-Purpose Modular Vision Model via Multi-Task Heterogeneous Training [79.78201886156513]
本稿では、複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を実証する。
論文参考訳（メタデータ） (2023-06-29T17:59:57Z)
DenseMTL: Cross-task Attention Mechanism for Dense Multi-task Learning [18.745373058797714]
本稿では,相互に相互にタスクを交換するマルチタスク学習アーキテクチャを提案する。我々は3つのマルチタスク・セットアップにまたがって広範な実験を行い、合成および実世界のベンチマークにおいて競合するベースラインと比較して、我々のアプローチの利点を示している。
論文参考訳（メタデータ） (2022-06-17T17:59:45Z)
MulT: An End-to-End Multitask Learning Transformer [66.52419626048115]
我々はMulTと呼ばれるエンドツーエンドのマルチタスク学習トランスフォーマフレームワークを提案し、複数のハイレベル視覚タスクを同時に学習する。本フレームワークは,入力画像を共有表現にエンコードし,タスク固有のトランスフォーマーベースのデコーダヘッドを用いて各視覚タスクの予測を行う。
論文参考訳（メタデータ） (2022-05-17T13:03:18Z)
Inverted Pyramid Multi-task Transformer for Dense Scene Understanding [11.608682595506354]
InvPT(Invert-to-end Inverted Pyramid Multi-task Transformer)を提案する。 InvPTは効率の良いUP-Transformerブロックを示し、徐々に高解像度でマルチタスク特徴の相互作用を学習する。提案手法は,NYUD-v2 と PASCAL-Context のデータセット上でのマルチタスク性能を向上し,従来よりも大幅に向上した。
論文参考訳（メタデータ） (2022-03-15T15:29:08Z)
Multi-Task Learning with Sequence-Conditioned Transporter Networks [67.57293592529517]
シーケンスコンディショニングと重み付きサンプリングのレンズによるマルチタスク学習の実現を目指している。合成タスクを対象とした新しいベンチマークであるMultiRavensを提案する。次に,視覚に基づくエンドツーエンドシステムアーキテクチャであるSequence-Conditioned Transporter Networksを提案する。
論文参考訳（メタデータ） (2021-09-15T21:19:11Z)
Reparameterizing Convolutions for Incremental Multi-Task Learning without Task Interference [75.95287293847697]
マルチタスクモデルを開発する際の2つの一般的な課題は、しばしば文献で見過ごされる。まず、モデルを本質的に漸進的に可能にし、以前に学んだことを忘れずに新しいタスクから情報を継続的に取り入れる(インクリメンタルラーニング)。第二に、タスク間の有害な相互作用を排除し、マルチタスク設定(タスク干渉)においてシングルタスクのパフォーマンスを著しく低下させることが示されている。
論文参考訳（メタデータ） (2020-07-24T14:44:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。