論文の概要: DeMT: Deformable Mixer Transformer for Multi-Task Learning of Dense
Prediction
- arxiv url: http://arxiv.org/abs/2301.03461v1
- Date: Mon, 9 Jan 2023 16:00:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-10 15:48:02.305482
- Title: DeMT: Deformable Mixer Transformer for Multi-Task Learning of Dense
Prediction
- Title(参考訳): DeMT:Dense Predictionのマルチタスク学習のための変形可能なミキサー変換器
- Authors: Yangyang Xu ang Yibo Yang and Lefei Zhang
- Abstract要約: 変形可能なCNNとクエリベースのTransformerの利点を組み合わせた新しいMTLモデルを提案する。
提案手法は, 単純かつ効率的なエンコーダ・デコーダアーキテクチャに基づいている。
我々のモデルはGFLOPを少なくし、現在のTransformerやCNNベースの競合モデルよりも大幅に優れています。
- 参考スコア(独自算出の注目度): 26.02426233209703
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Convolution neural networks (CNNs) and Transformers have their own advantages
and both have been widely used for dense prediction in multi-task learning
(MTL). Most of the current studies on MTL solely rely on CNN or Transformer. In
this work, we present a novel MTL model by combining both merits of deformable
CNN and query-based Transformer for multi-task learning of dense prediction.
Our method, named DeMT, is based on a simple and effective encoder-decoder
architecture (i.e., deformable mixer encoder and task-aware transformer
decoder). First, the deformable mixer encoder contains two types of operators:
the channel-aware mixing operator leveraged to allow communication among
different channels ($i.e.,$ efficient channel location mixing), and the
spatial-aware deformable operator with deformable convolution applied to
efficiently sample more informative spatial locations (i.e., deformed
features). Second, the task-aware transformer decoder consists of the task
interaction block and task query block. The former is applied to capture task
interaction features via self-attention. The latter leverages the deformed
features and task-interacted features to generate the corresponding
task-specific feature through a query-based Transformer for corresponding task
predictions. Extensive experiments on two dense image prediction datasets,
NYUD-v2 and PASCAL-Context, demonstrate that our model uses fewer GFLOPs and
significantly outperforms current Transformer- and CNN-based competitive models
on a variety of metrics. The code are available at
https://github.com/yangyangxu0/DeMT .
- Abstract(参考訳): 畳み込みニューラルネットワーク(CNN)とトランスフォーマーには独自の利点があり、どちらもマルチタスク学習(MTL)における密度予測に広く利用されている。
MTLに関する現在の研究の多くは、CNNやTransformerにのみ依存している。
本研究では,変形可能なCNNとクエリベースのTransformerを併用した新しいMTLモデルを提案する。
demt(demt)という名前の手法は、単純で効果的なエンコーダ-デコーダアーキテクチャ(つまり、変形可能なミキサエンコーダとタスクアウェアトランスデコーダ)に基づいている。
まず、変形可能なミキサーエンコーダは、異なるチャネル間の通信を可能にするために利用されたチャネル認識ミキサー演算子(例えば、効率的なチャネル位置ミキシング)と、より情報のある空間位置(例えば、変形特徴)を効率的にサンプリングするために、変形可能な畳み込みを施した空間認識可変形演算子(英語版)の2種類を含む。
第2に、タスク対応トランスフォーマーデコーダは、タスクインタラクションブロックとタスククエリブロックで構成される。
前者は自己注意によってタスクインタラクションの機能をキャプチャするために適用される。
後者は変形した機能とタスクに相互作用した機能を活用し、対応するタスク予測のためのクエリベースのトランスフォーマーを通じて対応するタスク特有の機能を生成する。
2つの高密度画像予測データセット(NYUD-v2とPASCAL-Context)に対する大規模な実験により、我々のモデルはGFLOPを少なくし、現在のTransformerとCNNベースの競合モデルよりも大幅に優れていることが示された。
コードはhttps://github.com/yangyangxu0/DeMT で公開されている。
関連論文リスト
- CrossMPT: Cross-attention Message-Passing Transformer for Error Correcting Codes [14.631435001491514]
クロスアテンションメッセージパージングトランス(CrossMPT)を提案する。
また、CrossMPTは、既存のニューラルネットワークベースのデコーダを、様々なコードクラスで大幅に上回っていることを示す。
特に、CrossMPTは、メモリ使用量、複雑性、推論時間、トレーニング時間を著しく削減しながら、このデコードパフォーマンスの改善を実現している。
論文 参考訳(メタデータ) (2024-05-02T06:30:52Z) - Deformable Mixer Transformer with Gating for Multi-Task Learning of
Dense Prediction [126.34551436845133]
CNNとTransformerには独自の利点があり、MTL(Multi-task Learning)の高密度予測に広く使われている。
本稿では,変形可能なCNNと問合せベースのTransformerの長所を共用したMTLモデルを提案する。
論文 参考訳(メタデータ) (2023-08-10T17:37:49Z) - ConvTransSeg: A Multi-resolution Convolution-Transformer Network for
Medical Image Segmentation [14.485482467748113]
ハイブリッドエンコーダ/デコーダセグメンテーションモデル(ConvTransSeg)を提案する。
特徴学習用エンコーダとして多層CNNと,セグメンテーション予測用デコーダとして対応する多層トランスフォーマーから構成される。
本手法は,モデル複雑度とメモリ消費率の低いDice係数と平均対称表面距離の測定値で最高の性能を実現する。
論文 参考訳(メタデータ) (2022-10-13T14:59:23Z) - Characterization of anomalous diffusion through convolutional
transformers [0.8984888893275713]
本稿では, 異常拡散のキャラクタリゼーションのためのトランスフォーマーに基づくニューラルネットワークアーキテクチャを提案する。
新たなアーキテクチャであるConvTransformer(ConvTransformer)は、二層畳み込みニューラルネットワークを使用して、拡散軌道から特徴を抽出します。
我々は,ConvTransformerが,短い軌跡において,基礎となる拡散状態を決定する上で,従来の技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-10T18:53:13Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - Multimodal Fusion Transformer for Remote Sensing Image Classification [35.57881383390397]
視覚変換器(ViT)は、畳み込みニューラルネットワーク(CNN)と比較して、期待できる性能のため、画像分類タスクにおいてトレンドとなっている。
CNNに近い満足なパフォーマンスを達成するために、トランスフォーマーはより少ないパラメータを必要とする。
HSI土地被覆分類のためのマルチヘッドクロスパッチアテンション(mCrossPA)を含む新しいマルチモーダルフュージョントランス (MFT) ネットワークを導入する。
論文 参考訳(メタデータ) (2022-03-31T11:18:41Z) - Error Correction Code Transformer [92.10654749898927]
本稿では,トランスフォーマーアーキテクチャを任意のブロック長で線形符号のソフトデコードに拡張することを提案する。
我々は,各チャネルの出力次元を高次元に符号化し,個別に処理すべきビット情報のより良い表現を行う。
提案手法は、トランスフォーマーの極端なパワーと柔軟性を示し、既存の最先端のニューラルデコーダを、その時間的複雑さのごく一部で大きなマージンで上回る。
論文 参考訳(メタデータ) (2022-03-27T15:25:58Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z) - Wake Word Detection with Streaming Transformers [72.66551640048405]
提案したトランスフォーマーモデルでは,同じ偽アラームレートで,平均25%の誤り拒否率でベースライン畳み込みネットワークを性能的に上回ることを示す。
Mobvoiのウェイクワードデータセットに関する実験により,提案したTransformerモデルはベースライン畳み込みネットワークを25%上回る性能を示した。
論文 参考訳(メタデータ) (2021-02-08T19:14:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。