論文の概要: Deformable Mixer Transformer with Gating for Multi-Task Learning of
Dense Prediction
- arxiv url: http://arxiv.org/abs/2308.05721v3
- Date: Fri, 18 Aug 2023 08:15:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-21 22:18:40.490568
- Title: Deformable Mixer Transformer with Gating for Multi-Task Learning of
Dense Prediction
- Title(参考訳): ディエンス予測のマルチタスク学習のためのゲーティング付き変形可能なミキサー変換器
- Authors: Yangyang Xu, Yibo Yang, Bernard Ghanemm, Lefei Zhang, Du Bo, Dacheng
Tao
- Abstract要約: CNNとTransformerには独自の利点があり、MTL(Multi-task Learning)の高密度予測に広く使われている。
本稿では,変形可能なCNNと問合せベースのTransformerの長所を共用したMTLモデルを提案する。
- 参考スコア(独自算出の注目度): 84.40255558909269
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: CNNs and Transformers have their own advantages and both have been widely
used for dense prediction in multi-task learning (MTL). Most of the current
studies on MTL solely rely on CNN or Transformer. In this work, we present a
novel MTL model by combining both merits of deformable CNN and query-based
Transformer with shared gating for multi-task learning of dense prediction.
This combination may offer a simple and efficient solution owing to its
powerful and flexible task-specific learning and advantages of lower cost, less
complexity and smaller parameters than the traditional MTL methods. We
introduce deformable mixer Transformer with gating (DeMTG), a simple and
effective encoder-decoder architecture up-to-date that incorporates the
convolution and attention mechanism in a unified network for MTL. It is
exquisitely designed to use advantages of each block, and provide deformable
and comprehensive features for all tasks from local and global perspective.
First, the deformable mixer encoder contains two types of operators: the
channel-aware mixing operator leveraged to allow communication among different
channels, and the spatial-aware deformable operator with deformable convolution
applied to efficiently sample more informative spatial locations. Second, the
task-aware gating transformer decoder is used to perform the task-specific
predictions, in which task interaction block integrated with self-attention is
applied to capture task interaction features, and the task query block
integrated with gating attention is leveraged to select corresponding
task-specific features. Further, the experiment results demonstrate that the
proposed DeMTG uses fewer GFLOPs and significantly outperforms current
Transformer-based and CNN-based competitive models on a variety of metrics on
three dense prediction datasets. Our code and models are available at
https://github.com/yangyangxu0/DeMTG.
- Abstract(参考訳): CNNとTransformerには独自の利点があり、どちらもマルチタスク学習(MTL)における高密度な予測に広く利用されている。
MTLに関する現在の研究の多くは、CNNやTransformerにのみ依存している。
本研究では,変形可能なcnnと問合せに基づくトランスフォーマーのメリットを共有ゲーティングと組み合わせることで,マルチタスク学習と密集型予測を組み合わせた新しいmtlモデルを提案する。
この組み合わせは、強力で柔軟なタスク固有の学習と、コストの低減、複雑さの低減、および従来のmtlメソッドよりも小さいパラメータの利点により、シンプルで効率的なソリューションを提供する。
変形可能なミキサートランス (deformable mixer Transformer with gating, DeMTG) は,MTL用統合ネットワークにコンボリューションとアテンション機構を組み込んだ,シンプルで効果的なエンコーダ・デコーダアーキテクチャである。
各ブロックの利点を巧みに利用し、ローカルおよびグローバルの観点から全てのタスクに対して変形可能で包括的な機能を提供する。
まず、変形可能なミキサーエンコーダは、異なるチャネル間の通信を可能にするためのチャネル認識混合演算子と、より情報のある空間位置を効率的にサンプリングするために、変形可能な畳み込みを施した空間認識変形演算子と、の2種類の演算子を含む。
第2に、タスク対応ゲーティングトランスフォーマーデコーダを用いてタスク固有の予測を行い、タスクインタラクション特徴のキャプチャに自己注意と統合されたタスクインタラクションブロックを適用し、ゲーティングアテンションと統合されたタスククエリブロックを利用してタスク固有の特徴の選定を行う。
さらに,提案するdemtgはgflops使用量が少なく,現行のトランスフォーマベースおよびcnnベースの競合モデルと比較して,3つの密集した予測データセット上での多種多様な指標において有意に性能が向上することを示した。
私たちのコードとモデルはhttps://github.com/yangyangxu0/demtgで利用可能です。
関連論文リスト
- MART: MultiscAle Relational Transformer Networks for Multi-agent Trajectory Prediction [5.8919870666241945]
マルチエージェント軌道予測のためのMultiplescleimat Transformer (MART) ネットワークを提案する。
MARTは、変圧器機械の個人およびグループ動作を考えるためのハイパーグラフトランスフォーマーアーキテクチャである。
さらに,実環境における複雑なグループ関係の推論を目的としたAdaptive Group Estor (AGE)を提案する。
論文 参考訳(メタデータ) (2024-07-31T14:31:49Z) - Bi-directional Adapter for Multi-modal Tracking [67.01179868400229]
汎用の双方向アダプタを用いたマルチモーダル視覚プロンプト追跡モデルを提案する。
我々は、モーダリティ固有の情報をあるモーダリティから別のモーダリティへ転送するための、シンプルだが効果的なライト・フィーチャー・アダプタを開発した。
本モデルでは,完全微調整法と素早い学習法の両方と比較して,追跡性能が優れている。
論文 参考訳(メタデータ) (2023-12-17T05:27:31Z) - AdaMTL: Adaptive Input-dependent Inference for Efficient Multi-Task
Learning [1.4963011898406864]
マルチタスク学習モデルのためのタスク認識推論ポリシーを学習する適応型フレームワークであるAdaMTLを紹介する。
AdaMTLは計算複雑性を43%削減し、シングルタスクモデルと比較して精度を1.32%改善した。
Vuzix M4000 スマートグラス上に展開すると、AdaMTL は推論遅延とエネルギー消費をそれぞれ 21.8% と 37.5% に削減する。
論文 参考訳(メタデータ) (2023-04-17T20:17:44Z) - DeMT: Deformable Mixer Transformer for Multi-Task Learning of Dense
Prediction [40.447092963041236]
変形可能なCNNとクエリベースのTransformerの利点を組み合わせた新しいMTLモデルを提案する。
提案手法は, 単純かつ効率的なエンコーダ・デコーダアーキテクチャに基づいている。
我々のモデルはGFLOPを少なくし、現在のTransformerやCNNベースの競合モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2023-01-09T16:00:15Z) - M$^3$ViT: Mixture-of-Experts Vision Transformer for Efficient Multi-task
Learning with Model-Accelerator Co-design [95.41238363769892]
マルチタスク学習(MTL)は、複数の学習タスクを単一のモデルにカプセル化し、それらのタスクを共同でよりよく学習できるようにする。
現在のMTLレギュレータは、1つのタスクだけを実行するためにさえ、ほぼすべてのモデルを起動する必要がある。
効率的なオンデバイスMTLを実現するためのモデル-アクセラレータ共設計フレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-26T15:40:24Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - HyperTransformer: Model Generation for Supervised and Semi-Supervised
Few-Shot Learning [14.412066456583917]
本稿では,支援サンプルから直接畳み込みニューラルネットワーク(CNN)の重みを生成する,少数ショット学習のためのトランスフォーマーベースモデルを提案する。
本手法は,タスク非依存の定型埋め込みの学習が最適でない小ターゲットCNNアーキテクチャにおいて,特に有効である。
提案手法は,サポートセット内のラベルなしサンプルを利用した半教師付きシステムに拡張され,さらにショット性能が向上する。
論文 参考訳(メタデータ) (2022-01-11T20:15:35Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。