論文の概要: DeGMix: Efficient Multi-Task Dense Prediction with Deformable and Gating Mixer
- arxiv url: http://arxiv.org/abs/2308.05721v5
- Date: Sun, 02 Nov 2025 07:24:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-04 18:19:02.612469
- Title: DeGMix: Efficient Multi-Task Dense Prediction with Deformable and Gating Mixer
- Title(参考訳): DeGMix: 変形およびゲーティングミキサーを用いた効率的なマルチタスクセンス予測
- Authors: Yangyang Xu, Yibo Yang, Bernard Ghanem, Lefei Zhang, Bo Du, Jun Zhu,
- Abstract要約: 変形およびゲーティングミキサー(DeGMix)を用いた効率的なマルチタスク密度予測法を提案する。
提案したDeGMixはGFLOPを少なくし、現在のTransformerベースの競合モデルとCNNベースの競合モデルを大幅に上回っている。
- 参考スコア(独自算出の注目度): 129.61363098633782
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Convolution neural networks and Transformers have their own advantages and both have been widely used for dense prediction in multi-task learning (MTL). Existing studies typically employ either CNNs (effectively capture local spatial patterns) or Transformers (capturing long-range dependencies) independently, but integrating their strengths may yield more robust models. In this work, we present an efficient MTL model that combines the adaptive capabilities of deformable CNN and query-based Transformer with shared gating for MTL of dense prediction. This combination may offer a simple and efficient solution owing to its powerful and flexible task-specific learning and the advantages of lower cost, less complexity, and smaller parameters than traditional MTL methods. We introduce an efficient multi-task dense prediction with deformable and gating mixer (DeGMix). First, the deformable mixer encoder contains two types of operators: the channel-aware mixing operator leveraged to allow communication among different channels, and the spatial-aware deformable operator with deformable convolution applied to efficiently sample more informative spatial locations. Second, the task-aware gating transformer decoder is used to perform task-specific predictions, in which task interaction block integrated with self-attention is applied to capture task interaction features, and the task query block integrated with gating attention is leveraged to dynamically select the corresponding task-specific features. Furthermore, the results of the experiment demonstrate that the proposed DeGMix uses fewer GFLOPs and significantly outperforms current Transformer-based and CNN-based competitive models on a variety of metrics on three dense prediction datasets. Our code and models are available at https://github.com/yangyangxu0/DeMTG.
- Abstract(参考訳): 畳み込みニューラルネットワークとトランスフォーマーには独自の利点があり、どちらもマルチタスク学習(MTL)における密度予測に広く利用されている。
既存の研究は通常、CNN(局所的な空間パターンを効果的にキャプチャする)またはトランスフォーマー(長距離依存をキャプチャする)を独立に使用するが、それらの強みを統合することでより堅牢なモデルが得られる。
本研究では、変形可能なCNNとクエリベースのトランスフォーマーの適応能力と、高密度予測のための共有ゲーティングを組み合わせた効率的なMTLモデルを提案する。
この組み合わせは、その強力で柔軟なタスク特化学習と、コストの低減、複雑さの低減、従来のMTL手法よりも小さなパラメータの利点により、シンプルで効率的なソリューションを提供するかもしれない。
本稿では,変形可能な混合器 (DeGMix) を用いたマルチタスクの高密度予測手法を提案する。
まず、変形可能なミキサーエンコーダは、異なるチャネル間の通信を可能にするためのチャネル認識混合演算子と、より情報のある空間位置を効率的にサンプリングするために、変形可能な畳み込みを施した空間認識変形演算子と、の2種類の演算子を含む。
第2に、タスク対応ゲーティングトランスフォーマーデコーダを用いてタスク固有の予測を行い、タスクインタラクション特徴のキャプチャに自己注意と統合されたタスクインタラクションブロックを適用し、ゲーティングアテンションと統合されたタスククエリブロックを利用して、対応するタスク固有の特徴を動的に選択する。
さらに、実験の結果、提案したDeGMixはGFLOPを減らし、現在のTransformerベースの競合モデルやCNNベースの競合モデルよりも優れていることが示された。
私たちのコードとモデルはhttps://github.com/yangyangxu0/DeMTG.comで公開されています。
関連論文リスト
- Resolving Token-Space Gradient Conflicts: Token Space Manipulation for Transformer-Based Multi-Task Learning [44.601029688423914]
マルチタスク学習(MTL)は、複数のタスクを共有ネットワーク内で学習することを可能にするが、タスク間の目的の違いは負の伝達を引き起こす可能性がある。
変換器をベースとしたMTLアーキテクチャに適用可能なフレームワークDTME-MTL(Dynamic Token Modulation and Expansion)を提案する。
論文 参考訳(メタデータ) (2025-07-10T07:13:22Z) - Learnable Multi-Scale Wavelet Transformer: A Novel Alternative to Self-Attention [0.0]
Learnable Multi-Scale Wavelet Transformer (LMWT) は、標準的なドット生成の自己アテンションを置き換える新しいアーキテクチャである。
本稿では,学習可能なHaarウェーブレットモジュールの詳細な数学的定式化とトランスフォーマーフレームワークへの統合について述べる。
この結果から,LMWTは計算上の優位性を保ちながら,競争性能を向上することが示された。
論文 参考訳(メタデータ) (2025-04-08T22:16:54Z) - Pilot: Building the Federated Multimodal Instruction Tuning Framework [79.56362403673354]
本フレームワークは、視覚エンコーダとLCMのコネクタに「アダプタのアダプタ」の2つの段階を統合する。
ステージ1では視覚情報からタスク固有の特徴とクライアント固有の特徴を抽出する。
ステージ2では、クロスタスクインタラクションを実行するために、クロスタスクMixture-of-Adapters(CT-MoA)モジュールを構築します。
論文 参考訳(メタデータ) (2025-01-23T07:49:24Z) - CAS-ViT: Convolutional Additive Self-attention Vision Transformers for Efficient Mobile Applications [73.80247057590519]
ビジョントランスフォーマー(ViT)は、トークンミキサーの強力なグローバルコンテキスト能力によって、ニューラルネットワークの革命的な進歩を示す。
CAS-ViT: Convolutional Additive Self-attention Vision Transformerを導入し、モバイルアプリケーションにおける効率と性能のバランスを実現する。
ImageNet-1Kのパラメータは12M/21Mで83.0%/84.1%である。
論文 参考訳(メタデータ) (2024-08-07T11:33:46Z) - MART: MultiscAle Relational Transformer Networks for Multi-agent Trajectory Prediction [5.8919870666241945]
マルチエージェント軌道予測のためのMultiplescleimat Transformer (MART) ネットワークを提案する。
MARTは、変圧器機械の個人およびグループ動作を考えるためのハイパーグラフトランスフォーマーアーキテクチャである。
さらに,実環境における複雑なグループ関係の推論を目的としたAdaptive Group Estor (AGE)を提案する。
論文 参考訳(メタデータ) (2024-07-31T14:31:49Z) - Bi-directional Adapter for Multi-modal Tracking [67.01179868400229]
汎用の双方向アダプタを用いたマルチモーダル視覚プロンプト追跡モデルを提案する。
我々は、モーダリティ固有の情報をあるモーダリティから別のモーダリティへ転送するための、シンプルだが効果的なライト・フィーチャー・アダプタを開発した。
本モデルでは,完全微調整法と素早い学習法の両方と比較して,追跡性能が優れている。
論文 参考訳(メタデータ) (2023-12-17T05:27:31Z) - AdaMTL: Adaptive Input-dependent Inference for Efficient Multi-Task
Learning [1.4963011898406864]
マルチタスク学習モデルのためのタスク認識推論ポリシーを学習する適応型フレームワークであるAdaMTLを紹介する。
AdaMTLは計算複雑性を43%削減し、シングルタスクモデルと比較して精度を1.32%改善した。
Vuzix M4000 スマートグラス上に展開すると、AdaMTL は推論遅延とエネルギー消費をそれぞれ 21.8% と 37.5% に削減する。
論文 参考訳(メタデータ) (2023-04-17T20:17:44Z) - DeMT: Deformable Mixer Transformer for Multi-Task Learning of Dense
Prediction [40.447092963041236]
変形可能なCNNとクエリベースのTransformerの利点を組み合わせた新しいMTLモデルを提案する。
提案手法は, 単純かつ効率的なエンコーダ・デコーダアーキテクチャに基づいている。
我々のモデルはGFLOPを少なくし、現在のTransformerやCNNベースの競合モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2023-01-09T16:00:15Z) - M$^3$ViT: Mixture-of-Experts Vision Transformer for Efficient Multi-task
Learning with Model-Accelerator Co-design [95.41238363769892]
マルチタスク学習(MTL)は、複数の学習タスクを単一のモデルにカプセル化し、それらのタスクを共同でよりよく学習できるようにする。
現在のMTLレギュレータは、1つのタスクだけを実行するためにさえ、ほぼすべてのモデルを起動する必要がある。
効率的なオンデバイスMTLを実現するためのモデル-アクセラレータ共設計フレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-26T15:40:24Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - HyperTransformer: Model Generation for Supervised and Semi-Supervised
Few-Shot Learning [14.412066456583917]
本稿では,支援サンプルから直接畳み込みニューラルネットワーク(CNN)の重みを生成する,少数ショット学習のためのトランスフォーマーベースモデルを提案する。
本手法は,タスク非依存の定型埋め込みの学習が最適でない小ターゲットCNNアーキテクチャにおいて,特に有効である。
提案手法は,サポートセット内のラベルなしサンプルを利用した半教師付きシステムに拡張され,さらにショット性能が向上する。
論文 参考訳(メタデータ) (2022-01-11T20:15:35Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。