論文の概要: MTLSI-Net: A Linear Semantic Interaction Network for Parameter-Efficient Multi-Task Dense Prediction
- arxiv url: http://arxiv.org/abs/2604.01995v1
- Date: Thu, 02 Apr 2026 13:02:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.797209
- Title: MTLSI-Net: A Linear Semantic Interaction Network for Parameter-Efficient Multi-Task Dense Prediction
- Title(参考訳): MTLSI-Net:パラメータ効率のよいマルチタスク距離予測のための線形意味相互作用ネットワーク
- Authors: Chen Liu, Hengyu Man, Xiaopeng Fan, Debin Zhao,
- Abstract要約: MTLSI-Netは、パラメータを減らした線形複雑度で包括的なクロスタスク相互作用をキャプチャする。
NYUDv2とPASCAL-Contextの実験はMTLSI-Netが最先端の性能を達成することを示した。
- 参考スコア(独自算出の注目度): 50.992213877904305
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-task dense prediction aims to perform multiple pixel-level tasks simultaneously. However, capturing global cross-task interactions remains non-trivial due to the quadratic complexity of standard self-attention on high-resolution features. To address this limitation, we propose a Multi-Task Linear Semantic Interaction Network (MTLSI-Net), which facilitates cross-task interaction through linear attention. Specifically, MTLSI-Net incorporates three key components: a Multi-Task Multi-scale Query Linear Fusion Block, which captures cross-task dependencies across multiple scales with linear complexity using a shared global context matrix; a Semantic Token Distiller that compresses redundant features into compact semantic tokens, distilling essential cross-task knowledge; and a Cross-Window Integrated attention Block that injects global semantics into local features via a dual-branch architecture, preserving both global consistency and spatial precision. These components collectively enable the network to capture comprehensive cross-task interactions at linear complexity with reduced parameters. Extensive experiments on NYUDv2 and PASCAL-Context demonstrate that MTLSI-Net achieves state-of-the-art performance, validating its effectiveness and efficiency in multi-task learning.
- Abstract(参考訳): マルチタスク密度予測は、複数のピクセルレベルのタスクを同時に実行することを目的としている。
しかし、高解像度の特徴に対する標準自己注意の2次複雑さのため、グローバルなクロスタスク相互作用のキャプチャは依然として簡単ではない。
この制限に対処するため,マルチタスク線形セマンティック・インタラクション・ネットワーク (MTLSI-Net) を提案する。
特に、MTLSI-Netは、3つの主要なコンポーネントを組み込んでいる: Multi-Task Multi-scale Query Linear Fusion Block。これは、共有グローバルコンテキストマトリックスを使用して、複数のスケールにわたるクロスタスク依存関係を、線形複雑性でキャプチャする、Semantic Token Distillerは、冗長な機能をコンパクトなセマンティックトークンに圧縮し、必須のクロスタスク知識を蒸留する、クロスウィンドウ統合アテンションブロックは、グローバルなセマンティックを、デュアルブランチアーキテクチャを介してローカルな特徴に注入し、グローバルな一貫性と空間的精度の両方を保存する。
これらのコンポーネントにより、ネットワークはパラメータを減らした線形複雑度で総合的なタスク間相互作用を捉えることができる。
NYUDv2とPASCAL-Contextの大規模な実験は、MTLSI-Netが最先端のパフォーマンスを実現し、マルチタスク学習の有効性と効率を検証していることを示している。
関連論文リスト
- 3D-Aware Multi-Task Learning with Cross-View Correlations for Dense Scene Understanding [18.76513756741288]
現在のアプローチは主に2D画像空間におけるクロスタスク関係を捉えており、しばしば3D認識に欠ける非構造的特徴に繋がる。
MTLネットワークにおける幾何学的整合性として,ビュー間の相関,すなわちコスト容積を統合することで,この問題に対処することを提案する。
具体的には、タスク間で共有される軽量なクロスビューモジュール(CvM)を導入し、ビュー間で情報を交換し、クロスビューの相関を捉える。
論文 参考訳(メタデータ) (2025-11-25T18:59:34Z) - Tracking and Segmenting Anything in Any Modality [75.32774085793498]
そこで我々はSATAという汎用的なトラッキング・セグメンテーション・フレームワークを提案し、このフレームワークは任意のモダリティ入力でトラッキング・セグメンテーション・サブタスクの広帯域を統一する。
SATAは18の挑戦的なトラッキングとセグメンテーションベンチマークで優れたパフォーマンスを示し、より一般化可能なビデオ理解のための新しい視点を提供する。
論文 参考訳(メタデータ) (2025-11-22T09:09:22Z) - Enhancing Mamba Decoder with Bidirectional Interaction in Multi-Task Dense Prediction [37.625609555296364]
マルチタスクの密接な予測の成功には、クロスタスクの相互作用が不可欠である。
既存の手法は相互作用の完全性と計算効率のトレードオフに直面している。
本研究は, 新規な走査機構を組み込んだ双方向インタラクション・マンバを提案する。
論文 参考訳(メタデータ) (2025-08-28T02:50:19Z) - TEM^3-Learning: Time-Efficient Multimodal Multi-Task Learning for Advanced Assistive Driving [22.22943635900334]
TEM3-Learningは、ドライバーの感情認識、運転者行動認識、交通状況認識、車両行動認識を共同で最適化する新しいフレームワークである。
4つのタスクにまたがって最先端の精度を実現し、600万パラメータ未満の軽量アーキテクチャを維持し、142.32 FPSの推論速度を実現している。
論文 参考訳(メタデータ) (2025-06-22T16:12:27Z) - Pilot: Building the Federated Multimodal Instruction Tuning Framework [79.56362403673354]
本フレームワークは、視覚エンコーダとLCMのコネクタに「アダプタのアダプタ」の2つの段階を統合する。
ステージ1では視覚情報からタスク固有の特徴とクライアント固有の特徴を抽出する。
ステージ2では、クロスタスクインタラクションを実行するために、クロスタスクMixture-of-Adapters(CT-MoA)モジュールを構築します。
論文 参考訳(メタデータ) (2025-01-23T07:49:24Z) - RepVF: A Unified Vector Fields Representation for Multi-task 3D Perception [64.80760846124858]
本稿では,様々な知覚タスクの表現を調和させる新しい統一表現RepVFを提案する。
RepVFは、ベクトル場を通じてシーン内の異なるターゲットの構造を特徴付け、シングルヘッドでマルチタスクの学習モデルを可能にする。
RepVF 上に構築された RFTR は,タスク間の固有性を利用したネットワークである。
論文 参考訳(メタデータ) (2024-07-15T16:25:07Z) - M$^3$ViT: Mixture-of-Experts Vision Transformer for Efficient Multi-task
Learning with Model-Accelerator Co-design [95.41238363769892]
マルチタスク学習(MTL)は、複数の学習タスクを単一のモデルにカプセル化し、それらのタスクを共同でよりよく学習できるようにする。
現在のMTLレギュレータは、1つのタスクだけを実行するためにさえ、ほぼすべてのモデルを起動する必要がある。
効率的なオンデバイスMTLを実現するためのモデル-アクセラレータ共設計フレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-26T15:40:24Z) - DenseMTL: Cross-task Attention Mechanism for Dense Multi-task Learning [18.745373058797714]
本稿では,相互に相互にタスクを交換するマルチタスク学習アーキテクチャを提案する。
我々は3つのマルチタスク・セットアップにまたがって広範な実験を行い、合成および実世界のベンチマークにおいて競合するベースラインと比較して、我々のアプローチの利点を示している。
論文 参考訳(メタデータ) (2022-06-17T17:59:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。