論文の概要: Enhancing Mamba Decoder with Bidirectional Interaction in Multi-Task Dense Prediction
- arxiv url: http://arxiv.org/abs/2508.20376v1
- Date: Thu, 28 Aug 2025 02:50:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 18:12:01.919746
- Title: Enhancing Mamba Decoder with Bidirectional Interaction in Multi-Task Dense Prediction
- Title(参考訳): マルチタスクディエンス予測における双方向インタラクションによるマンバデコーダの強化
- Authors: Mang Cao, Sanping Zhou, Yizhe Li, Ye Deng, Wenli Huang, Le Wang,
- Abstract要約: マルチタスクの密接な予測の成功には、クロスタスクの相互作用が不可欠である。
既存の手法は相互作用の完全性と計算効率のトレードオフに直面している。
本研究は, 新規な走査機構を組み込んだ双方向インタラクション・マンバを提案する。
- 参考スコア(独自算出の注目度): 37.625609555296364
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sufficient cross-task interaction is crucial for success in multi-task dense prediction. However, sufficient interaction often results in high computational complexity, forcing existing methods to face the trade-off between interaction completeness and computational efficiency. To address this limitation, this work proposes a Bidirectional Interaction Mamba (BIM), which incorporates novel scanning mechanisms to adapt the Mamba modeling approach for multi-task dense prediction. On the one hand, we introduce a novel Bidirectional Interaction Scan (BI-Scan) mechanism, which constructs task-specific representations as bidirectional sequences during interaction. By integrating task-first and position-first scanning modes within a unified linear complexity architecture, BI-Scan efficiently preserves critical cross-task information. On the other hand, we employ a Multi-Scale Scan~(MS-Scan) mechanism to achieve multi-granularity scene modeling. This design not only meets the diverse granularity requirements of various tasks but also enhances nuanced cross-task feature interactions. Extensive experiments on two challenging benchmarks, \emph{i.e.}, NYUD-V2 and PASCAL-Context, show the superiority of our BIM vs its state-of-the-art competitors.
- Abstract(参考訳): マルチタスクの密接な予測に成功するためには、十分なクロスタスク相互作用が不可欠である。
しかし、十分な相互作用はしばしば高い計算複雑性をもたらし、既存の手法は相互作用の完全性と計算効率のトレードオフに直面する。
この制限に対処するために,マルチタスク密接な予測にマンバモデリングアプローチを適用するために,新しい走査機構を組み込んだ双方向相互作用マンバ(BIM)を提案する。
一方,双方向インタラクションスキャン(BI-Scan)機構を新たに導入し,インタラクション中の双方向シーケンスとしてタスク固有の表現を構築する。
タスクファーストと位置ファーストの走査モードを統一線形複雑性アーキテクチャに統合することにより、BI-Scanは重要なクロスタスク情報を効率的に保存する。
一方,マルチスケールScan~(MS-Scan)機構を用いて,マルチグラニュラリティシーンモデリングを実現する。
この設計は、様々なタスクの多様な粒度要件を満たすだけでなく、微妙なクロスタスク機能相互作用も強化する。
Emph{i.e.}, NYUD-V2, PASCAL-Contextの2つの挑戦的なベンチマークに対する大規模な実験は、BIMと最先端の競合相手の優位性を示している。
関連論文リスト
- Parameter Aware Mamba Model for Multi-task Dense Prediction [69.94454603308196]
本稿では,マルチタスク学習環境における高密度予測に特化して設計された,新しいデコーダベースのフレームワーク Aware Mamba Model (PAMM) を紹介する。
タスク固有のパラメータを統合および設定し、各タスクの固有の特性をキャプチャする、二重状態空間パラメータの専門家を特徴とする。
マルチディレクショナル・ヒルベルト走査法を用いて多角特徴系列を構築し、2次元データに対するシーケンスモデルの知覚能力を向上する。
論文 参考訳(メタデータ) (2025-11-18T13:48:00Z) - MEJO: MLLM-Engaged Surgical Triplet Recognition via Inter- and Intra-Task Joint Optimization [52.149337961205624]
手術用三重項認識のためのタスク間最適化とタスク内最適化を両立する枠組みを提案する。
タスク間最適化のために、タスク共有およびタスク固有コンポーネントに表現を分解する共有特徴分散学習スキーム(S$2$D)を導入する。
タスク内最適化競合に対して,正負の曖昧さを識別・再バランスするコーディネート・グラディエント・ラーニング(CGL)戦略を開発する。
論文 参考訳(メタデータ) (2025-09-16T09:48:52Z) - DeepInteraction++: Multi-Modality Interaction for Autonomous Driving [80.8837864849534]
我々は,モダリティごとの個別表現を学習し,維持することのできる,新しいモダリティインタラクション戦略を導入する。
DeepInteraction++はマルチモーダルなインタラクション・フレームワークであり、マルチモーダルな表現型インタラクション・エンコーダとマルチモーダルな予測型インタラクション・デコーダを特徴とする。
実験では,3次元物体検出とエンドツーエンドの自律走行の両方において,提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-09T14:04:21Z) - Task Indicating Transformer for Task-conditional Dense Predictions [16.92067246179703]
この課題に対処するために,タスク表示変換(TIT)と呼ばれる新しいタスク条件フレームワークを導入する。
本手法では,行列分解によるタスク指示行列を組み込んだMix Task Adapterモジュールをトランスフォーマーブロック内に設計する。
また,タスク表示ベクトルとゲーティング機構を利用するタスクゲートデコーダモジュールを提案する。
論文 参考訳(メタデータ) (2024-03-01T07:06:57Z) - BridgeNet: Comprehensive and Effective Feature Interactions via Bridge Feature for Multi-task Dense Predictions [29.049866510120093]
マルチタスク密度予測は,複数の画素単位の予測タスクを統合ネットワーク内で同時に処理し,視覚的シーン理解を実現することを目的としている。
これらの未探索問題に対処するために,包括的かつ識別的な中間ブリッジ特徴を抽出する新しいブリッジネットフレームワークを提案する。
私たちの知る限りでは、クロスタスクインタラクションにおける機能参加者の完全性と品質を考慮した最初の作品です。
論文 参考訳(メタデータ) (2023-12-21T01:30:44Z) - MMoE: Enhancing Multimodal Models with Mixtures of Multimodal Interaction Experts [92.76662894585809]
MMOE(Multimodal Mixtures of Experts)と呼ばれるマルチモーダルモデルの拡張手法を導入する。
MMoEは様々な種類のモデルに適用でき、改善できる。
論文 参考訳(メタデータ) (2023-11-16T05:31:21Z) - Contrastive Multi-Task Dense Prediction [11.227696986100447]
設計における中核的な目的は、異なるタスクに対する包括的な改善を達成するために、クロスタスクインタラクションを効果的にモデル化する方法である。
マルチタスク密接な予測のためのクロスタスク相互作用のモデル化に特徴的コントラスト整合を導入する。
本稿では,各サブタスクの表現学習を効果的に促進するために,一貫性に基づく新しいマルチタスクコントラスト正規化手法を提案する。
論文 参考訳(メタデータ) (2023-07-16T03:54:01Z) - InvPT++: Inverted Pyramid Multi-Task Transformer for Visual Scene
Understanding [11.608682595506354]
マルチタスクシーン理解は、複数のシーン理解タスクを1つの多目的モデルで同時に予測できるモデルを設計することを目的としている。
従来の研究は通常、より局所的な方法でマルチタスクの特徴を処理するため、空間的にグローバルな相互作用とクロスタスクの相互作用を効果的に学習することはできない。
異なるタスクの空間的特徴間の相互タスク相互作用をグローバルな文脈でモデル化できる逆ピラミッドマルチタスク変換器を提案する。
論文 参考訳(メタデータ) (2023-06-08T00:28:22Z) - DenseMTL: Cross-task Attention Mechanism for Dense Multi-task Learning [18.745373058797714]
本稿では,相互に相互にタスクを交換するマルチタスク学習アーキテクチャを提案する。
我々は3つのマルチタスク・セットアップにまたがって広範な実験を行い、合成および実世界のベンチマークにおいて競合するベースラインと比較して、我々のアプローチの利点を示している。
論文 参考訳(メタデータ) (2022-06-17T17:59:45Z) - A Co-Interactive Transformer for Joint Slot Filling and Intent Detection [61.109486326954205]
音声言語理解システム(SLU)を構築する上では,インテント検出とスロットフィリングが主要な2つのタスクである。
以前の研究では、2つのタスクを個別にモデル化するか、インテントからスロットへの単一の情報フローのみを考慮していた。
本稿では,2つのタスク間の相互影響を同時に検討するコ・インターアクティブ・トランスフォーマーを提案する。
論文 参考訳(メタデータ) (2020-10-08T10:16:52Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。