論文の概要: TwinMixing: A Shuffle-Aware Feature Interaction Model for Multi-Task Segmentation
- arxiv url: http://arxiv.org/abs/2603.28233v1
- Date: Mon, 30 Mar 2026 09:54:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.328837
- Title: TwinMixing: A Shuffle-Aware Feature Interaction Model for Multi-Task Segmentation
- Title(参考訳): TwinMixing:マルチタスクセグメンテーションのためのシャッフル対応機能インタラクションモデル
- Authors: Minh-Khoi Do, Huy Che, Dinh-Duy Phan, Duc-Khai Lam, Duc-Lung Vu,
- Abstract要約: ドライビング・エリアとレーンセグメンテーションのための軽量マルチタスクセグメンテーションモデルであるTwinMixingを導入する。
提案するネットワークは、共有エンコーダとタスク固有のデコーダを備え、機能共有とタスク特殊化の両方を可能にする。
BDD100Kデータセットの実験は、3つの構成でTwinMixingの有効性を検証する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurate and efficient perception is essential for autonomous driving, where segmentation tasks such as drivable-area and lane segmentation provide critical cues for motion planning and control. However, achieving high segmentation accuracy while maintaining real-time performance on low-cost hardware remains a challenging problem. To address this issue, we introduce TwinMixing, a lightweight multi-task segmentation model designed explicitly for drivable-area and lane segmentation. The proposed network features a shared encoder and task-specific decoders, enabling both feature sharing and task specialization. Within the encoder, we propose an Efficient Pyramid Mixing (EPM) module that enhances multi-scale feature extraction through a combination of grouped convolutions, depthwise dilated convolutions and channel shuffle operations, effectively expanding the receptive field while minimizing computational cost. Each decoder adopts a Dual-Branch Upsampling (DBU) Block composed of a learnable transposed convolution-based Fine detailed branch and a parameter-free bilinear interpolation-based Coarse grained branch, achieving detailed yet spatially consistent feature reconstruction. Extensive experiments on the BDD100K dataset validate the effectiveness of TwinMixing across three configurations - tiny, base, and large. Among them, the base configuration achieves the best trade-off between accuracy and computational efficiency, reaching 92.0% mIoU for drivable-area segmentation and 32.3% IoU for lane segmentation with only 0.43M parameters and 3.95 GFLOPs. Moreover, TwinMixing consistently outperforms existing segmentation models on the same tasks, as illustrated in Fig. 1. Thanks to its compact and modular design, TwinMixing demonstrates strong potential for real-time deployment in autonomous driving and embedded perception systems. The source code: https://github.com/Jun0se7en/TwinMixing.
- Abstract(参考訳): ドライビング・エリアやレーン・セグメンテーションといったセグメンテーションタスクが、運動計画と制御に重要な手がかりを提供する自動運転には、正確かつ効率的な知覚が不可欠である。
しかし、低コストハードウェア上でのリアルタイム性能を維持しながら高いセグメンテーション精度を実現することは難しい問題である。
この問題に対処するために,ドライビング・エリアとレーンのセグメンテーションのために設計された軽量マルチタスクセグメンテーションモデルであるTwinMixingを導入する。
提案するネットワークは、共有エンコーダとタスク固有のデコーダを備え、機能共有とタスク特殊化の両方を可能にする。
エンコーダ内では,グループ化畳み込み,奥行き拡張畳み込み,チャネルシャッフル操作の組み合わせによるマルチスケール特徴抽出を効率化し,計算コストを最小化し,受容場を効果的に拡張するEPM (Efficient Pyramid Mixing) モジュールを提案する。
各デコーダはDual-Branch Upsampling (DBU)ブロックを採用し、学習可能な変換可能な畳み込みベースファインディテールブランチとパラメータフリーの双線形補間ベース粗い粒度ブランチで構成され、詳細かつ空間的に一貫した特徴再構成を実現する。
BDD100Kデータセットに関する大規模な実験は、TwinMixingの3つの構成 – 小さい、ベース、大きい – での有効性を検証するものだ。
このうち、ベース構成は精度と計算効率の最良のトレードオフを達成し、乾燥領域のセグメンテーションでは92.0% mIoU、レーンのセグメンテーションでは32.3% IoUに達し、パラメータは 0.43M と 3.95 GFLOP である。
さらに、TwinMixingは、図1に示すように、同じタスクにおける既存のセグメンテーションモデルよりも一貫して優れています。
コンパクトでモジュラーなデザインのおかげで、TwinMixingは自動運転や組み込み認識システムにリアルタイムにデプロイする可能性を示している。
ソースコードはhttps://github.com/Jun0se7en/TwinMixing。
関連論文リスト
- DriveMamba: Task-Centric Scalable State Space Model for Efficient End-to-End Autonomous Driving [47.573692944838115]
DriveMambaは、効率的なE2E-ADのためのタスク中心のスケーラブルパラダイムである。
シーケンシャルなタスク関係モデリング、暗黙の対応学習、長期の時間的融合を単一ステージのUnified Mambaデコーダに統合する。
nuScenesとBench2Driveデータセットで実施された大規模な実験は、DriveMambaの優位性、一般化性、および大幅な効率性を実証している。
論文 参考訳(メタデータ) (2026-02-09T11:48:29Z) - MM-DETR: An Efficient Multimodal Detection Transformer with Mamba-Driven Dual-Granularity Fusion and Frequency-Aware Modality Adapters [12.063966356953186]
マルチモーダルリモートセンシングオブジェクト検出は、困難条件下でより正確で堅牢な認識を実現することを目的としている。
注意に基づく、あるいは変形可能な畳み込み融合ブロックに依存する既存のアプローチは、依然としてパフォーマンスと軽量設計のバランスをとるのに苦労している。
マルチモーダルオブジェクト検出のための軽量かつ効率的なフレームワークMM-DETRを提案する。
論文 参考訳(メタデータ) (2025-11-29T07:23:01Z) - MPCM-Net: Multi-scale network integrates partial attention convolution with Mamba for ground-based cloud image segmentation [13.137436418148896]
地上のクラウドイメージセグメンテーションは、太陽光発電の電力予測にとって重要な研究領域である。
本稿では,部分的注意の畳み込みをMambaアーキテクチャと統合し,セグメンテーション精度と計算効率を向上させるマルチスケールネットワークMPCM-Netを提案する。
コミュニティへの重要な貢献として、既存の公開データセットの限界を克服するために設計された、明確できめ細かいセグメンテーションベンチマークであるデータセットCSRCも導入、リリースしています。
論文 参考訳(メタデータ) (2025-11-12T06:17:49Z) - DeGMix: Efficient Multi-Task Dense Prediction with Deformable and Gating Mixer [129.61363098633782]
変形およびゲーティングミキサー(DeGMix)を用いた効率的なマルチタスク密度予測法を提案する。
提案したDeGMixはGFLOPを少なくし、現在のTransformerベースの競合モデルとCNNベースの競合モデルを大幅に上回っている。
論文 参考訳(メタデータ) (2023-08-10T17:37:49Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - UNETR++: Delving into Efficient and Accurate 3D Medical Image Segmentation [93.88170217725805]
本稿では,高画質なセグメンテーションマスクと,パラメータ,計算コスト,推論速度の両面での効率性を提供するUNETR++という3次元医用画像セグメンテーション手法を提案する。
我々の設計の核となるのは、空間的およびチャネル的な識別的特徴を効率的に学習する、新しい効率的な対注意ブロック(EPA)の導入である。
Synapse, BTCV, ACDC, BRaTs, Decathlon-Lungの5つのベンチマークで評価した結果, 効率と精度の両面で, コントリビューションの有効性が示された。
論文 参考訳(メタデータ) (2022-12-08T18:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。