論文の概要: MuraNet: Multi-task Floor Plan Recognition with Relation Attention
- arxiv url: http://arxiv.org/abs/2309.00348v1
- Date: Fri, 1 Sep 2023 09:10:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-04 14:02:34.075782
- Title: MuraNet: Multi-task Floor Plan Recognition with Relation Attention
- Title(参考訳): MuraNet:関係を考慮したマルチタスクフロアプラン認識
- Authors: Lingxiao Huang, Jung-Hsuan Wu, Chiching Wei, Wilson Li
- Abstract要約: フロアプランデータにおけるセグメンテーションと検出タスクのためのアテンションベースマルチタスクモデルであるMuraNetを紹介する。
検出タスクとセグメンテーションタスクの両方でモデルを共同でトレーニングすることで、MuraNetは両方のタスクに関係のある機能を効果的に抽出し活用できると信じている。
- 参考スコア(独自算出の注目度): 9.295218599901249
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recognition of information in floor plan data requires the use of
detection and segmentation models. However, relying on several single-task
models can result in ineffective utilization of relevant information when there
are multiple tasks present simultaneously. To address this challenge, we
introduce MuraNet, an attention-based multi-task model for segmentation and
detection tasks in floor plan data. In MuraNet, we adopt a unified encoder
called MURA as the backbone with two separated branches: an enhanced
segmentation decoder branch and a decoupled detection head branch based on
YOLOX, for segmentation and detection tasks respectively. The architecture of
MuraNet is designed to leverage the fact that walls, doors, and windows usually
constitute the primary structure of a floor plan's architecture. By jointly
training the model on both detection and segmentation tasks, we believe MuraNet
can effectively extract and utilize relevant features for both tasks. Our
experiments on the CubiCasa5k public dataset show that MuraNet improves
convergence speed during training compared to single-task models like U-Net and
YOLOv3. Moreover, we observe improvements in the average AP and IoU in
detection and segmentation tasks, respectively.Our ablation experiments
demonstrate that the attention-based unified backbone of MuraNet achieves
better feature extraction in floor plan recognition tasks, and the use of
decoupled multi-head branches for different tasks further improves model
performance. We believe that our proposed MuraNet model can address the
disadvantages of single-task models and improve the accuracy and efficiency of
floor plan data recognition.
- Abstract(参考訳): フロアプランデータにおける情報認識には,検出モデルとセグメンテーションモデルが必要となる。
しかし、複数のシングルタスクモデルに依存すると、複数のタスクが同時に存在する場合、関連する情報を効果的に利用できない可能性がある。
この課題に対処するために、フロアプランデータにおけるセグメンテーションと検出タスクのためのアテンションベースマルチタスクモデルであるMuraNetを紹介する。
muranetでは,セグメンテーション・デコーダ・ブランチとyoloxに基づくデカップリング検出ヘッドブランチの2つのブランチを分離したバックボーンとしてmuraと呼ばれる統一エンコーダを採用し,それぞれセグメンテーションと検出タスクを行う。
MuraNetのアーキテクチャは、壁、ドア、窓がフロアプランのアーキテクチャの主要な構造であるという事実を活用するように設計されている。
検出タスクとセグメンテーションタスクの両方でモデルを共同でトレーニングすることで、MuraNetは両方のタスクに関係のある機能を効果的に抽出し活用できると考えています。
U-NetやYOLOv3のようなシングルタスクモデルと比較して,MuraNetがトレーニング中の収束速度を改善することを示す。
さらに,各タスクにおける平均APとIoUの改善を観察し,MuraNetのアテンションベース統合バックボーンがフロアプラン認識タスクにおいて,より優れた特徴抽出を実現し,異なるタスクに対する分離多重ヘッドブランチの使用によりモデル性能がさらに向上することを示した。
提案したMuraNetモデルは,シングルタスクモデルの欠点に対処し,フロアプランデータ認識の精度と効率を向上させることができると考えている。
関連論文リスト
- RepVF: A Unified Vector Fields Representation for Multi-task 3D Perception [64.80760846124858]
本稿では,様々な知覚タスクの表現を調和させる新しい統一表現RepVFを提案する。
RepVFは、ベクトル場を通じてシーン内の異なるターゲットの構造を特徴付け、シングルヘッドでマルチタスクの学習モデルを可能にする。
RepVF 上に構築された RFTR は,タスク間の固有性を利用したネットワークである。
論文 参考訳(メタデータ) (2024-07-15T16:25:07Z) - A Point-Based Approach to Efficient LiDAR Multi-Task Perception [49.91741677556553]
PAttFormerは、ポイントクラウドにおける共同セマンティックセグメンテーションとオブジェクト検出のための効率的なマルチタスクアーキテクチャである。
他のLiDARベースのマルチタスクアーキテクチャとは異なり、提案したPAttFormerはタスク固有のポイントクラウド表現のために別の機能エンコーダを必要としない。
マルチタスク学習では,mIouでは+1.7%,mAPでは3Dオブジェクト検出では+1.7%,LiDARセマンティックセマンティックセグメンテーションは+1.7%向上した。
論文 参考訳(メタデータ) (2024-04-19T11:24:34Z) - Single-Shot and Multi-Shot Feature Learning for Multi-Object Tracking [55.13878429987136]
そこで本研究では,異なる目標に対して,単発と複数発の特徴を共同で学習するための,シンプルで効果的な2段階特徴学習パラダイムを提案する。
提案手法は,DanceTrackデータセットの最先端性能を達成しつつ,MOT17およびMOT20データセットの大幅な改善を実現している。
論文 参考訳(メタデータ) (2023-11-17T08:17:49Z) - Body Segmentation Using Multi-task Learning [1.0832844764942349]
本稿では,3つのタスクを伴い,人間のセグメンテーション/パーシングのための新しいマルチタスクモデルを提案する。
提案された--Pose--DensePoseモデル(略してSPD)の背景にある主な考え方は、異なるが関連するタスク間で知識を共有することによって、より良いセグメンテーションモデルを学ぶことである。
モデルの性能は、LIPおよびATRデータセットの厳密な実験により分析され、最近の(最先端)マルチタスクボディセグメンテーションモデルと比較される。
論文 参考訳(メタデータ) (2022-12-13T13:06:21Z) - Simultaneous Multiple Object Detection and Pose Estimation using 3D
Model Infusion with Monocular Vision [21.710141497071373]
複数物体の検出とポーズ推定はコンピュータビジョンの重要なタスクである。
単眼視と3Dモデルを用いた同時ニューラルモデリングを提案する。
我々の同時多重物体検出・ポース推定ネットワーク(SMOPE-Net)は、エンドツーエンドのトレーニング可能なマルチタスクネットワークである。
論文 参考訳(メタデータ) (2022-11-21T05:18:56Z) - MulT: An End-to-End Multitask Learning Transformer [66.52419626048115]
我々はMulTと呼ばれるエンドツーエンドのマルチタスク学習トランスフォーマフレームワークを提案し、複数のハイレベル視覚タスクを同時に学習する。
本フレームワークは,入力画像を共有表現にエンコードし,タスク固有のトランスフォーマーベースのデコーダヘッドを用いて各視覚タスクの予測を行う。
論文 参考訳(メタデータ) (2022-05-17T13:03:18Z) - SG-Net: Spatial Granularity Network for One-Stage Video Instance
Segmentation [7.544917072241684]
ビデオインスタンスセグメンテーション(VIS)はコンピュータビジョンにおける新しい重要なタスクである。
VISのための一段階空間粒度ネットワーク(SG-Net)を提案する。
提案手法は精度と推論速度の両方で性能を向上できることを示す。
論文 参考訳(メタデータ) (2021-03-18T14:31:15Z) - Multi-object Tracking with a Hierarchical Single-branch Network [31.680667324595557]
階層的な単一ブランチネットワークに基づくオンライン多目的追跡フレームワークを提案する。
新たなiHOIM損失関数は,2つのサブタスクの目的を統一し,より優れた検出性能を実現する。
MOT16とMOT20データセットの実験結果から,最先端のトラッキング性能が達成できた。
論文 参考訳(メタデータ) (2021-01-06T12:14:58Z) - FairMOT: On the Fairness of Detection and Re-Identification in Multiple
Object Tracking [92.48078680697311]
マルチオブジェクトトラッキング(MOT)はコンピュータビジョンにおいて重要な問題である。
本稿では,FairMOTと呼ばれる,アンカーフリーなオブジェクト検出アーキテクチャCenterNetをベースとした,シンプルかつ効果的なアプローチを提案する。
このアプローチは、検出と追跡の両方において高い精度を達成する。
論文 参考訳(メタデータ) (2020-04-04T08:18:00Z) - A Unified Object Motion and Affinity Model for Online Multi-Object
Tracking [127.5229859255719]
オブジェクトの動きと親和性モデルを単一のネットワークに統一する新しいMOTフレームワークUMAを提案する。
UMAは、単一物体追跡とメートル法学習をマルチタスク学習により統合された三重項ネットワークに統合する。
我々は,タスク認識機能学習を促進するために,タスク固有のアテンションモジュールを装備する。
論文 参考訳(メタデータ) (2020-03-25T09:36:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。