論文の概要: Spatio-Temporal Multi-Task Learning Transformer for Joint Moving Object
Detection and Segmentation
- arxiv url: http://arxiv.org/abs/2106.11401v1
- Date: Mon, 21 Jun 2021 20:30:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-23 15:10:44.593999
- Title: Spatio-Temporal Multi-Task Learning Transformer for Joint Moving Object
Detection and Segmentation
- Title(参考訳): 関節移動物体検出・分割のための時空間多タスク学習変換器
- Authors: Eslam Mohamed and Ahmed El-Sallab
- Abstract要約: 本稿では,トランスフォーマーをベースとしたマルチタスク学習アーキテクチャを提案する。
我々は、初期共有エンコーダと後期共有エンコーダデコーダトランスの両方を用いて、個別タスクアーキテクチャとMLLセットアップの性能を評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Moving objects have special importance for Autonomous Driving tasks.
Detecting moving objects can be posed as Moving Object Segmentation, by
segmenting the object pixels, or Moving Object Detection, by generating a
bounding box for the moving targets. In this paper, we present a Multi-Task
Learning architecture, based on Transformers, to jointly perform both tasks
through one network. Due to the importance of the motion features to the task,
the whole setup is based on a Spatio-Temporal aggregation. We evaluate the
performance of the individual tasks architecture versus the MTL setup, both
with early shared encoders, and late shared encoder-decoder transformers. For
the latter, we present a novel joint tasks query decoder transformer, that
enables us to have tasks dedicated heads out of the shared model. To evaluate
our approach, we use the KITTI MOD [29] data set. Results show1.5% mAP
improvement for Moving Object Detection, and 2%IoU improvement for Moving
Object Segmentation, over the individual tasks networks.
- Abstract(参考訳): 移動物体は自動運転タスクにおいて特に重要である。
移動対象の検出は、移動対象のセグメンテーションとして、移動対象のピクセルをセグメント化したり、移動対象のバウンディングボックスを生成したりすることができる。
本稿では,トランスフォーマーをベースとしたマルチタスク学習アーキテクチャを提案する。
タスクに対する動作の特徴の重要性から、全体のセットアップは時空間の時空間集約に基づいている。
我々は、初期の共有エンコーダと遅延共有エンコーダ-デコーダトランスの両方で、個々のタスクアーキテクチャとmtl設定のパフォーマンスを評価する。
後者では、共有モデルから専用のタスクを抽出できる、新しいタスククエリデコーダ変換器を提案する。
提案手法の評価には, KITTI MOD [29] データセットを用いる。
その結果、各タスクネットワーク上で1.5%のmAP改善、2%のIoU改善、移動オブジェクトセグメンテーションが得られた。
関連論文リスト
- Temporal-Enhanced Multimodal Transformer for Referring Multi-Object Tracking and Segmentation [28.16053631036079]
Referring Multi-object Tracking (RMOT)は、ビデオ中の任意の数の対象物を見つけることを目的とした、新たなクロスモーダルタスクである。
本稿では, Transformer アーキテクチャの利点を活用するために TenRMOT と呼ばれる小型トランスフォーマー方式を提案する。
TenRMOTは参照マルチオブジェクト追跡とセグメンテーションタスクの両方において優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-17T11:07:05Z) - DeTra: A Unified Model for Object Detection and Trajectory Forecasting [68.85128937305697]
提案手法は,2つのタスクの結合を軌道修正問題として定式化する。
この統合タスクに対処するために、オブジェクトの存在, ポーズ, マルチモーダルな将来の振る舞いを推測する精細化変換器を設計する。
実験では、我々のモデルはArgoverse 2 Sensor and Openデータセットの最先端性よりも優れています。
論文 参考訳(メタデータ) (2024-06-06T18:12:04Z) - DOCTR: Disentangled Object-Centric Transformer for Point Scene Understanding [7.470587868134298]
ポイントシーン理解は、現実世界のシーンポイントクラウドを処理する上で難しいタスクです。
最近の最先端の手法はまず各オブジェクトを分割し、次に異なるサブタスクの複数のステージで独立に処理する。
本稿では,オブジェクト中心表現を探索するDECTR(Disentangled Object-Centric TRansformer)を提案する。
論文 参考訳(メタデータ) (2024-03-25T05:22:34Z) - A Simple yet Effective Network based on Vision Transformer for
Camouflaged Object and Salient Object Detection [33.30644598646274]
視覚変換器(ViT)に基づく簡易で効果的なネットワーク(SENet)を提案する。
ローカル情報をモデル化するTransformerの機能を強化するために,ローカル情報キャプチャモジュール(licM)を提案する。
また,BCE(Binary Cross-Entropy)とIoU(Intersection over Union)に基づく動的重み付き損失(DW損失)を提案する。
論文 参考訳(メタデータ) (2024-02-29T07:29:28Z) - ZJU ReLER Submission for EPIC-KITCHEN Challenge 2023: Semi-Supervised
Video Object Segmentation [62.98078087018469]
マルチ機能スケールでトランスフォーマーを組み込んだAOTフレームワークの派生版であるMSDeAOTを紹介する。
MSDeAOTは16のストライドを持つ特徴尺度を用いて、以前のフレームから現在のフレームへ効率的にオブジェクトマスクを伝搬する。
また,GPMを8ストライドで改良した機能スケールで採用することで,小型物体の検出・追跡の精度が向上した。
論文 参考訳(メタデータ) (2023-07-05T03:43:15Z) - Segmenting Moving Objects via an Object-Centric Layered Representation [100.26138772664811]
深層表現を用いたオブジェクト中心セグメンテーションモデルを提案する。
複数のオブジェクトで合成トレーニングデータを生成するスケーラブルなパイプラインを導入する。
標準的なビデオセグメンテーションベンチマークでモデルを評価する。
論文 参考訳(メタデータ) (2022-07-05T17:59:43Z) - MulT: An End-to-End Multitask Learning Transformer [66.52419626048115]
我々はMulTと呼ばれるエンドツーエンドのマルチタスク学習トランスフォーマフレームワークを提案し、複数のハイレベル視覚タスクを同時に学習する。
本フレームワークは,入力画像を共有表現にエンコードし,タスク固有のトランスフォーマーベースのデコーダヘッドを用いて各視覚タスクの予測を行う。
論文 参考訳(メタデータ) (2022-05-17T13:03:18Z) - Semantics-Guided Moving Object Segmentation with 3D LiDAR [32.84782551737681]
移動オブジェクトセグメンテーション(Motion Object segmentation, MOS)は、移動オブジェクトを周囲の静的環境から区別するタスクである。
本研究では,物体のセグメンテーションを行うためのセマンティクス誘導畳み込みニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2022-05-06T12:59:54Z) - Associating Objects with Transformers for Video Object Segmentation [74.51719591192787]
本稿では,複数のオブジェクトを一様に一致・復号化するためのAssociating Objects with Transformers (AOT)アプローチを提案する。
AOTは複数のターゲットを同一の高次元埋め込み空間に関連付けるための識別機構を用いる。
第3回大規模ビデオオブジェクトチャレンジでは1位にランクインした。
論文 参考訳(メタデータ) (2021-06-04T17:59:57Z) - Fast Video Object Segmentation With Temporal Aggregation Network and
Dynamic Template Matching [67.02962970820505]
ビデオオブジェクト(VOS)に「トラッキング・バイ・検出」を導入する。
本稿では,時間的アグリゲーションネットワークと動的時間進化テンプレートマッチング機構を提案する。
我々は,DAVISベンチマークで1フレームあたり0.14秒,J&Fで75.9%の速度で,複雑なベルとホイッスルを伴わずに,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-11T05:44:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。