論文の概要: A Vanilla Multi-Task Framework for Dense Visual Prediction Solution to
1st VCL Challenge -- Multi-Task Robustness Track
- arxiv url: http://arxiv.org/abs/2402.17319v1
- Date: Tue, 27 Feb 2024 08:51:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 17:16:17.420142
- Title: A Vanilla Multi-Task Framework for Dense Visual Prediction Solution to
1st VCL Challenge -- Multi-Task Robustness Track
- Title(参考訳): 集中的視覚予測のためのバニラマルチタスクフレームワーク - 第1回vclチャレンジ -- マルチタスクロバスト性トラック
- Authors: Zehui Chen, Qiuchen Wang, Zhenyu Li, Jiaming Liu, Shanghang Zhang,
Feng Zhao
- Abstract要約: 様々な視覚認識アルゴリズムをマルチタスクモデルにシームレスに結合するUniNetというフレームワークを提案する。
具体的には,DreTR3D,Mask2Former,BinsFormerを3次元オブジェクト検出,インスタンスセグメンテーション,深さ推定タスクとして選択する。
最後のエントリーは、InternImage-Lバックボーンを備えた単一のモデルで、総合スコアは49.6である。
- 参考スコア(独自算出の注目度): 31.754017006309564
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this report, we present our solution to the multi-task robustness track of
the 1st Visual Continual Learning (VCL) Challenge at ICCV 2023 Workshop. We
propose a vanilla framework named UniNet that seamlessly combines various
visual perception algorithms into a multi-task model. Specifically, we choose
DETR3D, Mask2Former, and BinsFormer for 3D object detection, instance
segmentation, and depth estimation tasks, respectively. The final submission is
a single model with InternImage-L backbone, and achieves a 49.6 overall score
(29.5 Det mAP, 80.3 mTPS, 46.4 Seg mAP, and 7.93 silog) on SHIFT validation
set. Besides, we provide some interesting observations in our experiments which
may facilitate the development of multi-task learning in dense visual
prediction.
- Abstract(参考訳): 本稿では,ICCV 2023 Workshopにおいて,第1回視覚連続学習(VCL)チャレンジのマルチタスクロバスト性トラックに対するソリューションを提案する。
様々な視覚知覚アルゴリズムをマルチタスクモデルにシームレスに組み合わせた,uninetというバニラフレームワークを提案する。
具体的には,DreTR3D,Mask2Former,BinsFormerの3次元オブジェクト検出,インスタンス分割,深さ推定タスクを選択する。
最終的な提出は、InternImage-Lのバックボーンを持つシングルモデルで、ShiFT検証セットで49.6スコア(29.5デットmAP、80.3mTPS、46.4セグマAP、7.93シログ)を達成した。
また, 密集した視覚予測におけるマルチタスク学習の開発を促進するため, 実験で興味深い観察を行った。
関連論文リスト
- First Place Solution to the ECCV 2024 ROAD++ Challenge @ ROAD++ Atomic Activity Recognition 2024 [5.674251666234644]
本報告では,2024年のECCV ROAD++ Challengeのトラック3に参加するための,私たちのチームの技術的ソリューションについて紹介する。
トラック3のタスクは、映像コンテンツに基づいて、路面の64種類の原子活動を特定することを目的とした原子活動認識である。
我々のアプローチは、主に小さなオブジェクトの課題に対処し、単一のオブジェクトとオブジェクトのグループを区別し、モデルオーバーフィットする。
論文 参考訳(メタデータ) (2024-10-30T15:06:58Z) - A Multitask Deep Learning Model for Classification and Regression of Hyperspectral Images: Application to the large-scale dataset [44.94304541427113]
ハイパースペクトル画像上で複数の分類タスクと回帰タスクを同時に行うマルチタスク深層学習モデルを提案する。
我々は、TAIGAと呼ばれる大規模なハイパースペクトルデータセットに対するアプローチを検証した。
結果の総合的定性的および定量的分析により,提案手法が他の最先端手法よりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2024-07-23T11:14:54Z) - MTP: Advancing Remote Sensing Foundation Model via Multi-Task Pretraining [73.81862342673894]
ファンデーションモデルは、様々な画像解釈タスクを強化することで、リモートセンシング(RS)のランドスケープを再構築した。
事前訓練されたモデルを下流のタスクに転送することは、イメージ分類やオブジェクト識別タスクとして事前訓練の定式化によるタスクの相違に遭遇する可能性がある。
SAMRSデータセット上で、セマンティックセグメンテーション、インスタンスセグメンテーション、回転オブジェクト検出を含むマルチタスクによる事前トレーニングを行う。
我々のモデルは、シーン分類、水平・回転物体検出、セマンティックセグメンテーション、変化検出など、様々なRS下流タスクに基づいて微調整される。
論文 参考訳(メタデータ) (2024-03-20T09:17:22Z) - TaskCLIP: Extend Large Vision-Language Model for Task Oriented Object Detection [23.73648235283315]
タスク指向オブジェクト検出は、特定のタスクを達成するのに適したオブジェクトを見つけることを目的としている。
最近のソリューションは主にオールインワンモデルです。
汎用オブジェクト検出とタスク誘導オブジェクト選択からなるより自然な2段階設計であるTaskCLIPを提案する。
論文 参考訳(メタデータ) (2024-03-12T22:33:02Z) - Single-Shot and Multi-Shot Feature Learning for Multi-Object Tracking [55.13878429987136]
そこで本研究では,異なる目標に対して,単発と複数発の特徴を共同で学習するための,シンプルで効果的な2段階特徴学習パラダイムを提案する。
提案手法は,DanceTrackデータセットの最先端性能を達成しつつ,MOT17およびMOT20データセットの大幅な改善を実現している。
論文 参考訳(メタデータ) (2023-11-17T08:17:49Z) - Heuristic Vision Pre-Training with Self-Supervised and Supervised
Multi-Task Learning [0.0]
マルチタスク方式で自己教師型と教師型の両方の視覚的プレテキストタスクを採用することで、新しい事前学習フレームワークを提案する。
その結果、事前学習したモデルでは、複数の視覚的タスクにおいて、最先端(SOTA)結果と同等以上の結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-10-11T14:06:04Z) - 3rd Place Solution for PVUW2023 VSS Track: A Large Model for Semantic
Segmentation on VSPW [68.56017675820897]
本稿では,PVUW2023 VSSトラックの3位解について紹介する。
ビデオセマンティックセグメンテーションの課題を解決するために,様々な画像レベルの視覚的バックボーンとセグメンテーションヘッドを探索した。
論文 参考訳(メタデータ) (2023-06-04T07:50:38Z) - Simultaneous Multiple Object Detection and Pose Estimation using 3D
Model Infusion with Monocular Vision [21.710141497071373]
複数物体の検出とポーズ推定はコンピュータビジョンの重要なタスクである。
単眼視と3Dモデルを用いた同時ニューラルモデリングを提案する。
我々の同時多重物体検出・ポース推定ネットワーク(SMOPE-Net)は、エンドツーエンドのトレーニング可能なマルチタスクネットワークである。
論文 参考訳(メタデータ) (2022-11-21T05:18:56Z) - A Simple Baseline for Multi-Camera 3D Object Detection [94.63944826540491]
周囲のカメラで3Dオブジェクトを検出することは、自動運転にとって有望な方向だ。
マルチカメラオブジェクト検出のための簡易ベースラインであるSimMODを提案する。
我々は, nuScenes の3次元オブジェクト検出ベンチマークにおいて, SimMOD の有効性を示す広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-08-22T03:38:01Z) - MulT: An End-to-End Multitask Learning Transformer [66.52419626048115]
我々はMulTと呼ばれるエンドツーエンドのマルチタスク学習トランスフォーマフレームワークを提案し、複数のハイレベル視覚タスクを同時に学習する。
本フレームワークは,入力画像を共有表現にエンコードし,タスク固有のトランスフォーマーベースのデコーダヘッドを用いて各視覚タスクの予測を行う。
論文 参考訳(メタデータ) (2022-05-17T13:03:18Z) - Zero Experience Required: Plug & Play Modular Transfer Learning for
Semantic Visual Navigation [97.17517060585875]
新たなモジュール移動学習モデルを用いて視覚ナビゲーションに統一的な手法を提案する。
我々のモデルは、1つのソースタスクから経験を効果的に活用し、複数のターゲットタスクに適用することができる。
我々のアプローチはより速く学習し、より良く一般化し、大きなマージンでSoTAモデルを上回っます。
論文 参考訳(メタデータ) (2022-02-05T00:07:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。