論文の概要: Unified Open-Vocabulary Dense Visual Prediction
- arxiv url: http://arxiv.org/abs/2307.08238v1
- Date: Mon, 17 Jul 2023 04:39:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-18 14:43:14.493006
- Title: Unified Open-Vocabulary Dense Visual Prediction
- Title(参考訳): 統一オープンボキャブラリー密集視覚予測
- Authors: Hengcan Shi, Munawar Hayat, Jianfei Cai
- Abstract要約: オープン語彙(OV)の濃密な視覚予測は研究の注目を集めている。
既存のアプローチのほとんどはタスク固有であり、個々のタスクに個別に取り組む。
我々は4つの共通密度予測タスクに共同で対処する統一オープン語彙ネットワーク(UOVN)を提案する。
- 参考スコア(独自算出の注目度): 53.27673119360868
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, open-vocabulary (OV) dense visual prediction (such as OV
object detection, semantic, instance and panoptic segmentations) has attracted
increasing research attention. However, most of existing approaches are
task-specific and individually tackle each task. In this paper, we propose a
Unified Open-Vocabulary Network (UOVN) to jointly address four common dense
prediction tasks. Compared with separate models, a unified network is more
desirable for diverse industrial applications. Moreover, OV dense prediction
training data is relatively less. Separate networks can only leverage
task-relevant training data, while a unified approach can integrate diverse
training data to boost individual tasks. We address two major challenges in
unified OV prediction. Firstly, unlike unified methods for fixed-set
predictions, OV networks are usually trained with multi-modal data. Therefore,
we propose a multi-modal, multi-scale and multi-task (MMM) decoding mechanism
to better leverage multi-modal data. Secondly, because UOVN uses data from
different tasks for training, there are significant domain and task gaps. We
present a UOVN training mechanism to reduce such gaps. Experiments on four
datasets demonstrate the effectiveness of our UOVN.
- Abstract(参考訳): 近年、オープン語彙(OV)の高密度視覚予測(OVオブジェクトの検出、セマンティック、インスタンス、汎視的セグメンテーションなど)が研究の注目を集めている。
しかし、既存のアプローチのほとんどはタスク固有であり、個別に各タスクに取り組む。
本稿では,4つの共通密度予測課題に共同で対処する統一オープン語彙ネットワーク(UOVN)を提案する。
異なるモデルと比較して、統一されたネットワークは多様な産業用途に望ましい。
また、OV密度予測訓練データも比較的少ない。
個別のネットワークはタスク関連トレーニングデータしか利用できないが、統一されたアプローチでは多様なトレーニングデータを統合して個々のタスクを強化することができる。
統合型OV予測における2つの大きな課題に対処する。
第一に、固定セット予測の統一手法とは異なり、OVネットワークは通常マルチモーダルデータで訓練される。
そこで本稿では,マルチモーダルデータを活用するためのマルチモーダル,マルチスケール,マルチタスク(MMM)デコーディング機構を提案する。
第二に、UOVNは異なるタスクのデータをトレーニングに使っているため、大きなドメインとタスクのギャップがあります。
このようなギャップを減らすためのUOVNトレーニング機構を提案する。
4つのデータセットの実験では、UOVNの有効性が示されている。
関連論文リスト
- A Multitask Deep Learning Model for Classification and Regression of Hyperspectral Images: Application to the large-scale dataset [44.94304541427113]
ハイパースペクトル画像上で複数の分類タスクと回帰タスクを同時に行うマルチタスク深層学習モデルを提案する。
我々は、TAIGAと呼ばれる大規模なハイパースペクトルデータセットに対するアプローチを検証した。
結果の総合的定性的および定量的分析により,提案手法が他の最先端手法よりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2024-07-23T11:14:54Z) - Diffusion Model is an Effective Planner and Data Synthesizer for
Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。
生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文 参考訳(メタデータ) (2023-05-29T05:20:38Z) - Unified Demonstration Retriever for In-Context Learning [56.06473069923567]
Unified Demonstration Retriever (textbfUDR)は、幅広いタスクのデモを検索する単一のモデルである。
我々は,高品質な候補を見つけるための反復的なマイニング戦略を備えたマルチタスクリストワイド・トレーニング・フレームワークを提案する。
13のタスクファミリーと複数のデータドメインにわたる30以上のタスクの実験は、UDRがベースラインを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2023-05-07T16:07:11Z) - Uncertainty-Aware Meta-Learning for Multimodal Task Distributions [3.7470451129384825]
UnLiMiTD(マルチモーダルタスク分散のための不確実性認識メタラーニング)を提案する。
確率論的視点を採り、メタデータセット上のタスクに対してパラメトリックで調整可能な分布をトレーニングする。
我々は、UnLiMiTDの予測が、ほとんどの場合、標準ベースラインと好意的に比較され、性能的に優れていることを示した。
論文 参考訳(メタデータ) (2022-10-04T20:02:25Z) - GPPF: A General Perception Pre-training Framework via Sparsely Activated
Multi-Task Learning [23.15735672234869]
本稿では,タスクレベルの動的ネットワークを事前学習するための一般知覚事前学習フレームワークであるGPPFを提案する。
複雑な環境で学習する能力を調べることによって、3つの重要な要素を深層ネットワークに認識し、伝達する。
SIMT (Single Iteration Multiple Tasks) の同時学習を支援するプラグイン・アンド・プレイ型マルチタスク学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-08-03T15:34:35Z) - Self-Supervised Graph Neural Network for Multi-Source Domain Adaptation [51.21190751266442]
ドメイン適応(DA)は、テストデータがトレーニングデータの同じ分布に完全に従わない場合に、シナリオに取り組む。
大規模未ラベルサンプルから学習することで、自己教師型学習がディープラーニングの新しいトレンドとなっている。
我々は,より効果的なタスク間情報交換と知識共有を実現するために,新しい textbfSelf-textbf Supervised textbfGraph Neural Network (SSG) を提案する。
論文 参考訳(メタデータ) (2022-04-08T03:37:56Z) - Multi-Task Learning for Dense Prediction Tasks: A Survey [87.66280582034838]
マルチタスク学習(MTL)技術は、性能、計算、メモリフットプリントに関する有望な結果を示している。
我々は、コンピュータビジョンにおけるMLLのための最先端のディープラーニングアプローチについて、よく理解された視点を提供する。
論文 参考訳(メタデータ) (2020-04-28T09:15:50Z) - Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。
そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。
最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文 参考訳(メタデータ) (2020-03-10T03:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。