論文の概要: Generative Modeling for Multi-task Visual Learning
- arxiv url: http://arxiv.org/abs/2106.13409v1
- Date: Fri, 25 Jun 2021 03:42:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-28 13:07:33.908590
- Title: Generative Modeling for Multi-task Visual Learning
- Title(参考訳): マルチタスク視覚学習のための生成モデル
- Authors: Zhipeng Bao, Martial Hebert, Yu-Xiong Wang
- Abstract要約: 様々な視覚的認知タスクにおいて有用な共有生成モデルを学ぶという,新しい問題を考える。
本稿では,識別型マルチタスクネットワークと生成ネットワークを結合して,汎用的なマルチタスク指向生成モデリングフレームワークを提案する。
我々のフレームワークは、最先端のマルチタスクアプローチよりも一貫して優れています。
- 参考スコア(独自算出の注目度): 40.96212750592383
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative modeling has recently shown great promise in computer vision, but
it has mostly focused on synthesizing visually realistic images. In this paper,
motivated by multi-task learning of shareable feature representations, we
consider a novel problem of learning a shared generative model that is useful
across various visual perception tasks. Correspondingly, we propose a general
multi-task oriented generative modeling (MGM) framework, by coupling a
discriminative multi-task network with a generative network. While it is
challenging to synthesize both RGB images and pixel-level annotations in
multi-task scenarios, our framework enables us to use synthesized images paired
with only weak annotations (i.e., image-level scene labels) to facilitate
multiple visual tasks. Experimental evaluation on challenging multi-task
benchmarks, including NYUv2 and Taskonomy, demonstrates that our MGM framework
improves the performance of all the tasks by large margins, consistently
outperforming state-of-the-art multi-task approaches.
- Abstract(参考訳): 生成モデリングはコンピュータビジョンにおいて非常に有望であるが、主に視覚的にリアルなイメージの合成に焦点を当てている。
本稿では,共有可能な特徴表現のマルチタスク学習をモチベーションとして,様々な視覚的タスクにおいて有用な共有生成モデルを学ぶという,新たな課題について考察する。
そこで本研究では,識別型マルチタスクネットワークと生成ネットワークを結合した汎用マルチタスク指向生成モデリング(mgm)フレームワークを提案する。
RGB画像と画素レベルのアノテーションの両方をマルチタスクシナリオで合成することは難しいが、我々のフレームワークは、弱いアノテーション(画像レベルのシーンラベル)のみをペアにした合成画像を使用することで、複数の視覚的タスクを容易にすることができる。
NYUv2やTaskonomyなど、挑戦的なマルチタスクベンチマークに関する実験的評価は、我々のMGMフレームワークがすべてのタスクのパフォーマンスを大きなマージンで改善し、一貫して最先端のマルチタスクアプローチよりも優れています。
関連論文リスト
- Jack of All Tasks, Master of Many: Designing General-purpose Coarse-to-Fine Vision-Language Model [83.85856356798531]
VistaLLMは、粗くきめ細かな視覚言語タスクに対処する視覚システムである。
2値分割マスクをシーケンスとして表現するために、勾配対応の適応サンプリング技術を採用している。
また、新しいタスクであるAttCoSegを導入し、複数の入力画像に対してモデルの推論とグラウンド化能力を高める。
論文 参考訳(メタデータ) (2023-12-19T18:53:01Z) - InstructCV: Instruction-Tuned Text-to-Image Diffusion Models as Vision Generalists [66.85125112199898]
我々は,タスク固有の設計選択を抽象化する,コンピュータビジョンタスクのための統一言語インタフェースを開発する。
InstructCVと呼ばれる我々のモデルは、他のジェネラリストやタスク固有の視覚モデルと比較して競合的に機能する。
論文 参考訳(メタデータ) (2023-09-30T14:26:43Z) - An Efficient General-Purpose Modular Vision Model via Multi-Task
Heterogeneous Training [79.78201886156513]
本稿では、複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。
提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を実証する。
論文 参考訳(メタデータ) (2023-06-29T17:59:57Z) - MulT: An End-to-End Multitask Learning Transformer [66.52419626048115]
我々はMulTと呼ばれるエンドツーエンドのマルチタスク学習トランスフォーマフレームワークを提案し、複数のハイレベル視覚タスクを同時に学習する。
本フレームワークは,入力画像を共有表現にエンコードし,タスク固有のトランスフォーマーベースのデコーダヘッドを用いて各視覚タスクの予測を行う。
論文 参考訳(メタデータ) (2022-05-17T13:03:18Z) - Multi-View representation learning in Multi-Task Scene [4.509968166110557]
我々は,MTMVCSF(Common and Special Features)に基づくマルチタスク多視点学習(multi-Task Multi-View learning)と呼ばれる,新しい半教師付きアルゴリズムを提案する。
AN-MTMVCSFと呼ばれるマルチタスク・マルチタスク・マルチビュー・アルゴリズムが提案されている。
これらのアルゴリズムの有効性は、実世界と合成データの双方でよく設計された実験によって証明される。
論文 参考訳(メタデータ) (2022-01-15T11:26:28Z) - Bowtie Networks: Generative Modeling for Joint Few-Shot Recognition and
Novel-View Synthesis [39.53519330457627]
本稿では,複数ショット認識と新規ビュー合成という新たな課題を提案する。
我々は、オブジェクト分類器を同時に学習し、新しい視点からそのタイプのオブジェクトの画像を生成することを目的としている。
生成モデルと識別モデルとの相互作用と協調に焦点を当てる。
論文 参考訳(メタデータ) (2020-08-16T19:40:56Z) - Flexible Example-based Image Enhancement with Task Adaptive Global
Feature Self-Guided Network [162.14579019053804]
我々は,1つの拡張写像の学習において,我々のモデルが現在の技術状況より優れていることを示す。
このモデルは、複数のマッピングを同時に学習する上で、さらに高いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-05-13T22:45:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。