論文の概要: Unifying Visual Perception by Dispersible Points Learning
- arxiv url: http://arxiv.org/abs/2208.08630v1
- Date: Thu, 18 Aug 2022 04:30:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-19 13:40:31.840927
- Title: Unifying Visual Perception by Dispersible Points Learning
- Title(参考訳): 分散ポイント学習による視覚知覚の統一
- Authors: Jianming Liang, Guanglu Song, Biao Leng and Yu Liu
- Abstract要約: 本稿では,視覚的タスクを多用するための,概念的にシンプルで柔軟で普遍的な視覚認知ヘッドを提案する。
本手法は画像中の物体を効果的に識別し,高品質なバウンディングボックスや輪郭型セグメンテーションマスクを同時に生成する。
我々は、ImageNet分類とCOCOスイートの3つのトラックについて広範囲に評価する。
- 参考スコア(独自算出の注目度): 19.5805418969605
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a conceptually simple, flexible, and universal visual perception
head for variant visual tasks, e.g., classification, object detection, instance
segmentation and pose estimation, and different frameworks, such as one-stage
or two-stage pipelines. Our approach effectively identifies an object in an
image while simultaneously generating a high-quality bounding box or
contour-based segmentation mask or set of keypoints. The method, called
UniHead, views different visual perception tasks as the dispersible points
learning via the transformer encoder architecture. Given a fixed spatial
coordinate, UniHead adaptively scatters it to different spatial points and
reasons about their relations by transformer encoder. It directly outputs the
final set of predictions in the form of multiple points, allowing us to perform
different visual tasks in different frameworks with the same head design. We
show extensive evaluations on ImageNet classification and all three tracks of
the COCO suite of challenges, including object detection, instance segmentation
and pose estimation. Without bells and whistles, UniHead can unify these visual
tasks via a single visual head design and achieve comparable performance
compared to expert models developed for each task.We hope our simple and
universal UniHead will serve as a solid baseline and help promote universal
visual perception research. Code and models are available at
https://github.com/Sense-X/UniHead.
- Abstract(参考訳): 本稿では,分類,オブジェクト検出,インスタンス分割とポーズ推定,一段階や二段階のパイプラインなど,さまざまな視覚的タスクに対して,概念的にシンプルでフレキシブルで普遍的な視覚知覚ヘッドを提案する。
本手法は,高品質な境界ボックスや輪郭型セグメンテーションマスク,キーポイントセットを同時に生成しながら,画像中の物体を効果的に識別する。
uniheadと呼ばれるこの手法は、異なる視覚知覚タスクをトランスフォーマエンコーダアーキテクチャによる分散ポイント学習として捉えている。
一定の空間座標が与えられると、ユニヘッドは変圧器エンコーダによって異なる空間点とそれらの関係に関する理由に適応的に散乱する。
これにより、最終的な予測セットを複数のポイントの形式で直接出力し、同じヘッドデザインで異なるフレームワークで異なるビジュアルタスクを実行できます。
画像ネットの分類や,オブジェクト検出,インスタンス分割,ポーズ推定など,cocoスイートの3つの課題すべてについて,広範な評価を行った。
ベルとホイッスルがなければ、ユニヘッドは1つのビジュアルヘッドデザインによってこれらのビジュアルタスクを統一し、それぞれのタスクのために開発されたエキスパートモデルと同等のパフォーマンスを達成することができます。
コードとモデルはhttps://github.com/Sense-X/UniHead.comで入手できる。
関連論文リスト
- XPoint: A Self-Supervised Visual-State-Space based Architecture for Multispectral Image Registration [2.7036595757881323]
XPointは、アダプティブトレーニングと、アライメントされたマルチスペクトルデータセットの微調整のための、自己教師付き、モジュール化された画像マッチングフレームワークである。
XPointはモジュラリティと自己スーパービジョンを採用し、ベース検出器のような要素の調整を可能にしている。
XPointは、機能マッチングや画像登録タスクにおいて、最先端のメソッドを一貫して上回るか、マッチする。
論文 参考訳(メタデータ) (2024-11-11T23:12:08Z) - GiT: Towards Generalist Vision Transformer through Universal Language Interface [94.33443158125186]
本稿では,バニラ ViT のみを用いて,様々な視覚タスクに同時に適用可能な,シンプルかつ効果的な GiT フレームワークを提案する。
GiTはマルチタスクのビジュアルモデルで、タスク固有の微調整なしで5つの代表的なベンチマークで共同でトレーニングされている。
論文 参考訳(メタデータ) (2024-03-14T13:47:41Z) - UniHead: Unifying Multi-Perception for Detection Heads [40.48961606202371]
我々は、3つの知覚能力を同時に統合するために、UniHeadと呼ばれる革新的な検出ヘッドを開発する。
プラグアンドプレイ法として、提案したUniHeadは既存の検出器と便利な統合が可能である。
例えば、UniHeadはRetinaNetで+2.7APゲイン、FreeAnchorで+2.9APゲイン、GFLで+2.1APゲインを得ることができる。
論文 参考訳(メタデータ) (2023-09-23T03:22:48Z) - A Dynamic Feature Interaction Framework for Multi-task Visual Perception [100.98434079696268]
複数の共通認識課題を解決するための効率的な統合フレームワークを考案する。
これらのタスクには、インスタンスセグメンテーション、セマンティックセグメンテーション、モノクル3D検出、深さ推定が含まれる。
提案するフレームワークはD2BNetと呼ばれ,マルチタスク認識のためのパラメータ効率予測に一意なアプローチを示す。
論文 参考訳(メタデータ) (2023-06-08T09:24:46Z) - Unifying (Machine) Vision via Counterfactual World Modeling [5.001446411351483]
本稿では,視覚基盤モデルを構築するためのフレームワークであるCWMを紹介する。
CWMには2つの重要なコンポーネントがあり、ファンデーションモデルの概念をビジョンに適用することを妨げる中核的な問題を解決している。
我々は,CWMが様々なタスクのために,現実世界の画像やビデオに対して高品質な読み出しを生成することを示す。
論文 参考訳(メタデータ) (2023-06-02T17:45:44Z) - MulT: An End-to-End Multitask Learning Transformer [66.52419626048115]
我々はMulTと呼ばれるエンドツーエンドのマルチタスク学習トランスフォーマフレームワークを提案し、複数のハイレベル視覚タスクを同時に学習する。
本フレームワークは,入力画像を共有表現にエンコードし,タスク固有のトランスフォーマーベースのデコーダヘッドを用いて各視覚タスクの予測を行う。
論文 参考訳(メタデータ) (2022-05-17T13:03:18Z) - A Unified Transformer Framework for Group-based Segmentation:
Co-Segmentation, Co-Saliency Detection and Video Salient Object Detection [59.21990697929617]
人間は、ダイナミックな世界に住んでいるので、画像のグループやビデオのフレームから学ぶことによってオブジェクトをマイニングする傾向があります。
従来のアプローチでは、類似したタスクで異なるネットワークを個別に設計するが、互いに適用するのは困難である。
UFO(UnifiedObject Framework for Co-Object Framework)という,これらの問題に対処するための統一フレームワークを導入する。
論文 参考訳(メタデータ) (2022-03-09T13:35:19Z) - DECA: Deep viewpoint-Equivariant human pose estimation using Capsule
Autoencoders [3.2826250607043796]
トレーニング時に見つからない視点を扱う場合、現在の3Dヒューマンポース推定法は失敗する傾向にあることを示す。
そこで本研究では,高速変動ベイズカプセルルーティングを用いたカプセルオートエンコーダネットワークDECAを提案する。
実験による検証では,視界・視界・視界・視界・視界・視界の両面から,奥行き画像の他の手法よりも優れていた。
論文 参考訳(メタデータ) (2021-08-19T08:46:15Z) - Distribution Alignment: A Unified Framework for Long-tail Visual
Recognition [52.36728157779307]
長尾視覚認識のための分散アライメント戦略を提案する。
次に,二段階学習における一般化された再重み付け法を導入して,事前のクラスバランスをとる。
提案手法は, 4つの認識タスクすべてにおいて, 単純で統一されたフレームワークを用いて最先端の結果を得る。
論文 参考訳(メタデータ) (2021-03-30T14:09:53Z) - Dynamic Feature Integration for Simultaneous Detection of Salient
Object, Edge and Skeleton [108.01007935498104]
本稿では,高次物体分割,エッジ検出,スケルトン抽出など,低レベルの3つの視覚問題を解く。
まず、これらのタスクで共有される類似点を示し、統一されたフレームワークの開発にどのように活用できるかを示す。
論文 参考訳(メタデータ) (2020-04-18T11:10:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。