論文の概要: PolyMaX: General Dense Prediction with Mask Transformer
- arxiv url: http://arxiv.org/abs/2311.05770v1
- Date: Thu, 9 Nov 2023 22:29:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-13 16:37:38.056163
- Title: PolyMaX: General Dense Prediction with Mask Transformer
- Title(参考訳): PolyMaX: Mask Transformer を用いた一般密度予測
- Authors: Xuan Yang, Liangzhe Yuan, Kimberly Wilber, Astuti Sharma, Xiuye Gu,
Siyuan Qiao, Stephanie Debats, Huisheng Wang, Hartwig Adam, Mikhail
Sirotenko, Liang-Chieh Chen
- Abstract要約: 本稿では,クラスタ予測に基づく手法を一般化し,一般化された予測タスクを提案する。
これにより、密集予測タスクをマスクトランスフォーマーフレームワークと統合することが可能になる。
結果のモデルであるPolyMaXは、NYUD-v2データセットの3つのベンチマークで最先端のパフォーマンスを示している。
- 参考スコア(独自算出の注目度): 35.46799482329031
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dense prediction tasks, such as semantic segmentation, depth estimation, and
surface normal prediction, can be easily formulated as per-pixel classification
(discrete outputs) or regression (continuous outputs). This per-pixel
prediction paradigm has remained popular due to the prevalence of fully
convolutional networks. However, on the recent frontier of segmentation task,
the community has been witnessing a shift of paradigm from per-pixel prediction
to cluster-prediction with the emergence of transformer architectures,
particularly the mask transformers, which directly predicts a label for a mask
instead of a pixel. Despite this shift, methods based on the per-pixel
prediction paradigm still dominate the benchmarks on the other dense prediction
tasks that require continuous outputs, such as depth estimation and surface
normal prediction. Motivated by the success of DORN and AdaBins in depth
estimation, achieved by discretizing the continuous output space, we propose to
generalize the cluster-prediction based method to general dense prediction
tasks. This allows us to unify dense prediction tasks with the mask transformer
framework. Remarkably, the resulting model PolyMaX demonstrates
state-of-the-art performance on three benchmarks of NYUD-v2 dataset. We hope
our simple yet effective design can inspire more research on exploiting mask
transformers for more dense prediction tasks. Code and model will be made
available.
- Abstract(参考訳): セマンティックセグメンテーション、深さ推定、表面正規予測といった複雑な予測タスクは、ピクセルごとの分類(離散出力)や回帰(連続出力)として容易に定式化できる。
このピクセル当たりの予測パラダイムは、完全畳み込みネットワークの普及によって人気を保っている。
しかし、近年のセグメンテーションタスクのフロンティアにおいて、コミュニティは、ピクセル単位の予測からクラスタ予測へのパラダイムシフトを目撃しており、トランスフォーマーアーキテクチャ、特にマスクトランスフォーマーは、ピクセルではなくマスクのラベルを直接予測している。
このシフトにもかかわらず、画素ごとの予測パラダイムに基づく手法は、深さ推定や表面正規予測のような連続的な出力を必要とする他の高密度な予測タスクのベンチマークを支配している。
連続出力空間を離散化することで得られた深さ推定におけるdornとadabinsの成功に動機づけられ,クラスタ予測法を一般密集予測タスクに一般化する。
これにより、密集予測タスクをマスクトランスフォーマーフレームワークと統合することができます。
注目すべきなのは、結果のモデルであるPolyMaXが、NYUD-v2データセットの3つのベンチマークで最先端のパフォーマンスを示していることだ。
我々のシンプルで効果的な設計は、より密集した予測タスクのためにマスクトランスフォーマーを利用するさらなる研究を刺激できることを願っている。
コードとモデルは利用可能になる。
関連論文リスト
- Exploiting Diffusion Prior for Generalizable Dense Prediction [85.4563592053464]
近年のテキスト・トゥ・イメージ(T2I)拡散モデルでは、既成の高密度予測器では予測できないことがある。
我々は,事前学習したT2Iモデルを用いたパイプラインDMPを,高密度予測タスクの先駆けとして導入する。
限られたドメインのトレーニングデータにもかかわらず、この手法は任意の画像に対して忠実に推定し、既存の最先端のアルゴリズムを超越する。
論文 参考訳(メタデータ) (2023-11-30T18:59:44Z) - CoMusion: Towards Consistent Stochastic Human Motion Prediction via Motion Diffusion [6.862357145175449]
本稿では,単一段階の終端拡散型HMPフレームワークであるCoMusionを提案する。
CoMusionは、スムーズな将来のポーズ予測性能が空間予測性能を改善するという洞察から着想を得ている。
提案手法はTransformer-GCNモジュール設計と分散スケジューラによって促進され,精度,現実性,一貫した動作を予測する。
論文 参考訳(メタデータ) (2023-05-21T19:31:56Z) - Single Image Depth Prediction Made Better: A Multivariate Gaussian Take [163.14849753700682]
本稿では,画素ごとの深度を連続的にモデル化する手法を提案する。
提案手法の精度(MG)は,KITTI深度予測ベンチマークリーダーボードの上位に位置する。
論文 参考訳(メタデータ) (2023-03-31T16:01:03Z) - Calibrating Transformers via Sparse Gaussian Processes [23.218648177475135]
本稿では,マルチヘッドアテンションブロック(MHA)の出力空間に直接ベイズ推論を行い,その不確実性を校正するスパースガウスプロセスアテンション(SGPA)を提案する。
SGPAベースのトランスフォーマーは、テキスト、画像、グラフ上の一連の予測タスクにおいて、競合予測精度を達成すると同時に、分布内キャリブレーションと分布外ロバストネスと検出の両方を顕著に改善する。
論文 参考訳(メタデータ) (2023-03-04T16:04:17Z) - Patch-level Gaze Distribution Prediction for Gaze Following [49.93340533068501]
トレーニング後の視線に対するパッチ分布予測(PDP)手法を提案する。
本モデルでは,アノテーションの差が大きい画像上でのより優れたヒートマップ分布を予測することにより,MSE損失の正則化を図っている。
実験により,ターゲット予測とイン/アウト予測サブタスクのギャップを埋めるモデルが得られた。
論文 参考訳(メタデータ) (2022-11-20T19:25:15Z) - Expediting Large-Scale Vision Transformer for Dense Prediction without
Fine-tuning [28.180891300826165]
大規模視覚変換器におけるトークンの総数を削減するために、多くの先進的なアプローチが開発されている。
2つの非パラメトリック演算子、トークン数を減らすトークンクラスタリング層、トークン数を増やすトークン再構成層を提供する。
その結果、オブジェクト検出、セマンティックセグメンテーション、パノスコープセグメンテーション、インスタンスセグメンテーション、深さ推定を含む5つの密集した予測タスクが期待できる。
論文 参考訳(メタデータ) (2022-10-03T15:49:48Z) - Self-Supervised Pre-training of Vision Transformers for Dense Prediction
Tasks [2.160196691362033]
本稿では,高密度予測タスクのための視覚変換器の自己教師付き事前学習を提案する。
我々の戦略は、大域的な画像表現のみに基づく対照的な事前学習とは対照的に、密集した予測タスクに適したより良い局所的特徴を生み出す。
論文 参考訳(メタデータ) (2022-05-30T15:25:37Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z) - Motion Segmentation using Frequency Domain Transformer Networks [29.998917158604694]
本稿では,前景と背景を別々にモデル化することで,次のフレームを予測できる新しいエンドツーエンド学習アーキテクチャを提案する。
我々の手法は、ビデオラダーネットワークや予測ゲーテッドピラミドなど、広く使われているビデオ予測手法よりも優れた合成データが得られる。
論文 参考訳(メタデータ) (2020-04-18T15:05:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。