論文の概要: Polarized Self-Attention: Towards High-quality Pixel-wise Regression
- arxiv url: http://arxiv.org/abs/2107.00782v1
- Date: Fri, 2 Jul 2021 01:03:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-05 12:52:00.342147
- Title: Polarized Self-Attention: Towards High-quality Pixel-wise Regression
- Title(参考訳): 偏光自己注意:高品質な画素ワイド回帰に向けて
- Authors: Huajun Liu, Fuqiang Liu, Xinyi Fan, Dong Huang
- Abstract要約: 本稿では,高画質画素ワイドレグレッションに対する2つの重要な設計を組み込んだPSAブロックを提案する。
実験の結果,PSAは2Dポーズ推定とセマンティックセグメンテーションのベンチマークにおいて,標準ベースラインを2~4ドル,最先端を1~2ドル,さらに2Dポーズ推定とセマンティックセグメンテーションのベンチマークで1~2ドル向上した。
- 参考スコア(独自算出の注目度): 19.2303932008785
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Pixel-wise regression is probably the most common problem in fine-grained
computer vision tasks, such as estimating keypoint heatmaps and segmentation
masks. These regression problems are very challenging particularly because they
require, at low computation overheads, modeling long-range dependencies on
high-resolution inputs/outputs to estimate the highly nonlinear pixel-wise
semantics. While attention mechanisms in Deep Convolutional Neural
Networks(DCNNs) has become popular for boosting long-range dependencies,
element-specific attention, such as Nonlocal blocks, is highly complex and
noise-sensitive to learn, and most of simplified attention hybrids try to reach
the best compromise among multiple types of tasks. In this paper, we present
the Polarized Self-Attention(PSA) block that incorporates two critical designs
towards high-quality pixel-wise regression: (1) Polarized filtering: keeping
high internal resolution in both channel and spatial attention computation
while completely collapsing input tensors along their counterpart dimensions.
(2) Enhancement: composing non-linearity that directly fits the output
distribution of typical fine-grained regression, such as the 2D Gaussian
distribution (keypoint heatmaps), or the 2D Binormial distribution (binary
segmentation masks). PSA appears to have exhausted the representation capacity
within its channel-only and spatial-only branches, such that there is only
marginal metric differences between its sequential and parallel layouts.
Experimental results show that PSA boosts standard baselines by $2-4$ points,
and boosts state-of-the-arts by $1-2$ points on 2D pose estimation and semantic
segmentation benchmarks.
- Abstract(参考訳): ピクセル単位での回帰は、キーポイントのヒートマップやセグメンテーションマスクの推定など、コンピュータビジョンタスクにおいて最も一般的な問題である。
これらの回帰問題は、特に低い計算オーバーヘッドで高分解能入力/出力の長距離依存性をモデル化し、高度に非線形なピクセル単位の意味論を推定する必要があるため、非常に困難である。
ディープ畳み込みニューラルネットワーク(DCNN)の注意機構は、長距離依存の促進に人気があるが、非局所ブロックのような要素固有の注意は、学習に非常に複雑でノイズに敏感であり、単純化されたハイブリットのほとんどは、複数のタスクの間で最高の妥協点に達しようとしている。
本稿では,高品質な画素ワイドレグレッションに向けた2つの重要な設計を取り入れた分極自己注意ブロックを提案する。(1)分極フィルタリング:チャネルと空間の注意計算において高い内部分解能を維持しつつ,入力テンソルを対応する次元に沿って完全に崩壊させる。
2)強化: 2次元ガウス分布(キーポイントヒートマップ)や2次元双対分布(バイナリセグメンテーションマスク)など,典型的な細粒度回帰の出力分布に直接適合する非線形性を構成する。
psaはチャネルのみのブランチと空間のみのブランチで表現能力を使い果たし、シーケンシャルレイアウトと並列レイアウトの間には限界的なメトリック差しかなかったようである。
実験の結果、psaは標準ベースラインを2~4ドルのポイント増やし、2dポーズ推定とセマンティクスセグメンテーションベンチマークで1~2ドルのポイント増やすことが示されている。
関連論文リスト
- A Simple and Generalist Approach for Panoptic Segmentation [57.94892855772925]
汎用的なビジョンモデルは、様々なビジョンタスクのための1つの同じアーキテクチャを目指している。
このような共有アーキテクチャは魅力的に思えるかもしれないが、ジェネラリストモデルは、その好奇心に満ちたモデルよりも優れている傾向にある。
一般モデルの望ましい性質を損なうことなく、2つの重要なコントリビューションを導入することでこの問題に対処する。
論文 参考訳(メタデータ) (2024-08-29T13:02:12Z) - Fast Point Cloud Geometry Compression with Context-based Residual Coding and INR-based Refinement [19.575833741231953]
我々は、KNN法を用いて、原表面点の近傍を決定する。
条件付き確率モデルは局所幾何学に適応し、大きな速度減少をもたらす。
暗黙のニューラル表現を精製層に組み込むことで、デコーダは任意の密度で下面の点をサンプリングすることができる。
論文 参考訳(メタデータ) (2024-08-06T05:24:06Z) - Double-Shot 3D Shape Measurement with a Dual-Branch Network [14.749887303860717]
我々は、異なる構造光(SL)変調を処理するために、デュアルブランチ畳み込みニューラルネットワーク(CNN)-トランスフォーマーネットワーク(PDCNet)を提案する。
PDCNet内では、Transformerブランチを使用してフリンジイメージのグローバルな認識をキャプチャし、CNNブランチはスペックルイメージのローカル詳細を収集するように設計されている。
提案手法は, 自己生成データセット上で高精度な結果が得られる一方で, フランジオーダーの曖昧さを低減できることを示す。
論文 参考訳(メタデータ) (2024-07-19T10:49:26Z) - Learning Feature Matching via Matchable Keypoint-Assisted Graph Neural
Network [52.29330138835208]
画像のペア間の局所的な特徴の正確なマッチングは、コンピュータビジョンの課題である。
従来の研究では、注意に基づくグラフニューラルネットワーク(GNN)と、画像内のキーポイントに完全に接続されたグラフを使用するのが一般的だった。
本稿では,非繰り返しキーポイントをバイパスし,マッチング可能なキーポイントを利用してメッセージパッシングを誘導する,疎注意に基づくGNNアーキテクチャであるMaKeGNNを提案する。
論文 参考訳(メタデータ) (2023-07-04T02:50:44Z) - High-fidelity Pseudo-labels for Boosting Weakly-Supervised Segmentation [17.804090651425955]
画像レベルの弱い教師付きセグメンテーション(WSSS)は、トレーニング中にセグメンテーションマスクを代理することで、通常膨大なデータアノテーションコストを削減する。
本研究は,GAPの代替となる重要サンプリングと特徴類似性損失という,CAMを改善するための2つの手法に基づく。
複数の独立二項問題の後部二項問題に基づいて両手法を再構成する。
パフォーマンスが向上し、より一般的なものになり、事実上あらゆるWSSSメソッドを増強できるアドオンメソッドが出来上がります。
論文 参考訳(メタデータ) (2023-04-05T17:43:57Z) - Lesion-aware Dynamic Kernel for Polyp Segmentation [49.63274623103663]
ポリープセグメンテーションのための障害対応動的ネットワーク(LDNet)を提案する。
従来のU字型エンコーダ・デコーダ構造であり、動的カーネル生成と更新スキームが組み込まれている。
この単純だが効果的なスキームは、我々のモデルに強力なセグメンテーション性能と一般化能力を与える。
論文 参考訳(メタデータ) (2023-01-12T09:53:57Z) - Decoupled Multi-task Learning with Cyclical Self-Regulation for Face
Parsing [71.19528222206088]
顔解析のための周期的自己統制型デカップリング型マルチタスク学習を提案する。
具体的には、DML-CSRは、顔解析、バイナリエッジ、カテゴリエッジ検出を含むマルチタスクモデルを設計する。
提案手法は,Helen,CelebA-HQ,LapaMaskのデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-03-28T02:12:30Z) - Sparse Cross-scale Attention Network for Efficient LiDAR Panoptic
Segmentation [12.61753274984776]
マルチスケールのスパース機能とグローバルなボクセル符号化されたアテンションを整合させて、インスタンスコンテキストの長距離関係をキャプチャする、新しいスパース・クロススケールアテンション・ネットワークであるSCANを提案する。
表面凝集点に対して、SCANは、整列した特徴の空間性を維持するだけでなく、スパース畳み込みによってネットワークの量を減少させる、新しいスパースクラス非依存のインスタンスセントロイド表現を採用する。
論文 参考訳(メタデータ) (2022-01-16T05:34:54Z) - Augmenting Convolutional networks with attention-based aggregation [55.97184767391253]
我々は,非局所的推論を実現するために,注目に基づくグローバルマップを用いた畳み込みネットワークの強化方法を示す。
この学習集約層を2つのパラメータ(幅と深さ)でパラメータ化した単純パッチベースの畳み込みネットワークで接続する。
これは、特にメモリ消費の点で、精度と複雑さの間の驚くほど競争力のあるトレードオフをもたらす。
論文 参考訳(メタデータ) (2021-12-27T14:05:41Z) - Pixel-in-Pixel Net: Towards Efficient Facial Landmark Detection in the
Wild [104.61677518999976]
顔のランドマークを検出するために,Pixel-in-Pixel Net(PIPNet)を提案する。
提案モデルは,熱マップ回帰に基づく新しい検出ヘッドを備える。
PIPNetのクロスドメイン一般化能力をさらに向上するため,カリキュラムによる自己学習を提案する。
論文 参考訳(メタデータ) (2020-03-08T12:23:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。