論文の概要: FADE: Fusing the Assets of Decoder and Encoder for Task-Agnostic
Upsampling
- arxiv url: http://arxiv.org/abs/2207.10392v1
- Date: Thu, 21 Jul 2022 10:06:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-22 13:08:00.783753
- Title: FADE: Fusing the Assets of Decoder and Encoder for Task-Agnostic
Upsampling
- Title(参考訳): FADE: タスク非依存のアップサンプリングのためのデコーダとエンコーダのアセットを利用する
- Authors: Hao Lu, Wenze Liu, Hongtao Fu, Zhiguo Cao
- Abstract要約: FADEは、新規で、プラグアンドプレイで、タスクに依存しないアップサンプリング演算子である。
まず, 玩具データを用いたFADEのアップサンプリング特性について検討し, 大規模セマンティックセグメンテーションと画像マッチングによる評価を行った。
- 参考スコア(独自算出の注目度): 21.590872272491033
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the problem of task-agnostic feature upsampling in dense
prediction where an upsampling operator is required to facilitate both
region-sensitive tasks like semantic segmentation and detail-sensitive tasks
such as image matting. Existing upsampling operators often can work well in
either type of the tasks, but not both. In this work, we present FADE, a novel,
plug-and-play, and task-agnostic upsampling operator. FADE benefits from three
design choices: i) considering encoder and decoder features jointly in
upsampling kernel generation; ii) an efficient semi-shift convolutional
operator that enables granular control over how each feature point contributes
to upsampling kernels; iii) a decoder-dependent gating mechanism for enhanced
detail delineation. We first study the upsampling properties of FADE on toy
data and then evaluate it on large-scale semantic segmentation and image
matting. In particular, FADE reveals its effectiveness and task-agnostic
characteristic by consistently outperforming recent dynamic upsampling
operators in different tasks. It also generalizes well across convolutional and
transformer architectures with little computational overhead. Our work
additionally provides thoughtful insights on what makes for task-agnostic
upsampling. Code is available at: http://lnkiy.in/fade_in
- Abstract(参考訳): 我々は,セマンティックセグメンテーションのような領域に敏感なタスクと,イメージマットングのようなディテールに敏感なタスクの両方を容易にするために,アップサンプリング演算子が必要となる密集予測において,タスク非依存な機能アップサンプリングの問題を考える。
既存のアップサンプリング演算子は、どちらのタスクでもうまく動作しますが、両方ではありません。
本稿では,新しい,プラグアンドプレイ,タスクに依存しないアップサンプリング演算子であるFADEを紹介する。
3つの設計選択の利点をなくします
一 カーネル生成のアップサンプリングにおけるエンコーダ及びデコーダの機能を考えること。
二 各特徴点がアップサンプリングカーネルにどのように貢献するかを細かく制御することができる効率的な半シフト畳み込み演算子
三 ディテールディテールディライテーションを強化するデコーダに依存したゲーティング機構
まず, 玩具データ上でのフェードのアップサンプリング特性を調査し, 大規模セマンティクスセグメンテーションと画像マッティングを用いて評価した。
特にFADEは、最近の動的アップサンプリング演算子を異なるタスクで一貫して上回り、その有効性とタスクに依存しない特性を明らかにしている。
また、計算オーバーヘッドの少ない畳み込みアーキテクチャやトランスフォーマーアーキテクチャをうまく一般化する。
私たちの仕事は、タスク非依存のアップサンプリングに何をもたらすのかに関する思慮深い洞察も提供します。
コードは http://lnkiy.in/fade_in で入手できる。
関連論文リスト
- FADE: A Task-Agnostic Upsampling Operator for Encoder-Decoder Architectures [18.17019371324024]
FADEは、新しくて、プラグアンドプレイで、軽量で、タスクに依存しないアップサンプリングオペレータである。
FADEはタスク非依存であり,多くの密集予測タスクにおいて一貫した性能向上を示す。
リージョンとディテールに敏感なタスクの両方で,ロバストな機能アップサンプリングを初めて実施しました。
論文 参考訳(メタデータ) (2024-07-18T13:32:36Z) - EffiPerception: an Efficient Framework for Various Perception Tasks [6.1522068855729755]
EffiPerceptionは、一般的な学習パターンを探求し、モジュールを増やすためのフレームワークである。
複数の知覚タスクにおいて比較的低いメモリコストで、高い精度のロバスト性を実現することができる。
EffiPerceptionは4つの検出およびセグメンテーションタスクにおいて、精度-メモリ全体のパフォーマンスが大幅に向上する可能性がある。
論文 参考訳(メタデータ) (2024-03-18T23:22:37Z) - Multi-task Learning with 3D-Aware Regularization [55.97507478913053]
本稿では,画像エンコーダから抽出した特徴を共有3D特徴空間に投影することで,複数のタスクをインタフェースする構造化3D認識正規化器を提案する。
提案手法はアーキテクチャ非依存であり,従来のマルチタスクバックボーンにプラグインすることで,性能を向上できることを示す。
論文 参考訳(メタデータ) (2023-10-02T08:49:56Z) - ASAG: Building Strong One-Decoder-Layer Sparse Detectors via Adaptive
Sparse Anchor Generation [50.01244854344167]
適応スパースアンカージェネレータ(ASAG)の提案により、スパース検出器と密度検出器のパフォーマンスギャップを橋渡しする。
ASAGは、グリッドではなくパッチの動的なアンカーを予測することで、機能競合の問題を軽減する。
提案手法は高密度な手法より優れ,高速かつ高精度なトレードオフを実現する。
論文 参考訳(メタデータ) (2023-08-18T02:06:49Z) - A Dynamic Feature Interaction Framework for Multi-task Visual Perception [100.98434079696268]
複数の共通認識課題を解決するための効率的な統合フレームワークを考案する。
これらのタスクには、インスタンスセグメンテーション、セマンティックセグメンテーション、モノクル3D検出、深さ推定が含まれる。
提案するフレームワークはD2BNetと呼ばれ,マルチタスク認識のためのパラメータ効率予測に一意なアプローチを示す。
論文 参考訳(メタデータ) (2023-06-08T09:24:46Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - Feature Completion Transformer for Occluded Person Re-identification [25.159974510754992]
咬合者の再同定(Re-ID)は,咬合者の破壊による課題である。
特徴空間に隠された部分の意味情報を暗黙的に補完する特徴補完変換器(FCFormer)を提案する。
FCFormerは優れたパフォーマンスを実現し、隠蔽されたデータセットに対してかなりのマージンで最先端の手法を上回ります。
論文 参考訳(メタデータ) (2023-03-03T01:12:57Z) - MASTER: Multi-task Pre-trained Bottlenecked Masked Autoencoders are
Better Dense Retrievers [140.0479479231558]
本研究では,様々な事前学習タスクをマルチタスク事前学習モデル(MASTER)に統合することを目的とする。
MASTERは共有エンコーダのマルチデコーダアーキテクチャを利用して、タスク全体にわたる豊富なセマンティック情報を高密度ベクトルに圧縮する表現ボトルネックを構築することができる。
論文 参考訳(メタデータ) (2022-12-15T13:57:07Z) - Hyperdecoders: Instance-specific decoders for multi-task NLP [9.244884318445413]
NLPにおけるマルチタスクのための入力条件付きハイパーネットワークについて検討する。
我々は,エンコーダの出力に条件付きハイパーネットワークを用いて,デコーダのパラメータ効率適応を生成する。
論文 参考訳(メタデータ) (2022-03-15T22:39:53Z) - Learning Affinity-Aware Upsampling for Deep Image Matting [83.02806488958399]
アップサンプリングにおける学習親和性は、ディープ・ネットワークにおけるペアワイズ・インタラクションを効果的かつ効率的に利用するためのアプローチであることを示す。
特に、コンポジション1kマッチングデータセットの結果は、A2Uが強いベースラインに対してSAD測定値の14%の相対的な改善を達成していることを示している。
最先端のマッティングネットワークと比較すると、モデル複雑度は40%に過ぎず、8%高いパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2020-11-29T05:09:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。