論文の概要: ComPtr: Towards Diverse Bi-source Dense Prediction Tasks via A Simple
yet General Complementary Transformer
- arxiv url: http://arxiv.org/abs/2307.12349v1
- Date: Sun, 23 Jul 2023 15:17:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-25 16:31:26.153479
- Title: ComPtr: Towards Diverse Bi-source Dense Prediction Tasks via A Simple
yet General Complementary Transformer
- Title(参考訳): ComPtr: 単純かつ汎用的なコンバータによる双方向Dense予測タスクの実現
- Authors: Youwei Pang, Xiaoqi Zhao, Lihe Zhang, Huchuan Lu
- Abstract要約: 本稿では,多種多様な二ソース密度予測タスクのためのアンダーラインComPlementaryアンダーライン変換器textbfComPtrを提案する。
ComPtrは異なる入力を等しく扱い、変換器上にシーケンス・ツー・シーケンスの形で効率的な密な相互作用モデルを構築する。
- 参考スコア(独自算出の注目度): 91.43066633305662
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning (DL) has advanced the field of dense prediction, while
gradually dissolving the inherent barriers between different tasks. However,
most existing works focus on designing architectures and constructing visual
cues only for the specific task, which ignores the potential uniformity
introduced by the DL paradigm. In this paper, we attempt to construct a novel
\underline{ComP}lementary \underline{tr}ansformer, \textbf{ComPtr}, for diverse
bi-source dense prediction tasks. Specifically, unlike existing methods that
over-specialize in a single task or a subset of tasks, ComPtr starts from the
more general concept of bi-source dense prediction. Based on the basic
dependence on information complementarity, we propose consistency enhancement
and difference awareness components with which ComPtr can evacuate and collect
important visual semantic cues from different image sources for diverse tasks,
respectively. ComPtr treats different inputs equally and builds an efficient
dense interaction model in the form of sequence-to-sequence on top of the
transformer. This task-generic design provides a smooth foundation for
constructing the unified model that can simultaneously deal with various
bi-source information. In extensive experiments across several representative
vision tasks, i.e. remote sensing change detection, RGB-T crowd counting,
RGB-D/T salient object detection, and RGB-D semantic segmentation, the proposed
method consistently obtains favorable performance. The code will be available
at \url{https://github.com/lartpang/ComPtr}.
- Abstract(参考訳): ディープラーニング(DL)は、密集予測の分野を前進させ、異なるタスク間の固有の障壁を徐々に解消した。
しかし、既存の作品の多くはアーキテクチャの設計と、dlパラダイムによってもたらされる潜在的な均一性を無視した特定のタスクのための視覚的な手がかりの構築に焦点を当てている。
本稿では,多種多様なbi-source高密度予測タスクのための新規な \underline{ComP}lementary \underline{tr}ansformer, \textbf{ComPtr} の構築を試みる。
具体的には、単一のタスクやタスクのサブセットで過剰に特殊化する既存の方法とは異なり、ComPtrはより一般的な二ソース密集予測の概念から始まる。
情報相補性に対する基本的依存に基づいて,ComPtrが様々なタスクのために,様々な画像ソースから重要な視覚的意味的手がかりを抽出・収集する,一貫性の強化と差分認識コンポーネントを提案する。
ComPtrは異なる入力を等しく扱い、変換器上にシーケンス・ツー・シーケンスの形で効率的な密な相互作用モデルを構築する。
このタスクジェネリック設計は、様々な双方向情報を同時に処理できる統一モデルを構築するためのスムーズな基盤を提供する。
リモートセンシングによる変化検出,RGB-T集団カウント,RGB-D/Tサルエントオブジェクト検出,RGB-Dセマンティックセマンティックセマンティックセグメンテーションなど,複数の代表的な視覚課題に対する広範な実験において,提案手法は一貫して良好な性能を得る。
コードは \url{https://github.com/lartpang/ComPtr} で入手できる。
関連論文リスト
- A Multitask Deep Learning Model for Classification and Regression of Hyperspectral Images: Application to the large-scale dataset [44.94304541427113]
ハイパースペクトル画像上で複数の分類タスクと回帰タスクを同時に行うマルチタスク深層学習モデルを提案する。
我々は、TAIGAと呼ばれる大規模なハイパースペクトルデータセットに対するアプローチを検証した。
結果の総合的定性的および定量的分析により,提案手法が他の最先端手法よりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2024-07-23T11:14:54Z) - Comprehensive Generative Replay for Task-Incremental Segmentation with Concurrent Appearance and Semantic Forgetting [49.87694319431288]
一般的なセグメンテーションモデルは、異なる画像ソースからの様々なオブジェクトを含む様々なタスクに対して、ますます好まれている。
画像とマスクのペアを合成することで外観と意味の知識を復元する包括的生成(CGR)フレームワークを提案する。
漸進的タスク(心身、基礎、前立腺のセグメンテーション)の実験は、同時出現と意味的忘れを緩和する上で、明らかな優位性を示している。
論文 参考訳(メタデータ) (2024-06-28T10:05:58Z) - ULTRA-DP: Unifying Graph Pre-training with Multi-task Graph Dual Prompt [67.8934749027315]
本稿では,タスク識別と位置識別をGNNに注入する,グラフハイブリッド事前学習のための統合フレームワークを提案する。
また,約$k$-nearest隣人のグループに基づいた,新しい事前学習パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-23T12:11:13Z) - RGM: A Robust Generalizable Matching Model [49.60975442871967]
RGM(Robust Generalist Matching)と呼ばれる疎密マッチングのための深部モデルを提案する。
合成トレーニングサンプルと実世界のシナリオのギャップを狭めるために、我々は、疎対応基盤真理を持つ新しい大規模データセットを構築した。
さまざまな密集したスパースなデータセットを混ぜ合わせることができ、トレーニングの多様性を大幅に改善しています。
論文 参考訳(メタデータ) (2023-10-18T07:30:08Z) - A Dynamic Feature Interaction Framework for Multi-task Visual Perception [100.98434079696268]
複数の共通認識課題を解決するための効率的な統合フレームワークを考案する。
これらのタスクには、インスタンスセグメンテーション、セマンティックセグメンテーション、モノクル3D検出、深さ推定が含まれる。
提案するフレームワークはD2BNetと呼ばれ,マルチタスク認識のためのパラメータ効率予測に一意なアプローチを示す。
論文 参考訳(メタデータ) (2023-06-08T09:24:46Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。