Fugu-MT 論文翻訳(概要): ComPtr: Towards Diverse Bi-source Dense Prediction Tasks via A Simple yet General Complementary Transformer

論文の概要: ComPtr: Towards Diverse Bi-source Dense Prediction Tasks via A Simple yet General Complementary Transformer

arxiv url: http://arxiv.org/abs/2307.12349v1
Date: Sun, 23 Jul 2023 15:17:45 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-25 16:31:26.153479
Title: ComPtr: Towards Diverse Bi-source Dense Prediction Tasks via A Simple yet General Complementary Transformer
Title（参考訳）: ComPtr: 単純かつ汎用的なコンバータによる双方向Dense予測タスクの実現
Authors: Youwei Pang, Xiaoqi Zhao, Lihe Zhang, Huchuan Lu
Abstract要約: 本稿では,多種多様な二ソース密度予測タスクのためのアンダーラインComPlementaryアンダーライン変換器textbfComPtrを提案する。 ComPtrは異なる入力を等しく扱い、変換器上にシーケンス・ツー・シーケンスの形で効率的な密な相互作用モデルを構築する。
参考スコア（独自算出の注目度）: 91.43066633305662
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Deep learning (DL) has advanced the field of dense prediction, while gradually dissolving the inherent barriers between different tasks. However, most existing works focus on designing architectures and constructing visual cues only for the specific task, which ignores the potential uniformity introduced by the DL paradigm. In this paper, we attempt to construct a novel \underline{ComP}lementary \underline{tr}ansformer, \textbf{ComPtr}, for diverse bi-source dense prediction tasks. Specifically, unlike existing methods that over-specialize in a single task or a subset of tasks, ComPtr starts from the more general concept of bi-source dense prediction. Based on the basic dependence on information complementarity, we propose consistency enhancement and difference awareness components with which ComPtr can evacuate and collect important visual semantic cues from different image sources for diverse tasks, respectively. ComPtr treats different inputs equally and builds an efficient dense interaction model in the form of sequence-to-sequence on top of the transformer. This task-generic design provides a smooth foundation for constructing the unified model that can simultaneously deal with various bi-source information. In extensive experiments across several representative vision tasks, i.e. remote sensing change detection, RGB-T crowd counting, RGB-D/T salient object detection, and RGB-D semantic segmentation, the proposed method consistently obtains favorable performance. The code will be available at \url{https://github.com/lartpang/ComPtr}.
Abstract（参考訳）: ディープラーニング(DL)は、密集予測の分野を前進させ、異なるタスク間の固有の障壁を徐々に解消した。しかし、既存の作品の多くはアーキテクチャの設計と、dlパラダイムによってもたらされる潜在的な均一性を無視した特定のタスクのための視覚的な手がかりの構築に焦点を当てている。本稿では,多種多様なbi-source高密度予測タスクのための新規な \underline{ComP}lementary \underline{tr}ansformer, \textbf{ComPtr} の構築を試みる。具体的には、単一のタスクやタスクのサブセットで過剰に特殊化する既存の方法とは異なり、ComPtrはより一般的な二ソース密集予測の概念から始まる。情報相補性に対する基本的依存に基づいて,ComPtrが様々なタスクのために,様々な画像ソースから重要な視覚的意味的手がかりを抽出・収集する,一貫性の強化と差分認識コンポーネントを提案する。 ComPtrは異なる入力を等しく扱い、変換器上にシーケンス・ツー・シーケンスの形で効率的な密な相互作用モデルを構築する。このタスクジェネリック設計は、様々な双方向情報を同時に処理できる統一モデルを構築するためのスムーズな基盤を提供する。リモートセンシングによる変化検出,RGB-T集団カウント,RGB-D/Tサルエントオブジェクト検出,RGB-Dセマンティックセマンティックセマンティックセグメンテーションなど,複数の代表的な視覚課題に対する広範な実験において,提案手法は一貫して良好な性能を得る。コードは \url{https://github.com/lartpang/ComPtr} で入手できる。

関連論文リスト

SSFam: Scribble Supervised Salient Object Detection Family [13.369217449092524]
Scribble supervised Salient Object Detection (SSSOD) は、スパーススクリブルラベルの監督の下で、周囲からの魅力的な物体のセグメンテーション能力を構築する。セグメンテーションを改善するために、深度と熱赤外モードは複雑なシーンにおけるRGBイメージの補足となる。本モデルでは,異なるモダリティの組み合わせ間の顕著な性能を示し,最高レベルのスクリブル制御手法を更新する。
論文参考訳（メタデータ） (2024-09-07T13:07:59Z)
A Multitask Deep Learning Model for Classification and Regression of Hyperspectral Images: Application to the large-scale dataset [44.94304541427113]
ハイパースペクトル画像上で複数の分類タスクと回帰タスクを同時に行うマルチタスク深層学習モデルを提案する。我々は、TAIGAと呼ばれる大規模なハイパースペクトルデータセットに対するアプローチを検証した。結果の総合的定性的および定量的分析により,提案手法が他の最先端手法よりも有意に優れていることを示す。
論文参考訳（メタデータ） (2024-07-23T11:14:54Z)
Comprehensive Generative Replay for Task-Incremental Segmentation with Concurrent Appearance and Semantic Forgetting [49.87694319431288]
一般的なセグメンテーションモデルは、異なる画像ソースからの様々なオブジェクトを含む様々なタスクに対して、ますます好まれている。画像とマスクのペアを合成することで外観と意味の知識を復元する包括的生成(CGR)フレームワークを提案する。漸進的タスク(心身、基礎、前立腺のセグメンテーション)の実験は、同時出現と意味的忘れを緩和する上で、明らかな優位性を示している。
論文参考訳（メタデータ） (2024-06-28T10:05:58Z)
ULTRA-DP: Unifying Graph Pre-training with Multi-task Graph Dual Prompt [67.8934749027315]
本稿では,タスク識別と位置識別をGNNに注入する,グラフハイブリッド事前学習のための統合フレームワークを提案する。また,約$k$-nearest隣人のグループに基づいた,新しい事前学習パラダイムを提案する。
論文参考訳（メタデータ） (2023-10-23T12:11:13Z)
RGM: A Robust Generalizable Matching Model [49.60975442871967]
RGM(Robust Generalist Matching)と呼ばれる疎密マッチングのための深部モデルを提案する。合成トレーニングサンプルと実世界のシナリオのギャップを狭めるために、我々は、疎対応基盤真理を持つ新しい大規模データセットを構築した。さまざまな密集したスパースなデータセットを混ぜ合わせることができ、トレーニングの多様性を大幅に改善しています。
論文参考訳（メタデータ） (2023-10-18T07:30:08Z)
A Dynamic Feature Interaction Framework for Multi-task Visual Perception [100.98434079696268]
複数の共通認識課題を解決するための効率的な統合フレームワークを考案する。これらのタスクには、インスタンスセグメンテーション、セマンティックセグメンテーション、モノクル3D検出、深さ推定が含まれる。提案するフレームワークはD2BNetと呼ばれ,マルチタスク認識のためのパラメータ効率予測に一意なアプローチを示す。
論文参考訳（メタデータ） (2023-06-08T09:24:46Z)
Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文参考訳（メタデータ） (2023-05-17T14:30:11Z)
Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。 5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文参考訳（メタデータ） (2022-06-07T08:35:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。