論文の概要: BridgeNet: Comprehensive and Effective Feature Interactions via Bridge Feature for Multi-task Dense Predictions
- arxiv url: http://arxiv.org/abs/2312.13514v2
- Date: Sat, 23 Nov 2024 05:48:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:15:45.609886
- Title: BridgeNet: Comprehensive and Effective Feature Interactions via Bridge Feature for Multi-task Dense Predictions
- Title(参考訳): BridgeNet: マルチタスクDense予測のためのブリッジ機能による包括的で効果的な機能インタラクション
- Authors: Jingdong Zhang, Jiayuan Fan, Peng Ye, Bo Zhang, Hancheng Ye, Baopu Li, Yancheng Cai, Tao Chen,
- Abstract要約: マルチタスク密度予測は,複数の画素単位の予測タスクを統合ネットワーク内で同時に処理し,視覚的シーン理解を実現することを目的としている。
これらの未探索問題に対処するために,包括的かつ識別的な中間ブリッジ特徴を抽出する新しいブリッジネットフレームワークを提案する。
私たちの知る限りでは、クロスタスクインタラクションにおける機能参加者の完全性と品質を考慮した最初の作品です。
- 参考スコア(独自算出の注目度): 29.049866510120093
- License:
- Abstract: Multi-task dense prediction aims at handling multiple pixel-wise prediction tasks within a unified network simultaneously for visual scene understanding. However, cross-task feature interactions of current methods are still suffering from incomplete levels of representations, less discriminative semantics in feature participants, and inefficient pair-wise task interaction processes. To tackle these under-explored issues, we propose a novel BridgeNet framework, which extracts comprehensive and discriminative intermediate Bridge Features, and conducts interactions based on them. Specifically, a Task Pattern Propagation (TPP) module is firstly applied to ensure highly semantic task-specific feature participants are prepared for subsequent interactions, and a Bridge Feature Extractor (BFE) is specially designed to selectively integrate both high-level and low-level representations to generate the comprehensive bridge features. Then, instead of conducting heavy pair-wise cross-task interactions, a Task-Feature Refiner (TFR) is developed to efficiently take guidance from bridge features and form final task predictions. To the best of our knowledge, this is the first work considering the completeness and quality of feature participants in cross-task interactions. Extensive experiments are conducted on NYUD-v2, Cityscapes and PASCAL Context benchmarks, and the superior performance shows the proposed architecture is effective and powerful in promoting different dense prediction tasks simultaneously.
- Abstract(参考訳): マルチタスク密度予測は,複数の画素単位の予測タスクを統合ネットワーク内で同時に処理し,視覚的シーン理解を実現することを目的としている。
しかし、現在の手法のクロスタスクの特徴的相互作用は、いまだに不完全な表現レベル、特徴参加者における識別的意味論の欠如、非効率なペアワイドなタスクインタラクションプロセスに悩まされている。
これらの課題に対処するために,橋梁の特徴を包括的かつ識別的に抽出し,それに基づいて対話を行う新しいブリッジネットフレームワークを提案する。
具体的には、タスク・パターン・プロパゲーション(TPP)モジュールをまず、後続のインタラクションに高度にセマンティックなタスク固有の特徴参加者を準備するために適用し、ブリッジ・フィーチャー・エクストラクタ(BFE)は、高レベルの表現と低レベルの表現を選択的に統合して包括的ブリッジ特徴を生成するように設計されている。
そこで,TFR (Task-Feature Refiner) が開発され,橋梁の特徴から効率的に指導を受け,最終的なタスク予測が作成される。
私たちの知る限りでは、クロスタスクインタラクションにおける機能参加者の完全性と品質を考慮した最初の作品です。
NYUD-v2、Cityscapes、PASCAL Contextベンチマークで大規模な実験を行い、より優れた性能は、提案アーキテクチャが様々な密集予測タスクを同時に促進するのに効果的で強力であることを示している。
関連論文リスト
- Task Indicating Transformer for Task-conditional Dense Predictions [16.92067246179703]
この課題に対処するために,タスク表示変換(TIT)と呼ばれる新しいタスク条件フレームワークを導入する。
本手法では,行列分解によるタスク指示行列を組み込んだMix Task Adapterモジュールをトランスフォーマーブロック内に設計する。
また,タスク表示ベクトルとゲーティング機構を利用するタスクゲートデコーダモジュールを提案する。
論文 参考訳(メタデータ) (2024-03-01T07:06:57Z) - ULTRA-DP: Unifying Graph Pre-training with Multi-task Graph Dual Prompt [67.8934749027315]
本稿では,タスク識別と位置識別をGNNに注入する,グラフハイブリッド事前学習のための統合フレームワークを提案する。
また,約$k$-nearest隣人のグループに基づいた,新しい事前学習パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-23T12:11:13Z) - Contrastive Multi-Task Dense Prediction [11.227696986100447]
設計における中核的な目的は、異なるタスクに対する包括的な改善を達成するために、クロスタスクインタラクションを効果的にモデル化する方法である。
マルチタスク密接な予測のためのクロスタスク相互作用のモデル化に特徴的コントラスト整合を導入する。
本稿では,各サブタスクの表現学習を効果的に促進するために,一貫性に基づく新しいマルチタスクコントラスト正規化手法を提案する。
論文 参考訳(メタデータ) (2023-07-16T03:54:01Z) - A Dynamic Feature Interaction Framework for Multi-task Visual Perception [100.98434079696268]
複数の共通認識課題を解決するための効率的な統合フレームワークを考案する。
これらのタスクには、インスタンスセグメンテーション、セマンティックセグメンテーション、モノクル3D検出、深さ推定が含まれる。
提案するフレームワークはD2BNetと呼ばれ,マルチタスク認識のためのパラメータ効率予測に一意なアプローチを示す。
論文 参考訳(メタデータ) (2023-06-08T09:24:46Z) - A Hierarchical Interactive Network for Joint Span-based Aspect-Sentiment
Analysis [34.1489054082536]
本稿では,2つのタスク間の双方向相互作用を適切にモデル化する階層型対話型ネットワーク(HI-ASA)を提案する。
クロススティッチ機構を用いて、異なるタスク固有の特徴を入力として選択的に組み合わせ、適切な双方向インタラクションを保証する。
3つの実世界のデータセットの実験は、HI-ASAがベースラインよりも優れていることを示している。
論文 参考訳(メタデータ) (2022-08-24T03:03:49Z) - Fast Inference and Transfer of Compositional Task Structures for
Few-shot Task Generalization [101.72755769194677]
本稿では,タスクがサブタスクグラフによって特徴づけられる,数発の強化学習問題として定式化する。
我々のマルチタスクサブタスクグラフ推論器(MTSGI)は、トレーニングタスクから、まず、サブタスクグラフの観点から、一般的なハイレベルなタスク構造を推測する。
提案手法は,2次元グリッドワールドおよび複雑なWebナビゲーション領域において,タスクの共通基盤構造を学習し,活用し,未知のタスクへの適応を高速化する。
論文 参考訳(メタデータ) (2022-05-25T10:44:25Z) - Exploring Relational Context for Multi-Task Dense Prediction [76.86090370115]
我々は,共通バックボーンと独立タスク固有のヘッドで表される,密集予測タスクのためのマルチタスク環境を考える。
マルチタスク設定では,グローバルやローカルなど,さまざまな注意に基づくコンテキストを探索する。
タスクペアごとに利用可能なすべてのコンテキストのプールをサンプリングするAdaptive Task-Relational Contextモジュールを提案する。
論文 参考訳(メタデータ) (2021-04-28T16:45:56Z) - Multi-Task Learning for Dense Prediction Tasks: A Survey [87.66280582034838]
マルチタスク学習(MTL)技術は、性能、計算、メモリフットプリントに関する有望な結果を示している。
我々は、コンピュータビジョンにおけるMLLのための最先端のディープラーニングアプローチについて、よく理解された視点を提供する。
論文 参考訳(メタデータ) (2020-04-28T09:15:50Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。