論文の概要: Dynamic Feature Integration for Simultaneous Detection of Salient
Object, Edge and Skeleton
- arxiv url: http://arxiv.org/abs/2004.08595v1
- Date: Sat, 18 Apr 2020 11:10:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-12 05:37:25.209753
- Title: Dynamic Feature Integration for Simultaneous Detection of Salient
Object, Edge and Skeleton
- Title(参考訳): 突発性物体・エッジ・骨格の同時検出のための動的特徴統合
- Authors: Jiang-Jiang Liu, Qibin Hou, Ming-Ming Cheng
- Abstract要約: 本稿では,高次物体分割,エッジ検出,スケルトン抽出など,低レベルの3つの視覚問題を解く。
まず、これらのタスクで共有される類似点を示し、統一されたフレームワークの開発にどのように活用できるかを示す。
- 参考スコア(独自算出の注目度): 108.01007935498104
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we solve three low-level pixel-wise vision problems, including
salient object segmentation, edge detection, and skeleton extraction, within a
unified framework. We first show some similarities shared by these tasks and
then demonstrate how they can be leveraged for developing a unified framework
that can be trained end-to-end. In particular, we introduce a selective
integration module that allows each task to dynamically choose features at
different levels from the shared backbone based on its own characteristics.
Furthermore, we design a task-adaptive attention module, aiming at
intelligently allocating information for different tasks according to the image
content priors. To evaluate the performance of our proposed network on these
tasks, we conduct exhaustive experiments on multiple representative datasets.
We will show that though these tasks are naturally quite different, our network
can work well on all of them and even perform better than current
single-purpose state-of-the-art methods. In addition, we also conduct adequate
ablation analyses that provide a full understanding of the design principles of
the proposed framework. To facilitate future research, source code will be
released.
- Abstract(参考訳): 本稿では,高次物体分割,エッジ検出,スケルトン抽出を含む3つの低レベル画素視問題を統一された枠組みで解決する。
まず、これらのタスクで共有される類似点を示し、次に、エンドツーエンドでトレーニング可能な統一フレームワークの開発にどのように活用できるかを示します。
特に、各タスクがそれぞれの特性に基づいて共有バックボーンから異なるレベルの機能を動的に選択できる選択的統合モジュールを導入する。
さらに,画像内容に応じて異なるタスクの情報をインテリジェントにアロケートすることを目的としたタスク適応型アテンションモジュールを設計した。
これらのタスクにおいて提案するネットワークの性能を評価するために,複数の代表データを用いた徹底的な実験を行った。
これらのタスクは自然とは全く異なるが、我々のネットワークはそれらすべてでうまく機能し、現在の単一目的の最先端手法よりも優れたパフォーマンスを発揮できる。
また,提案フレームワークの設計原理を十分に理解するための適切なアブレーション分析を行う。
将来の研究を容易にするために、ソースコードがリリースされる。
関連論文リスト
- Flex: End-to-End Text-Instructed Visual Navigation with Foundation Models [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly-lexically) で合成され,VLM(Vision Language Models) をフリーズしたパッチワイド特徴抽出器として利用するフレームワークである。
本研究では,本手法が4段階のフライ・トゥ・ターゲットタスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - A Multitask Deep Learning Model for Classification and Regression of Hyperspectral Images: Application to the large-scale dataset [44.94304541427113]
ハイパースペクトル画像上で複数の分類タスクと回帰タスクを同時に行うマルチタスク深層学習モデルを提案する。
我々は、TAIGAと呼ばれる大規模なハイパースペクトルデータセットに対するアプローチを検証した。
結果の総合的定性的および定量的分析により,提案手法が他の最先端手法よりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2024-07-23T11:14:54Z) - A Dynamic Feature Interaction Framework for Multi-task Visual Perception [100.98434079696268]
複数の共通認識課題を解決するための効率的な統合フレームワークを考案する。
これらのタスクには、インスタンスセグメンテーション、セマンティックセグメンテーション、モノクル3D検出、深さ推定が含まれる。
提案するフレームワークはD2BNetと呼ばれ,マルチタスク認識のためのパラメータ効率予測に一意なアプローチを示す。
論文 参考訳(メタデータ) (2023-06-08T09:24:46Z) - AIMS: All-Inclusive Multi-Level Segmentation [93.5041381700744]
視覚領域を3つのレベル(パート、エンティティ、リレーション)に分割するタスクであるAll-Inclusive Multi-Level(AIMS)を提案する。
また、アノテーションの不整合とタスク相関の2つの大きな課題に対処するために、マルチデータセットのマルチタスクトレーニングを通じて統合されたAIMSモデルを構築します。
論文 参考訳(メタデータ) (2023-05-28T16:28:49Z) - Uni-Perceiver: Pre-training Unified Architecture for Generic Perception
for Zero-shot and Few-shot Tasks [73.63892022944198]
我々はUni-Perceiverという汎用認識アーキテクチャを提案する。
様々なモダリティやタスクを、統一されたモデリングと共有パラメータで処理します。
その結果、チューニングなしで事前学習したモデルは、新しいタスクでも合理的なパフォーマンスを達成できることがわかった。
論文 参考訳(メタデータ) (2021-12-02T18:59:50Z) - Self-Supervised Visual Representation Learning Using Lightweight
Architectures [0.0]
自己教師付き学習では、マシンによってアノテーションが生成されるデータセットを使用して、プレテキストタスクを解決するためにモデルが訓練される。
我々は、画像データから特徴を抽出する最も顕著な前文タスクを批判的に検討する。
我々は、他の全てのパラメータを均一に保ちながら、様々な自己監督技術の性能について研究する。
論文 参考訳(メタデータ) (2021-10-21T14:13:10Z) - Distribution Alignment: A Unified Framework for Long-tail Visual
Recognition [52.36728157779307]
長尾視覚認識のための分散アライメント戦略を提案する。
次に,二段階学習における一般化された再重み付け法を導入して,事前のクラスバランスをとる。
提案手法は, 4つの認識タスクすべてにおいて, 単純で統一されたフレームワークを用いて最先端の結果を得る。
論文 参考訳(メタデータ) (2021-03-30T14:09:53Z) - MOPT: Multi-Object Panoptic Tracking [33.77171216778909]
マルチオブジェクト・パノプティブ・トラッキング(MOPT)と呼ばれる新しい知覚タスクを導入する。
MOPTは、時間とともに、"thing"クラスと"stuff"クラスのピクセルレベルのセマンティック情報、時間的コヒーレンス、ピクセルレベルの関連を活用できる。
視覚ベースとLiDARベースのMOPTの定量的,定性的な評価を行い,その効果を実証した。
論文 参考訳(メタデータ) (2020-04-17T11:45:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。