Fugu-MT 論文翻訳(概要): Dynamic Feature Integration for Simultaneous Detection of Salient Object, Edge and Skeleton

論文の概要: Dynamic Feature Integration for Simultaneous Detection of Salient Object, Edge and Skeleton

arxiv url: http://arxiv.org/abs/2004.08595v1
Date: Sat, 18 Apr 2020 11:10:11 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-12 05:37:25.209753
Title: Dynamic Feature Integration for Simultaneous Detection of Salient Object, Edge and Skeleton
Title（参考訳）: 突発性物体・エッジ・骨格の同時検出のための動的特徴統合
Authors: Jiang-Jiang Liu, Qibin Hou, Ming-Ming Cheng
Abstract要約: 本稿では,高次物体分割,エッジ検出,スケルトン抽出など,低レベルの3つの視覚問題を解く。まず、これらのタスクで共有される類似点を示し、統一されたフレームワークの開発にどのように活用できるかを示す。
参考スコア（独自算出の注目度）: 108.01007935498104
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we solve three low-level pixel-wise vision problems, including salient object segmentation, edge detection, and skeleton extraction, within a unified framework. We first show some similarities shared by these tasks and then demonstrate how they can be leveraged for developing a unified framework that can be trained end-to-end. In particular, we introduce a selective integration module that allows each task to dynamically choose features at different levels from the shared backbone based on its own characteristics. Furthermore, we design a task-adaptive attention module, aiming at intelligently allocating information for different tasks according to the image content priors. To evaluate the performance of our proposed network on these tasks, we conduct exhaustive experiments on multiple representative datasets. We will show that though these tasks are naturally quite different, our network can work well on all of them and even perform better than current single-purpose state-of-the-art methods. In addition, we also conduct adequate ablation analyses that provide a full understanding of the design principles of the proposed framework. To facilitate future research, source code will be released.
Abstract（参考訳）: 本稿では,高次物体分割,エッジ検出,スケルトン抽出を含む3つの低レベル画素視問題を統一された枠組みで解決する。まず、これらのタスクで共有される類似点を示し、次に、エンドツーエンドでトレーニング可能な統一フレームワークの開発にどのように活用できるかを示します。特に、各タスクがそれぞれの特性に基づいて共有バックボーンから異なるレベルの機能を動的に選択できる選択的統合モジュールを導入する。さらに,画像内容に応じて異なるタスクの情報をインテリジェントにアロケートすることを目的としたタスク適応型アテンションモジュールを設計した。これらのタスクにおいて提案するネットワークの性能を評価するために,複数の代表データを用いた徹底的な実験を行った。これらのタスクは自然とは全く異なるが、我々のネットワークはそれらすべてでうまく機能し、現在の単一目的の最先端手法よりも優れたパフォーマンスを発揮できる。また,提案フレームワークの設計原理を十分に理解するための適切なアブレーション分析を行う。将来の研究を容易にするために、ソースコードがリリースされる。

関連論文リスト

PanMatch: Unleashing the Potential of Large Vision Models for Unified Matching Models [80.65273820998875]
頑健な対応マッチングのための汎用基盤モデルであるPanMatchを提案する。我々の重要な洞察は、任意の2フレーム対応タスクが2次元変位推定フレームワーク内で処理可能であることである。 PanMatchは、偏差推定アルゴリズムを前例のない一般化能力で実現し、マルチタスク統合を実現する。
論文参考訳（メタデータ） (2025-07-11T08:18:52Z)
InstructPart: Task-Oriented Part Segmentation with Instruction Reasoning [48.455643602907934]
実世界の新しいベンチマークであるInstructPartを導入し、現在のモデルの性能を評価し、部分レベルのタスクの理解と実行を行う。現状のビジョン・ランゲージモデルにおいても,タスク指向の部分分割は依然として困難な問題であることを示す。
論文参考訳（メタデータ） (2025-05-23T18:36:13Z)
FOCUS: Towards Universal Foreground Segmentation [32.60315411785438]
フォアグラウンドセグメンテーションはコンピュータビジョンにおける基本的なタスクであり、様々なサブディビジョンタスクを含んでいる。従来の研究は、通常、各タスクのためのタスク固有のアーキテクチャを設計し、統一の欠如につながった。我々は,複数のフォアグラウンドタスクを処理可能なフォアグラウンドObjeCts UniversalフレームワークであるFOCUSを紹介する。
論文参考訳（メタデータ） (2025-01-09T13:44:15Z)
Flex: End-to-End Text-Instructed Visual Navigation with Foundation Models [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。この知見はFlex (Fly-lexically) で合成され,VLM(Vision Language Models) をフリーズしたパッチワイド特徴抽出器として利用するフレームワークである。本研究では,本手法が4段階のフライ・トゥ・ターゲットタスクにおいて有効であることを示す。
論文参考訳（メタデータ） (2024-10-16T19:59:31Z)
A Multitask Deep Learning Model for Classification and Regression of Hyperspectral Images: Application to the large-scale dataset [44.94304541427113]
ハイパースペクトル画像上で複数の分類タスクと回帰タスクを同時に行うマルチタスク深層学習モデルを提案する。我々は、TAIGAと呼ばれる大規模なハイパースペクトルデータセットに対するアプローチを検証した。結果の総合的定性的および定量的分析により,提案手法が他の最先端手法よりも有意に優れていることを示す。
論文参考訳（メタデータ） (2024-07-23T11:14:54Z)
A Dynamic Feature Interaction Framework for Multi-task Visual Perception [100.98434079696268]
複数の共通認識課題を解決するための効率的な統合フレームワークを考案する。これらのタスクには、インスタンスセグメンテーション、セマンティックセグメンテーション、モノクル3D検出、深さ推定が含まれる。提案するフレームワークはD2BNetと呼ばれ,マルチタスク認識のためのパラメータ効率予測に一意なアプローチを示す。
論文参考訳（メタデータ） (2023-06-08T09:24:46Z)
AIMS: All-Inclusive Multi-Level Segmentation [93.5041381700744]
視覚領域を3つのレベル(パート、エンティティ、リレーション)に分割するタスクであるAll-Inclusive Multi-Level(AIMS)を提案する。また、アノテーションの不整合とタスク相関の2つの大きな課題に対処するために、マルチデータセットのマルチタスクトレーニングを通じて統合されたAIMSモデルを構築します。
論文参考訳（メタデータ） (2023-05-28T16:28:49Z)
Uni-Perceiver: Pre-training Unified Architecture for Generic Perception for Zero-shot and Few-shot Tasks [73.63892022944198]
我々はUni-Perceiverという汎用認識アーキテクチャを提案する。様々なモダリティやタスクを、統一されたモデリングと共有パラメータで処理します。その結果、チューニングなしで事前学習したモデルは、新しいタスクでも合理的なパフォーマンスを達成できることがわかった。
論文参考訳（メタデータ） (2021-12-02T18:59:50Z)
Self-Supervised Visual Representation Learning Using Lightweight Architectures [0.0]
自己教師付き学習では、マシンによってアノテーションが生成されるデータセットを使用して、プレテキストタスクを解決するためにモデルが訓練される。我々は、画像データから特徴を抽出する最も顕著な前文タスクを批判的に検討する。我々は、他の全てのパラメータを均一に保ちながら、様々な自己監督技術の性能について研究する。
論文参考訳（メタデータ） (2021-10-21T14:13:10Z)
Distribution Alignment: A Unified Framework for Long-tail Visual Recognition [52.36728157779307]
長尾視覚認識のための分散アライメント戦略を提案する。次に,二段階学習における一般化された再重み付け法を導入して,事前のクラスバランスをとる。提案手法は, 4つの認識タスクすべてにおいて, 単純で統一されたフレームワークを用いて最先端の結果を得る。
論文参考訳（メタデータ） (2021-03-30T14:09:53Z)
MOPT: Multi-Object Panoptic Tracking [33.77171216778909]
マルチオブジェクト・パノプティブ・トラッキング(MOPT)と呼ばれる新しい知覚タスクを導入する。 MOPTは、時間とともに、"thing"クラスと"stuff"クラスのピクセルレベルのセマンティック情報、時間的コヒーレンス、ピクセルレベルの関連を活用できる。視覚ベースとLiDARベースのMOPTの定量的,定性的な評価を行い,その効果を実証した。
論文参考訳（メタデータ） (2020-04-17T11:45:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。