論文の概要: Video Salient Object Detection via Adaptive Local-Global Refinement
- arxiv url: http://arxiv.org/abs/2104.14360v1
- Date: Thu, 29 Apr 2021 14:14:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-30 12:59:42.840065
- Title: Video Salient Object Detection via Adaptive Local-Global Refinement
- Title(参考訳): アダプティブローカル・グローバル・リファインメントによるビデオ・サイレント物体検出
- Authors: Yi Tang and Yuanman Li and Guoliang Xing
- Abstract要約: ビデオ・サリエント・オブジェクト検出(VSOD)は多くの視覚アプリケーションにおいて重要な課題である。
vsodのための適応型局所的グローバルリファインメントフレームワークを提案する。
重み付け手法は特徴相関を更に活用し,ネットワークにより識別的な特徴表現を学習させることができることを示す。
- 参考スコア(独自算出の注目度): 7.723369608197167
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video salient object detection (VSOD) is an important task in many vision
applications. Reliable VSOD requires to simultaneously exploit the information
from both the spatial domain and the temporal domain. Most of the existing
algorithms merely utilize simple fusion strategies, such as addition and
concatenation, to merge the information from different domains. Despite their
simplicity, such fusion strategies may introduce feature redundancy, and also
fail to fully exploit the relationship between multi-level features extracted
from both spatial and temporal domains. In this paper, we suggest an adaptive
local-global refinement framework for VSOD. Different from previous approaches,
we propose a local refinement architecture and a global one to refine the
simply fused features with different scopes, which can fully explore the local
dependence and the global dependence of multi-level features. In addition, to
emphasize the effective information and suppress the useless one, an adaptive
weighting mechanism is designed based on graph convolutional neural network
(GCN). We show that our weighting methodology can further exploit the feature
correlations, thus driving the network to learn more discriminative feature
representation. Extensive experimental results on public video datasets
demonstrate the superiority of our method over the existing ones.
- Abstract(参考訳): ビデオサルエントオブジェクト検出(VSOD)は多くの視覚アプリケーションにおいて重要な課題である。
信頼性のあるVSODは、空間領域と時間領域の両方からの情報を同時に活用する必要がある。
既存のアルゴリズムのほとんどは、追加や結合といった単純な融合戦略を利用して、異なるドメインからの情報をマージするだけである。
単純さにもかかわらず、このような融合戦略は機能的冗長性をもたらす可能性があり、また空間的領域と時間的領域の両方から抽出された多レベル特徴の関係を十分に活用できない。
本稿では,vsodのための適応型局所的グローバルリファインメントフレームワークを提案する。
従来のアプローチとは違って,局所的な改良アーキテクチャと,多段階特徴の局所的依存とグローバル的依存を網羅する,単に融合した特徴を異なるスコープで洗練するグローバルなアーキテクチャを提案する。
さらに、有効な情報を強調し、無駄な情報を抑制するために、グラフ畳み込みニューラルネットワーク(GCN)に基づいて適応重み付け機構を設計する。
重み付け手法は特徴相関を更に活用し,ネットワークにより識別的な特徴表現を学習させることができることを示す。
公開ビデオデータセットの大規模な実験結果から,提案手法が既存手法よりも優れていることを示す。
関連論文リスト
- GLCONet: Learning Multi-source Perception Representation for Camouflaged Object Detection [23.872633359324098]
我々はGLCONetと呼ばれる新しいグローバルローカル協調最適化ネットワークを提案する。
本稿では、まず、局所的な詳細とグローバルな長距離関係を同時にモデル化するための協調最適化戦略を設計する。
実験により、異なるバックボーンを持つGLCONet法は、画像中の潜在的に重要なピクセルを効果的に活性化できることが示されている。
論文 参考訳(メタデータ) (2024-09-15T02:26:17Z) - Swarm Intelligence in Geo-Localization: A Multi-Agent Large Vision-Language Model Collaborative Framework [51.26566634946208]
smileGeoは、新しい視覚的ジオローカライゼーションフレームワークである。
エージェント間のコミュニケーションによって、SmithGeoはこれらのエージェントの固有の知識と、検索された情報を統合する。
その結果,本手法は現在の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2024-08-21T03:31:30Z) - CLIP the Gap: A Single Domain Generalization Approach for Object
Detection [60.20931827772482]
単一ドメインの一般化(Single Domain Generalization)は、単一のソースドメイン上でモデルをトレーニングすることで、目に見えないターゲットドメインに一般化する問題に取り組む。
本稿では、事前学習された視覚言語モデルを用いて、テキストプロンプトを介して意味領域の概念を導入することを提案する。
本手法は,検出器のバックボーンから抽出した特徴に作用する意味的拡張戦略と,テキストに基づく分類損失によって実現される。
論文 参考訳(メタデータ) (2023-01-13T12:01:18Z) - Adaptive Local-Component-aware Graph Convolutional Network for One-shot
Skeleton-based Action Recognition [54.23513799338309]
骨格に基づく行動認識のための適応的局所成分認識グラフ畳み込みネットワークを提案する。
我々の手法はグローバルな埋め込みよりも強力な表現を提供し、我々のモデルが最先端に到達するのに役立ちます。
論文 参考訳(メタデータ) (2022-09-21T02:33:07Z) - Cross-modal Local Shortest Path and Global Enhancement for
Visible-Thermal Person Re-Identification [2.294635424666456]
本稿では,局所的特徴とグローバル的特徴の同時学習に基づく2ストリームネットワークであるCM-LSP-GE(Cross-modal Local Shortest Path and Global Enhancement)モジュールを提案する。
2つの典型的なデータセットの実験結果は、我々のモデルは明らかに最先端の手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2022-06-09T10:27:22Z) - Relation Matters: Foreground-aware Graph-based Relational Reasoning for
Domain Adaptive Object Detection [81.07378219410182]
我々は、FGRR(Fearground-aware Graph-based Reasoning)というドメインDのための新しい汎用フレームワークを提案する。
FGRRはグラフ構造を検出パイプラインに組み込んで、ドメイン内およびドメイン間フォアグラウンドオブジェクト関係を明示的にモデル化する。
実験の結果、提案したFGRRは4つのDomainDベンチマークの最先端よりも優れていることが示された。
論文 参考訳(メタデータ) (2022-06-06T05:12:48Z) - Remote Sensing Cross-Modal Text-Image Retrieval Based on Global and
Local Information [15.32353270625554]
リモートセンシング(RS)画像の高速かつ柔軟な情報抽出を可能にするため,クロスモーダルリモートセンシングテキスト画像検索(RSCTIR)は近年,緊急な研究ホットスポットとなっている。
まず,グローバル・ローカル情報(GaLR)に基づく新しいRSCTIRフレームワークを提案し,多レベル情報ダイナミックフュージョン(MIDF)モジュールを設計し,異なるレベルの機能を効果的に統合する。
公開データセットの実験は、RSCTIRタスク上でのGaLR法の最先端性能を強く実証している。
論文 参考訳(メタデータ) (2022-04-21T03:18:09Z) - Channel-wise Alignment for Adaptive Object Detection [66.76486843397267]
遺伝的物体検出は、ディープ畳み込みニューラルネットワークの開発によって大いに促進されている。
このタスクの既存の方法は、通常、画像全体や関心の対象に基づいて、ハイレベルなアライメントに注意を向ける。
本稿では,チャネルワイドアライメント(チャネルワイドアライメント)という,まったく異なる観点からの適応を実現する。
論文 参考訳(メタデータ) (2020-09-07T02:42:18Z) - Global Context-Aware Progressive Aggregation Network for Salient Object
Detection [117.943116761278]
我々は,低レベルな外観特徴,高レベルな意味特徴,グローバルな文脈特徴を統合化するための新しいネットワークGCPANetを提案する。
提案手法は, 定量的かつ定性的に, 最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-03-02T04:26:10Z) - Hybrid Multiple Attention Network for Semantic Segmentation in Aerial
Images [24.35779077001839]
グローバルな相関関係を適応的に捉えるために,Hybrid Multiple Attention Network (HMANet) という新しいアテンションベースのフレームワークを提案する。
本稿では,機能的冗長性を低減し,自己注意機構の効率を向上させるため,単純で効果的な領域シャッフルアテンション(RSA)モジュールを提案する。
論文 参考訳(メタデータ) (2020-01-09T07:47:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。