Fugu-MT 論文翻訳(概要): Video Salient Object Detection via Adaptive Local-Global Refinement

論文の概要: Video Salient Object Detection via Adaptive Local-Global Refinement

arxiv url: http://arxiv.org/abs/2104.14360v1
Date: Thu, 29 Apr 2021 14:14:11 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-30 12:59:42.840065
Title: Video Salient Object Detection via Adaptive Local-Global Refinement
Title（参考訳）: アダプティブローカル・グローバル・リファインメントによるビデオ・サイレント物体検出
Authors: Yi Tang and Yuanman Li and Guoliang Xing
Abstract要約: ビデオ・サリエント・オブジェクト検出(VSOD)は多くの視覚アプリケーションにおいて重要な課題である。 vsodのための適応型局所的グローバルリファインメントフレームワークを提案する。重み付け手法は特徴相関を更に活用し,ネットワークにより識別的な特徴表現を学習させることができることを示す。
参考スコア（独自算出の注目度）: 7.723369608197167
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Video salient object detection (VSOD) is an important task in many vision applications. Reliable VSOD requires to simultaneously exploit the information from both the spatial domain and the temporal domain. Most of the existing algorithms merely utilize simple fusion strategies, such as addition and concatenation, to merge the information from different domains. Despite their simplicity, such fusion strategies may introduce feature redundancy, and also fail to fully exploit the relationship between multi-level features extracted from both spatial and temporal domains. In this paper, we suggest an adaptive local-global refinement framework for VSOD. Different from previous approaches, we propose a local refinement architecture and a global one to refine the simply fused features with different scopes, which can fully explore the local dependence and the global dependence of multi-level features. In addition, to emphasize the effective information and suppress the useless one, an adaptive weighting mechanism is designed based on graph convolutional neural network (GCN). We show that our weighting methodology can further exploit the feature correlations, thus driving the network to learn more discriminative feature representation. Extensive experimental results on public video datasets demonstrate the superiority of our method over the existing ones.
Abstract（参考訳）: ビデオサルエントオブジェクト検出(VSOD)は多くの視覚アプリケーションにおいて重要な課題である。信頼性のあるVSODは、空間領域と時間領域の両方からの情報を同時に活用する必要がある。既存のアルゴリズムのほとんどは、追加や結合といった単純な融合戦略を利用して、異なるドメインからの情報をマージするだけである。単純さにもかかわらず、このような融合戦略は機能的冗長性をもたらす可能性があり、また空間的領域と時間的領域の両方から抽出された多レベル特徴の関係を十分に活用できない。本稿では,vsodのための適応型局所的グローバルリファインメントフレームワークを提案する。従来のアプローチとは違って,局所的な改良アーキテクチャと,多段階特徴の局所的依存とグローバル的依存を網羅する,単に融合した特徴を異なるスコープで洗練するグローバルなアーキテクチャを提案する。さらに、有効な情報を強調し、無駄な情報を抑制するために、グラフ畳み込みニューラルネットワーク(GCN)に基づいて適応重み付け機構を設計する。重み付け手法は特徴相関を更に活用し,ネットワークにより識別的な特徴表現を学習させることができることを示す。公開ビデオデータセットの大規模な実験結果から,提案手法が既存手法よりも優れていることを示す。

関連論文リスト

Boosting Single-domain Generalized Object Detection via Vision-Language Knowledge Interaction [4.692621855184482]
Single-Domain Generalized Object Detection (S-DGOD)は、単一のソースドメイン上でオブジェクト検出をトレーニングすることを目的としている。最近のS-DGODアプローチは、事前学習された視覚言語知識を利用して、視覚領域を越えて不変な特徴学習を導く。本稿では,S-DGODタスクの一般化および識別的地域特徴をキャプチャするクロスモーダル特徴学習手法を提案する。
論文参考訳（メタデータ） (2025-04-27T02:55:54Z)
Generalizable Deepfake Detection via Effective Local-Global Feature Extraction [5.221473306027505]
GANと拡散モデルにより、ますます現実的な偽画像が生成される。ディープフェイク検出は、今日の世界で深刻な問題となっている。本稿では,局所的特徴とグローバル的特徴を効果的に組み合わせた新しい手法を提案する。
論文参考訳（メタデータ） (2025-01-25T15:53:57Z)
Object Style Diffusion for Generalized Object Detection in Urban Scene [69.04189353993907]
本稿では,GoDiffという新しい単一ドメインオブジェクト検出一般化手法を提案する。擬似ターゲットドメインデータとソースドメインデータを統合することで、トレーニングデータセットを多様化する。実験により,本手法は既存の検出器の一般化能力を高めるだけでなく,他の単一領域一般化手法のプラグ・アンド・プレイ拡張として機能することが示された。
論文参考訳（メタデータ） (2024-12-18T13:03:00Z)
GLCONet: Learning Multi-source Perception Representation for Camouflaged Object Detection [23.872633359324098]
我々はGLCONetと呼ばれる新しいグローバルローカル協調最適化ネットワークを提案する。本稿では、まず、局所的な詳細とグローバルな長距離関係を同時にモデル化するための協調最適化戦略を設計する。実験により、異なるバックボーンを持つGLCONet法は、画像中の潜在的に重要なピクセルを効果的に活性化できることが示されている。
論文参考訳（メタデータ） (2024-09-15T02:26:17Z)
Swarm Intelligence in Geo-Localization: A Multi-Agent Large Vision-Language Model Collaborative Framework [51.26566634946208]
smileGeoは、新しい視覚的ジオローカライゼーションフレームワークである。エージェント間のコミュニケーションによって、SmithGeoはこれらのエージェントの固有の知識と、検索された情報を統合する。その結果,本手法は現在の最先端手法よりも優れていた。
論文参考訳（メタデータ） (2024-08-21T03:31:30Z)
CLIP the Gap: A Single Domain Generalization Approach for Object Detection [60.20931827772482]
単一ドメインの一般化(Single Domain Generalization)は、単一のソースドメイン上でモデルをトレーニングすることで、目に見えないターゲットドメインに一般化する問題に取り組む。本稿では、事前学習された視覚言語モデルを用いて、テキストプロンプトを介して意味領域の概念を導入することを提案する。本手法は,検出器のバックボーンから抽出した特徴に作用する意味的拡張戦略と,テキストに基づく分類損失によって実現される。
論文参考訳（メタデータ） (2023-01-13T12:01:18Z)
Adaptive Local-Component-aware Graph Convolutional Network for One-shot Skeleton-based Action Recognition [54.23513799338309]
骨格に基づく行動認識のための適応的局所成分認識グラフ畳み込みネットワークを提案する。我々の手法はグローバルな埋め込みよりも強力な表現を提供し、我々のモデルが最先端に到達するのに役立ちます。
論文参考訳（メタデータ） (2022-09-21T02:33:07Z)
Cross-modal Local Shortest Path and Global Enhancement for Visible-Thermal Person Re-Identification [2.294635424666456]
本稿では,局所的特徴とグローバル的特徴の同時学習に基づく2ストリームネットワークであるCM-LSP-GE(Cross-modal Local Shortest Path and Global Enhancement)モジュールを提案する。 2つの典型的なデータセットの実験結果は、我々のモデルは明らかに最先端の手法よりも優れていることを示している。
論文参考訳（メタデータ） (2022-06-09T10:27:22Z)
Relation Matters: Foreground-aware Graph-based Relational Reasoning for Domain Adaptive Object Detection [81.07378219410182]
我々は、FGRR(Fearground-aware Graph-based Reasoning)というドメインDのための新しい汎用フレームワークを提案する。 FGRRはグラフ構造を検出パイプラインに組み込んで、ドメイン内およびドメイン間フォアグラウンドオブジェクト関係を明示的にモデル化する。実験の結果、提案したFGRRは4つのDomainDベンチマークの最先端よりも優れていることが示された。
論文参考訳（メタデータ） (2022-06-06T05:12:48Z)
Remote Sensing Cross-Modal Text-Image Retrieval Based on Global and Local Information [15.32353270625554]
リモートセンシング(RS)画像の高速かつ柔軟な情報抽出を可能にするため,クロスモーダルリモートセンシングテキスト画像検索(RSCTIR)は近年,緊急な研究ホットスポットとなっている。まず,グローバル・ローカル情報(GaLR)に基づく新しいRSCTIRフレームワークを提案し,多レベル情報ダイナミックフュージョン(MIDF)モジュールを設計し,異なるレベルの機能を効果的に統合する。公開データセットの実験は、RSCTIRタスク上でのGaLR法の最先端性能を強く実証している。
論文参考訳（メタデータ） (2022-04-21T03:18:09Z)
Channel-wise Alignment for Adaptive Object Detection [66.76486843397267]
遺伝的物体検出は、ディープ畳み込みニューラルネットワークの開発によって大いに促進されている。このタスクの既存の方法は、通常、画像全体や関心の対象に基づいて、ハイレベルなアライメントに注意を向ける。本稿では,チャネルワイドアライメント(チャネルワイドアライメント)という,まったく異なる観点からの適応を実現する。
論文参考訳（メタデータ） (2020-09-07T02:42:18Z)
Global Context-Aware Progressive Aggregation Network for Salient Object Detection [117.943116761278]
我々は,低レベルな外観特徴,高レベルな意味特徴,グローバルな文脈特徴を統合化するための新しいネットワークGCPANetを提案する。提案手法は, 定量的かつ定性的に, 最先端の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2020-03-02T04:26:10Z)
Hybrid Multiple Attention Network for Semantic Segmentation in Aerial Images [24.35779077001839]
グローバルな相関関係を適応的に捉えるために,Hybrid Multiple Attention Network (HMANet) という新しいアテンションベースのフレームワークを提案する。本稿では,機能的冗長性を低減し,自己注意機構の効率を向上させるため,単純で効果的な領域シャッフルアテンション(RSA)モジュールを提案する。
論文参考訳（メタデータ） (2020-01-09T07:47:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。