論文の概要: Shallow Features Matter: Hierarchical Memory with Heterogeneous Interaction for Unsupervised Video Object Segmentation
- arxiv url: http://arxiv.org/abs/2507.22465v1
- Date: Wed, 30 Jul 2025 08:11:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-31 16:14:18.09124
- Title: Shallow Features Matter: Hierarchical Memory with Heterogeneous Interaction for Unsupervised Video Object Segmentation
- Title(参考訳): 浅部特徴:教師なしビデオオブジェクトセグメンテーションのための不均一相互作用を伴う階層記憶
- Authors: Zheng Xiangyu, He Songcheng, Li Wanyun, Li Xiaoqiang, Zhang Wei,
- Abstract要約: Unsupervised Video Object (UVOS) は、事前のアノテーションを使わずに、ビデオで最も精巧なオブジェクトのピクセルレベルのマスクを予測することを目的としている。
分析の結果,既存の手法には,高レベルのセマンティックな特徴を記憶する過度な信頼性という,単純だが根本的な欠陥があることがわかった。
本稿では,メモリの浅層・高層両方の機能を組み込んだ新しい階層型メモリアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 1.5223740593989445
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unsupervised Video Object Segmentation (UVOS) aims to predict pixel-level masks for the most salient objects in videos without any prior annotations. While memory mechanisms have been proven critical in various video segmentation paradigms, their application in UVOS yield only marginal performance gains despite sophisticated design. Our analysis reveals a simple but fundamental flaw in existing methods: over-reliance on memorizing high-level semantic features. UVOS inherently suffers from the deficiency of lacking fine-grained information due to the absence of pixel-level prior knowledge. Consequently, memory design relying solely on high-level features, which predominantly capture abstract semantic cues, is insufficient to generate precise predictions. To resolve this fundamental issue, we propose a novel hierarchical memory architecture to incorporate both shallow- and high-level features for memory, which leverages the complementary benefits of pixel and semantic information. Furthermore, to balance the simultaneous utilization of the pixel and semantic memory features, we propose a heterogeneous interaction mechanism to perform pixel-semantic mutual interactions, which explicitly considers their inherent feature discrepancies. Through the design of Pixel-guided Local Alignment Module (PLAM) and Semantic-guided Global Integration Module (SGIM), we achieve delicate integration of the fine-grained details in shallow-level memory and the semantic representations in high-level memory. Our Hierarchical Memory with Heterogeneous Interaction Network (HMHI-Net) consistently achieves state-of-the-art performance across all UVOS and video saliency detection benchmarks. Moreover, HMHI-Net consistently exhibits high performance across different backbones, further demonstrating its superiority and robustness. Project page: https://github.com/ZhengxyFlow/HMHI-Net .
- Abstract(参考訳): Unsupervised Video Object Segmentation (UVOS) は、事前のアノテーションを使わずに、ビデオ内の最も精巧なオブジェクトに対してピクセルレベルのマスクを予測することを目的としている。
メモリ機構は様々なビデオセグメンテーションパラダイムにおいて重要であることが証明されているが、UVOSにおけるその応用は、洗練された設計にもかかわらず、限界的な性能向上しか得られない。
分析の結果,既存の手法には,高レベルのセマンティックな特徴を記憶する過度な信頼性という,シンプルだが根本的な欠陥があることがわかった。
UVOSは本質的に、ピクセルレベルの事前知識がないため、きめ細かい情報を欠いている。
その結果、抽象的なセマンティックキューを主にキャプチャする高レベルの機能のみに依存するメモリ設計は、正確な予測を生成するには不十分である。
そこで本研究では,画素情報とセマンティック情報の相補的利点を生かした,メモリの浅層・高層両方の機能を組み込んだ階層型メモリアーキテクチャを提案する。
さらに,画素とセマンティックメモリの同時利用を両立させるため,画素・セマンティック相互通信を行う異種相互作用機構を提案する。
我々は,Pixel-Guided Local Alignment Module (PLAM) とSemantic-Guided Global Integration Module (SGIM) の設計を通じて,浅層メモリにおける細粒度の詳細と高層メモリにおける意味表現の微妙な統合を実現する。
階層型メモリとヘテロジニアスインタラクションネットワーク(HMHI-Net)は,UVOSおよびビデオサリエンシ検出ベンチマーク全体にわたって,最先端のパフォーマンスを一貫して達成している。
さらに、HMHI-Netは、異なるバックボーン間で高いパフォーマンスを示し、その優位性とロバスト性を示している。
プロジェクトページ:https://github.com/ZhengxyFlow/HMHI-Net
関連論文リスト
- Memory-Constrained Semantic Segmentation for Ultra-High Resolution UAV
Imagery [35.96063342025938]
本稿では,超高解像度UAV画像の高効率・高効率セグメンテーションを実現するための複雑な課題について検討する。
本稿では、ローカルパッチ以外のコンテキストにアクセスすることなく、ローカル推論のためのGPUメモリ効率が高く効果的なフレームワークを提案する。
基礎となる高解像度情報の潜在的な意味バイアスを補正するために,効率的なメモリベースインタラクション方式を提案する。
論文 参考訳(メタデータ) (2023-10-07T07:44:59Z) - Joint Modeling of Feature, Correspondence, and a Compressed Memory for Video Object Segmentation [47.7036344302777]
現在のオブジェクトビデオ参照メソッドは、抽出-then-matchingのパイプラインに従う。
本稿では,共同機能モデリング,対応,圧縮メモリのための統合VOSフレームワークであるJointFormerを提案する。
論文 参考訳(メタデータ) (2023-08-25T17:30:08Z) - Holistic Prototype Attention Network for Few-Shot VOS [74.25124421163542]
FSVOS(Few-shot Video Object segmentation)は、少数のサポートイメージに頼って、目に見えないクラスの動的オブジェクトをセグメントすることを目的としている。
本稿では,FSVOS を前進させるための総合プロトタイプアテンションネットワーク (HPAN) を提案する。
論文 参考訳(メタデータ) (2023-07-16T03:48:57Z) - Unsupervised Video Object Segmentation via Prototype Memory Network [5.612292166628669]
教師なしビデオオブジェクトセグメンテーションは、初期フレームに接地真実マスクなしで、対象オブジェクトをビデオにセグメントすることを目的としている。
この課題は、ビデオシーケンス内で最も有能な共通オブジェクトの機能を抽出することである。
本稿では,この問題を解決するために,新しいメモリネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-09-08T11:08:58Z) - In-N-Out Generative Learning for Dense Unsupervised Video Segmentation [89.21483504654282]
本稿では,ラベルなしビデオから視覚的対応を学習する,教師なしビデオオブジェクト(VOS)タスクに焦点を当てる。
In-aNd-Out(INO)生成学習を純粋に生成的観点から提案する。
我々のINOは、最先端の手法をかなりのマージンで上回っている。
論文 参考訳(メタデータ) (2022-03-29T07:56:21Z) - MUNet: Motion Uncertainty-aware Semi-supervised Video Object
Segmentation [31.100954335785026]
本稿では,映像オブジェクトの半教師付きセグメンテーションのための動作不確実性認識フレームワーク(MUNet)を提案する。
動作特徴と意味的特徴を効果的に融合する動き認識型空間アテンションモジュールを提案する。
トレーニングにDAVIS17のみを使用する$76.5%の$mathcalJとmathcalF$は、低データプロトコル下でのtextitSOTAメソッドよりも大幅に優れています。
論文 参考訳(メタデータ) (2021-11-29T16:01:28Z) - Rethinking Space-Time Networks with Improved Memory Coverage for
Efficient Video Object Segmentation [68.45737688496654]
各オブジェクトのマスク特徴を再エンコードすることなく,フレーム間の直接対応性を確立する。
対応によって、現在のクエリフレーム内の全てのノードは、過去の特徴を連想的に集約することによって推測される。
すべてのメモリノードにコントリビュートする機会があることを検証し、そのような多彩な投票がメモリ効率と推論精度の両方に有益であることを示した。
論文 参考訳(メタデータ) (2021-06-09T16:50:57Z) - Video Object Segmentation with Episodic Graph Memory Networks [198.74780033475724]
セグメント化モデルを更新する学習」という新しいアイデアに対処するために,グラフメモリネットワークが開発された。
我々は、完全に連結されたグラフとして構成されたエピソードメモリネットワークを利用して、フレームをノードとして保存し、エッジによってフレーム間の相関をキャプチャする。
提案したグラフメモリネットワークは、一発とゼロショットの両方のビデオオブジェクトセグメンテーションタスクをうまく一般化できる、巧妙だが原則化されたフレームワークを提供する。
論文 参考訳(メタデータ) (2020-07-14T13:19:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。