論文の概要: Intrinsic Saliency Guided Trunk-Collateral Network for Unsupervised Video Object Segmentation
- arxiv url: http://arxiv.org/abs/2504.05904v1
- Date: Tue, 08 Apr 2025 11:02:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-09 13:30:56.290545
- Title: Intrinsic Saliency Guided Trunk-Collateral Network for Unsupervised Video Object Segmentation
- Title(参考訳): トラクコラテラルネットワークを用いた教師なしビデオオブジェクトセグメンテーション
- Authors: Xiangyu Zheng, Wanyun Li, Songcheng He, Xiaoqiang Li, We Zhang,
- Abstract要約: 本稿では,動きの出現関係のバランスを良くし,モデル固有の相性情報を組み込んでセグメンテーション性能を向上させるISTC-Netを提案する。
ISTC-Netは3つのUVOSデータセットで最先端のパフォーマンスを達成した。
- 参考スコア(独自算出の注目度): 5.742190785269344
- License:
- Abstract: Recent unsupervised video object segmentation (UVOS) methods predominantly adopt the motion-appearance paradigm. Mainstream motion-appearance approaches use either the two-encoder structure to separately encode motion and appearance features, or the single-encoder structure for joint encoding. However, these methods fail to properly balance the motion-appearance relationship. Consequently, even with complex fusion modules for motion-appearance integration, the extracted suboptimal features degrade the models' overall performance. Moreover, the quality of optical flow varies across scenarios, making it insufficient to rely solely on optical flow to achieve high-quality segmentation results. To address these challenges, we propose the Intrinsic Saliency guided Trunk-Collateral Net}work (ISTC-Net), which better balances the motion-appearance relationship and incorporates model's intrinsic saliency information to enhance segmentation performance. Specifically, considering that optical flow maps are derived from RGB images, they share both commonalities and differences. We propose a novel Trunk-Collateral structure. The shared trunk backbone captures the motion-appearance commonality, while the collateral branch learns the uniqueness of motion features. Furthermore, an Intrinsic Saliency guided Refinement Module (ISRM) is devised to efficiently leverage the model's intrinsic saliency information to refine high-level features, and provide pixel-level guidance for motion-appearance fusion, thereby enhancing performance without additional input. Experimental results show that ISTC-Net achieved state-of-the-art performance on three UVOS datasets (89.2% J&F on DAVIS-16, 76% J on YouTube-Objects, 86.4% J on FBMS) and four standard video salient object detection (VSOD) benchmarks with the notable increase, demonstrating its effectiveness and superiority over previous methods.
- Abstract(参考訳): 最近のビデオオブジェクトセグメンテーション(UVOS)手法は、主にモーション・アジェランス・パラダイムを採用している。
メインストリームの動作出現アプローチでは、2エンコーダ構造を用いて動きと外観を別々に符号化するか、ジョイントエンコーダの単一エンコーダ構造を用いる。
しかし、これらの手法は、動きと外観の関係を適切にバランスさせることができない。
結果として、モーション・アジュアンス統合のための複雑な融合モジュールであっても、抽出された準最適特徴はモデル全体の性能を低下させる。
さらに、光学フローの品質はシナリオによって異なるため、高品質なセグメンテーション結果を得るためには、光学フローのみに依存することが不十分である。
これらの課題に対処するため、本研究では、動作・出現関係のバランスを良くし、モデル固有の相性情報を組み込んでセグメンテーション性能を向上する、固有相性ガイド付き Trunk-Collateral Net}work (ISTC-Net) を提案する。
具体的には、光学フローマップがRGB画像から導出されていることを考えると、共通点と相違点の両方を共有している。
本稿では,新しいトランクコラテラル構造を提案する。
共有トランクバックボーンは、運動外観共通性をキャプチャし、傍側枝は運動特徴の特異性を学習する。
さらに、ISRM(Intrinsic Saliency Guided Refinement Module)を考案し、モデル固有の唾液情報を活用して高次特徴を洗練させ、動画像融合のための画素レベルのガイダンスを提供することにより、追加入力なしで性能を向上させる。
実験の結果、ISTC-Netは3つのUVOSデータセット(DAVIS-16では89.2% J&F、YouTube-Objectsでは76% J、FBMSでは86.4% J、VSOD)で最先端のパフォーマンスを達成した。
関連論文リスト
- Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - FODVid: Flow-guided Object Discovery in Videos [12.792602427704395]
我々は、個々の複雑さに過度に適合しないように、一般化可能なソリューションを構築することに注力する。
教師なしの環境でビデオオブジェクト(VOS)を解決するために,セグメント出力の導出に基づく新しいパイプライン(FODVid)を提案する。
論文 参考訳(メタデータ) (2023-07-10T07:55:42Z) - Improving Unsupervised Video Object Segmentation with Motion-Appearance
Synergy [52.03068246508119]
IMASは、トレーニングや推論において手動のアノテーションを使わずに、主要オブジェクトをビデオに分割する手法である。
IMASはMotion-Appearance Synergyによる改良されたUVOSを実現する。
人間のアノテーションや手作りハイパーパラム特有のメトリクスで調整された重要なハイパーパラムのチューニングにおいて、その効果を実証する。
論文 参考訳(メタデータ) (2022-12-17T06:47:30Z) - Efficient Unsupervised Video Object Segmentation Network Based on Motion
Guidance [1.5736899098702974]
本稿では,モーションガイダンスに基づく映像オブジェクト分割ネットワークを提案する。
モデルは、デュアルストリームネットワーク、モーションガイダンスモジュール、マルチスケールプログレッシブフュージョンモジュールを含む。
実験により,提案手法の優れた性能が証明された。
論文 参考訳(メタデータ) (2022-11-10T06:13:23Z) - PSNet: Parallel Symmetric Network for Video Salient Object Detection [85.94443548452729]
我々は,PSNet という名前のアップ・ダウン・パラレル対称性を持つ VSOD ネットワークを提案する。
2つの並列ブランチが、ビデオの完全サリエンシ復号化を実現するために設定されている。
論文 参考訳(メタデータ) (2022-10-12T04:11:48Z) - Hierarchical Feature Alignment Network for Unsupervised Video Object
Segmentation [99.70336991366403]
外観・動作特徴アライメントのための簡潔で実用的で効率的なアーキテクチャを提案する。
提案されたHFANはDAVIS-16の最先端性能に到達し、88.7ドルのmathcalJ&mathcalF$Meanを達成した。
論文 参考訳(メタデータ) (2022-07-18T10:10:14Z) - Full-Duplex Strategy for Video Object Segmentation [141.43983376262815]
Full- Strategy Network (FSNet)はビデオオブジェクトセグメンテーション(VOS)のための新しいフレームワークである
我々のFSNetは、融合復号ステージの前に、クロスモーダルな機能パス(すなわち、送信と受信)を同時に実行します。
我々のFSNetは、VOSとビデオの有能なオブジェクト検出タスクの両方において、他の最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-06T14:50:50Z) - Motion-Attentive Transition for Zero-Shot Video Object Segmentation [99.44383412488703]
ゼロショットオブジェクトセグメンテーションのためのモーション・アテンタティブ・トランジション・ネットワーク(MATNet)を提案する。
モーション・アテンティブ・トランジション (MAT) と呼ばれる非対称のアテンションブロックは、2ストリームエンコーダ内に設計されている。
このように、エンコーダは深く相互に作用し、物体の動きと外観の間の密な階層的な相互作用を可能にする。
論文 参考訳(メタデータ) (2020-03-09T16:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。