論文の概要: Hierarchical Graph Pattern Understanding for Zero-Shot VOS
- arxiv url: http://arxiv.org/abs/2312.09525v1
- Date: Fri, 15 Dec 2023 04:13:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-18 17:13:38.786820
- Title: Hierarchical Graph Pattern Understanding for Zero-Shot VOS
- Title(参考訳): ゼロショットVOSのための階層グラフパターン理解
- Authors: Gensheng Pei, Fumin Shen, Yazhou Yao, Tao Chen, Xian-Sheng Hua, and
Heng-Tao Shen
- Abstract要約: 本稿では、ゼロショットビデオオブジェクトセグメンテーション(ZS-VOS)のための新しい階層型グラフニューラルネットワーク(GNN)アーキテクチャを提案する。
構造的関係を捕捉するGNNの強い能力にインスパイアされたHGPUは、運動キュー(すなわち光の流れ)を革新的に活用し、ターゲットフレームの隣人からの高次表現を強化する。
- 参考スコア(独自算出の注目度): 102.21052200245457
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The optical flow guidance strategy is ideal for obtaining motion information
of objects in the video. It is widely utilized in video segmentation tasks.
However, existing optical flow-based methods have a significant dependency on
optical flow, which results in poor performance when the optical flow
estimation fails for a particular scene. The temporal consistency provided by
the optical flow could be effectively supplemented by modeling in a structural
form. This paper proposes a new hierarchical graph neural network (GNN)
architecture, dubbed hierarchical graph pattern understanding (HGPU), for
zero-shot video object segmentation (ZS-VOS). Inspired by the strong ability of
GNNs in capturing structural relations, HGPU innovatively leverages motion cues
(\ie, optical flow) to enhance the high-order representations from the
neighbors of target frames. Specifically, a hierarchical graph pattern encoder
with message aggregation is introduced to acquire different levels of motion
and appearance features in a sequential manner. Furthermore, a decoder is
designed for hierarchically parsing and understanding the transformed
multi-modal contexts to achieve more accurate and robust results. HGPU achieves
state-of-the-art performance on four publicly available benchmarks (DAVIS-16,
YouTube-Objects, Long-Videos and DAVIS-17). Code and pre-trained model can be
found at \url{https://github.com/NUST-Machine-Intelligence-Laboratory/HGPU}.
- Abstract(参考訳): 光フロー誘導戦略は,映像中の物体の運動情報を得るのに最適である。
ビデオセグメンテーションタスクで広く利用されている。
しかし、既存の光フローベースの手法は光フローに大きく依存しており、特定のシーンで光フロー推定が失敗すると性能が低下する。
光流による時間的整合性は、構造体のモデリングによって効果的に補うことができる。
本稿では、ゼロショットビデオオブジェクトセグメンテーション(ZS-VOS)のための階層グラフパターン理解(HGPU)と呼ばれる新しい階層グラフニューラルネットワーク(GNN)アーキテクチャを提案する。
構造的関係の捕捉におけるGNNの強い能力にインスパイアされたHGPUは、ターゲットフレームの隣人からの高次表現を強化するために、革新的にモーションキュー (\ie, optical flow) を活用する。
具体的には、メッセージアグリゲーションを持つ階層グラフパターンエンコーダを導入し、異なるレベルの動作と外観特徴を逐次的に取得する。
さらにデコーダは、変換されたマルチモーダルコンテキストを階層的に解析し、理解し、より正確で堅牢な結果を得るように設計されている。
HGPUは、4つの公開ベンチマーク(DAVIS-16、YouTube-Objects、Long-Videos、DAVIS-17)で最先端のパフォーマンスを達成する。
コードと事前訓練されたモデルは、 \url{https://github.com/NUST-Machine-Intelligence-Laboratory/HGPU} で見ることができる。
関連論文リスト
- Moving Object Proposals with Deep Learned Optical Flow for Video Object
Segmentation [1.551271936792451]
我々は、移動オブジェクト提案(MOP)を得るために、ニューラルネットワークの最先端アーキテクチャを提案する。
まず、教師なし畳み込みニューラルネットワーク(UnFlow)をトレーニングし、光学的フロー推定を生成する。
次に、光学フローネットの出力を、完全に畳み込みのSegNetモデルに描画する。
論文 参考訳(メタデータ) (2024-02-14T01:13:55Z) - Pair-wise Layer Attention with Spatial Masking for Video Prediction [46.17429511620538]
Pair-wise Layer Attention (PLA) モジュールを開発した。
また,Pair-wise Layer Attention with Spatial Masking (SM-SM) フレームワークをトランスレータ予測のために提案する。
論文 参考訳(メタデータ) (2023-11-19T10:29:05Z) - GAFlow: Incorporating Gaussian Attention into Optical Flow [62.646389181507764]
我々はガウス的注意(GA)を光学フローモデルに押し込み、表現学習中に局所特性をアクセントする。
本稿では,既存の Transformer ブロックに簡単に接続可能な新しい Gaussian-Constrained Layer (GCL) を提案する。
動作解析のための新しいガウス誘導注意モジュール(GGAM)を提供する。
論文 参考訳(メタデータ) (2023-09-28T07:46:01Z) - From Hypergraph Energy Functions to Hypergraph Neural Networks [94.88564151540459]
パラメータ化されたハイパーグラフ正規化エネルギー関数の表現型族を示す。
次に、これらのエネルギーの最小化がノード埋め込みとして効果的に機能することを実証する。
提案した双レベルハイパーグラフ最適化と既存のGNNアーキテクチャを共通的に用いている。
論文 参考訳(メタデータ) (2023-06-16T04:40:59Z) - Neighbor Correspondence Matching for Flow-based Video Frame Synthesis [90.14161060260012]
フローベースフレーム合成のための近傍対応マッチング(NCM)アルゴリズムを提案する。
NCMは現在のフレームに依存しない方法で実行され、各ピクセルの時空間近傍でマルチスケールの対応を確立する。
粗いスケールのモジュールは、近隣の対応を利用して大きな動きを捉えるように設計されている。
論文 参考訳(メタデータ) (2022-07-14T09:17:00Z) - All-optical graph representation learning using integrated diffractive
photonic computing units [51.15389025760809]
フォトニックニューラルネットワークは、電子の代わりに光子を用いて脳にインスパイアされた計算を行う。
我々は、DGNN(diffractive graph neural network)と呼ばれる全光グラフ表現学習アーキテクチャを提案する。
ベンチマークデータベースを用いたノードおよびグラフレベルの分類タスクにおけるDGNN抽出機能の利用を実演し、優れた性能を実現する。
論文 参考訳(メタデータ) (2022-04-23T02:29:48Z) - Motion-aware Dynamic Graph Neural Network for Video Compressive Sensing [14.67994875448175]
ビデオスナップショットイメージング(SCI)は、2D検出器を使用してシーケンシャルなビデオフレームをキャプチャし、それらを1つの測定値に圧縮する。
既存の再建手法の多くは、長距離空間および時間的依存関係を効率的に捉えることができない。
グラフニューラルネットワーク(GNN)に基づくフレキシブルでロバストなアプローチを提案し,距離に関わらず,空間と時間における画素間の非局所的相互作用を効率的にモデル化する。
論文 参考訳(メタデータ) (2022-03-01T12:13:46Z) - A Coding Framework and Benchmark towards Low-Bitrate Video Understanding [63.05385140193666]
我々は,従来のコーデックとニューラルネットワーク(NN)の両方を活用する,従来型ニューラル混合符号化フレームワークを提案する。
このフレームワークは、動画の移動効率の良いセマンティック表現を確実に保持することで最適化される。
8つのデータセットに3つのダウンストリームタスクを備えた低ビットレートビデオ理解ベンチマークを構築し、このアプローチの顕著な優位性を実証した。
論文 参考訳(メタデータ) (2022-02-06T16:29:15Z) - FAMINet: Learning Real-time Semi-supervised Video Object Segmentation
with Steepest Optimized Optical Flow [21.45623125216448]
半教師付きビデオオブジェクトセグメンテーション(VOS)は、ビデオシーケンス内のいくつかの動くオブジェクトをセグメント化することを目的としており、これらのオブジェクトは第一フレームのアノテーションによって指定される。
光の流れは、セグメンテーションの精度を向上させるために、多くの既存の半教師付きVOS法で考慮されてきた。
本稿では,特徴抽出ネットワーク(F),外観ネットワーク(A),運動ネットワーク(M),統合ネットワーク(I)からなるFAMINetを提案する。
論文 参考訳(メタデータ) (2021-11-20T07:24:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。