論文の概要: Zero-Shot Video Object Segmentation via Attentive Graph Neural Networks
- arxiv url: http://arxiv.org/abs/2001.06807v1
- Date: Sun, 19 Jan 2020 10:45:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-08 12:39:13.979841
- Title: Zero-Shot Video Object Segmentation via Attentive Graph Neural Networks
- Title(参考訳): 注意グラフニューラルネットワークによるゼロショットビデオオブジェクトセグメンテーション
- Authors: Wenguan Wang, Xiankai Lu, Jianbing Shen, David Crandall, and Ling Shao
- Abstract要約: 本研究は、ゼロショットビデオオブジェクトセグメンテーション(ZVOS)のための新しい注意グラフニューラルネットワーク(AGNN)を提案する。
AGNNは、フレームをノードとして効率的に表現し、任意のフレームペア間の関係をエッジとして表現するために、完全に連結されたグラフを構築している。
3つのビデオセグメンテーションデータセットの実験結果は、AGNNがそれぞれのケースに新しい最先端を設定していることを示している。
- 参考スコア(独自算出の注目度): 150.5425122989146
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work proposes a novel attentive graph neural network (AGNN) for
zero-shot video object segmentation (ZVOS). The suggested AGNN recasts this
task as a process of iterative information fusion over video graphs.
Specifically, AGNN builds a fully connected graph to efficiently represent
frames as nodes, and relations between arbitrary frame pairs as edges. The
underlying pair-wise relations are described by a differentiable attention
mechanism. Through parametric message passing, AGNN is able to efficiently
capture and mine much richer and higher-order relations between video frames,
thus enabling a more complete understanding of video content and more accurate
foreground estimation. Experimental results on three video segmentation
datasets show that AGNN sets a new state-of-the-art in each case. To further
demonstrate the generalizability of our framework, we extend AGNN to an
additional task: image object co-segmentation (IOCS). We perform experiments on
two famous IOCS datasets and observe again the superiority of our AGNN model.
The extensive experiments verify that AGNN is able to learn the underlying
semantic/appearance relationships among video frames or related images, and
discover the common objects.
- Abstract(参考訳): 本研究では、ゼロショットビデオオブジェクトセグメンテーション(ZVOS)のための新しい注意グラフニューラルネットワーク(AGNN)を提案する。
提案されたAGNNは、このタスクをビデオグラフ上で反復的な情報融合のプロセスとして再放送する。
特にAGNNは、フレームをノードとして効率的に表現し、任意のフレームペア間の関係をエッジとして、完全に連結されたグラフを構築している。
基礎となる対関係は微分可能な注意機構によって記述される。
パラメトリックメッセージパッシングにより、AGNNはビデオフレーム間のよりリッチで高次な関係を効果的に捉え、マイニングすることができ、それによってビデオ内容のより完全な理解とより正確なフォアグラウンド推定が可能になる。
3つのビデオセグメンテーションデータセットの実験結果は、agnnがそれぞれのケースで新しい最先端を設定することを示している。
我々は、このフレームワークの一般化可能性をさらに示すために、AGNNを次のタスクに拡張する: Image Object Co-segmentation (IOCS)。
我々は2つのIOCSデータセットで実験を行い、AGNNモデルの優越性を再び観察する。
広範な実験により、AGNNはビデオフレームや関連画像間のセマンティック/出現関係を学習し、共通のオブジェクトを発見することができる。
関連論文リスト
- VideoSAGE: Video Summarization with Graph Representation Learning [9.21019970479227]
本稿では,映像要約のためのグラフベース表現学習フレームワークを提案する。
この方法で構築されたグラフは、ビデオフレーム間の長距離インタラクションをキャプチャすることを目的としている。
論文 参考訳(メタデータ) (2024-04-14T15:49:02Z) - Multi-Scene Generalized Trajectory Global Graph Solver with Composite
Nodes for Multiple Object Tracking [61.69892497726235]
複合ノードメッセージパッシングネットワーク(CoNo-Link)は、超長いフレーム情報を関連付けるためのフレームワークである。
オブジェクトをノードとして扱う従来の方法に加えて、このネットワークは情報インタラクションのためのノードとしてオブジェクトトラジェクトリを革新的に扱う。
我々のモデルは、合成ノードを追加することで、より長い時間スケールでより良い予測を学習することができる。
論文 参考訳(メタデータ) (2023-12-14T14:00:30Z) - Semantic Scene Graph Generation Based on an Edge Dual Scene Graph and
Message Passing Neural Network [3.9280441311534653]
シーングラフ生成(SGG)は、画像内のオブジェクト間の関係をキャプチャし、構造化グラフベースの表現を生成する。
既存のSGG法は、詳細な関係を正確に予測する能力に制限がある。
本稿では,エッジデュアルシーングラフ生成(EdgeSGG)と呼ばれるマルチオブジェクト関係のモデリング手法を提案する。
論文 参考訳(メタデータ) (2023-11-02T12:36:52Z) - STAR-GNN: Spatial-Temporal Video Representation for Content-based
Retrieval [39.50179338831056]
本稿ではSTAR-GNNというビデオ特徴表現学習フレームワークを提案する。
プラグイン可能なグラフニューラルネットワークコンポーネントをマルチスケールの格子特徴グラフに適用する。
本稿では,STAR-GNNがビデオフレームシーケンスに動的アテンション機構を効果的に実装していることを示す。
論文 参考訳(メタデータ) (2022-08-15T01:47:50Z) - End-to-end video instance segmentation via spatial-temporal graph neural
networks [30.748756362692184]
ビデオインスタンスセグメンテーションは、イメージインスタンスセグメンテーションをビデオドメインに拡張する難しいタスクである。
既存のメソッドは、検出とセグメンテーションのサブプロブレムにのみシングルフレーム情報に依存するか、別の後処理ステップとしてハンドラートラッキングを使用する。
上述の制限に対処するグラフニューラルネット(GNN)に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2022-03-07T05:38:08Z) - Relation Regularized Scene Graph Generation [206.76762860019065]
SGG(Scene Graph Generation)は、検出されたオブジェクトの上に構築され、オブジェクトのペアの視覚的関係を予測する。
本稿では,2つのオブジェクト間の関係を予測できる関係正規化ネットワーク(R2-Net)を提案する。
我々のR2-Netはオブジェクトラベルを効果的に洗練し、シーングラフを生成する。
論文 参考訳(メタデータ) (2022-02-22T11:36:49Z) - Representing Videos as Discriminative Sub-graphs for Action Recognition [165.54738402505194]
ビデオ中の各アクションの識別パターンを表現およびエンコードするためのサブグラフの新たな設計を提案する。
時空グラフとクラスタを各スケールでコンパクトなサブグラフに新たに構築するMUlti-scale Sub-Earn Ling (MUSLE) フレームワークを提案する。
論文 参考訳(メタデータ) (2022-01-11T16:15:25Z) - Target Adaptive Context Aggregation for Video Scene Graph Generation [36.669700084337045]
本稿では,映像シーングラフ生成(VidSGG)の課題を扱う。
複雑な低レベルエンティティ追跡から関係予測のためのコンテキストモデリングを分離することにより,この課題に対する新しい Em 検出-追跡パラダイムを提案する。
論文 参考訳(メタデータ) (2021-08-18T12:46:28Z) - Visual Relationship Forecasting in Videos [56.122037294234865]
本稿では,視覚関係予測(Visual Relation Forecasting:VRF)というタスクをビデオに提示する。
Hフレームと対象オブジェクトのペアを与えられたVRFは、視覚的な証拠なしに次のTフレームに対する将来の相互作用を予測することを目的としている。
VRFタスクを評価するために,VRF-AGとVRF-VidORという2つのビデオデータセットを導入する。
論文 参考訳(メタデータ) (2021-07-02T16:43:19Z) - SumGraph: Video Summarization via Recursive Graph Modeling [59.01856443537622]
本稿では、関係グラフを表すために、SumGraphと呼ばれるビデオ要約のためのグラフモデリングネットワークを提案する。
教師なしと教師なしの両方の方法で、映像要約のためのいくつかのベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-07-17T08:11:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。