論文の概要: Semantic2Graph: Graph-based Multi-modal Feature Fusion for Action
Segmentation in Videos
- arxiv url: http://arxiv.org/abs/2209.05653v4
- Date: Mon, 20 Mar 2023 00:53:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 03:22:55.917634
- Title: Semantic2Graph: Graph-based Multi-modal Feature Fusion for Action
Segmentation in Videos
- Title(参考訳): Semantic2Graph:ビデオにおけるアクションセグメンテーションのためのグラフベースのマルチモーダル機能融合
- Authors: Junbin Zhang, Pei-Hsuan Tsai and Meng-Hsun Tsai
- Abstract要約: 本稿では,Semantic2Graphというグラフベースの手法を用いて,映像動作のセグメンテーションと認識問題をグラフのノード分類に変換する。
フレームレベルでビデオのグラフ構造を構築し,時間的,意味的,自己ループの3種類のエッジを設計する。
本稿では,Semantic2GraphがGTEAと50Saladsの改善を実現していることを示す。
- 参考スコア(独自算出の注目度): 1.227734309612871
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video action segmentation and recognition tasks have been widely applied in
many fields. Most previous studies employ large-scale, high computational
visual models to understand videos comprehensively. However, few studies
directly employ the graph model to reason about the video. The graph model
provides the benefits of fewer parameters, low computational cost, a large
receptive field, and flexible neighborhood message aggregation. In this paper,
we present a graph-based method named Semantic2Graph, to turn the video action
segmentation and recognition problem into node classification of graphs. To
preserve fine-grained relations in videos, we construct the graph structure of
videos at the frame-level and design three types of edges: temporal, semantic,
and self-loop. We combine visual, structural, and semantic features as node
attributes. Semantic edges are used to model long-term spatio-temporal
relations, while the semantic features are the embedding of the label-text
based on the textual prompt. A Graph Neural Networks (GNNs) model is used to
learn multi-modal feature fusion. Experimental results show that Semantic2Graph
achieves improvement on GTEA and 50Salads, compared to the state-of-the-art
results. Multiple ablation experiments further confirm the effectiveness of
semantic features in improving model performance, and semantic edges enable
Semantic2Graph to capture long-term dependencies at a low cost.
- Abstract(参考訳): ビデオアクションのセグメンテーションと認識タスクは多くの分野に広く応用されている。
これまでの研究のほとんどは、ビデオを総合的に理解するために、大規模で高い計算能力を持つビジュアルモデルを使っている。
しかし、ビデオの推論にグラフモデルを直接利用する研究はほとんどない。
グラフモデルは、パラメータが少なく、計算コストが低く、大きな受容フィールドがあり、フレキシブルな近隣メッセージアグリゲーションの利点を提供する。
本稿では,映像動作のセグメンテーションと認識問題をグラフのノード分類に変換する,semantic2graphというグラフベース手法を提案する。
映像におけるきめ細かい関係を保つため,映像のグラフ構造をフレームレベルで構築し,時間的,意味的,自己ループの3種類のエッジを設計する。
視覚的、構造的、セマンティックな機能をノード属性として組み合わせます。
意味的エッジは長期時空間関係をモデル化するために使用され、セマンティックな特徴はテキストプロンプトに基づくラベルテキストの埋め込みである。
グラフニューラルネットワーク(gnns)モデルは、マルチモーダル特徴融合を学ぶために使用される。
実験の結果,Semantic2GraphはGTEAと50Saladsの改善を実現していることがわかった。
複数のアブレーション実験により、モデルパフォーマンスを改善するためのセマンティック機能の有効性がさらに確認され、セマンティック2Graphは長期的依存関係を低コストで取得することができる。
関連論文リスト
- Multi-Scene Generalized Trajectory Global Graph Solver with Composite
Nodes for Multiple Object Tracking [61.69892497726235]
複合ノードメッセージパッシングネットワーク(CoNo-Link)は、超長いフレーム情報を関連付けるためのフレームワークである。
オブジェクトをノードとして扱う従来の方法に加えて、このネットワークは情報インタラクションのためのノードとしてオブジェクトトラジェクトリを革新的に扱う。
我々のモデルは、合成ノードを追加することで、より長い時間スケールでより良い予測を学習することができる。
論文 参考訳(メタデータ) (2023-12-14T14:00:30Z) - Multi-Task Edge Prediction in Temporally-Dynamic Video Graphs [16.121140184388786]
MTD-GNNは,複数種類の関係に対して時間動的エッジを予測するグラフネットワークである。
時間-動的グラフネットワークにおける複数の関係をモデル化することは相互に有益であることを示す。
論文 参考訳(メタデータ) (2022-12-06T10:41:00Z) - MGNNI: Multiscale Graph Neural Networks with Implicit Layers [53.75421430520501]
暗黙グラフニューラルネットワーク(GNN)は、基礎となるグラフの長距離依存性をキャプチャするために提案されている。
暗黙的GNNの2つの弱点は、長距離依存を捉えるための限られた有効範囲による制約付き表現性と、複数の解像度でグラフ上のマルチスケール情報をキャプチャする能力の欠如である。
グラフ上のマルチスケール構造をモデル化できる暗黙の層(MGNNI)を持つマルチスケールグラフニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2022-10-15T18:18:55Z) - Dynamic Graph Message Passing Networks for Visual Recognition [112.49513303433606]
長距離依存のモデリングは、コンピュータビジョンにおけるシーン理解タスクに不可欠である。
完全連結グラフはそのようなモデリングには有益であるが、計算オーバーヘッドは禁じられている。
本稿では,計算複雑性を大幅に低減する動的グラフメッセージパッシングネットワークを提案する。
論文 参考訳(メタデータ) (2022-09-20T14:41:37Z) - Adaptive graph convolutional networks for weakly supervised anomaly
detection in videos [42.3118758940767]
本稿では,映像セグメント間のコンテキスト関係をモデル化するために,弱教師付き適応グラフ畳み込みネットワーク(WAGCN)を提案する。
各セグメントの異常確率スコアを生成する際に、他のビデオセグメントが現在のセグメントに与える影響を十分に検討する。
論文 参考訳(メタデータ) (2022-02-14T06:31:34Z) - TCGL: Temporal Contrastive Graph for Self-supervised Video
Representation Learning [79.77010271213695]
本稿では,TCGL(Temporal Contrastive Graph Learning)という,ビデオの自己教師型学習フレームワークを提案する。
TCGLは、フレームとスニペットの順序に関する以前の知識をグラフ構造、すなわち、インター/インタースニペットの時間トラストグラフ(TCG)に統合します。
ラベルなしビデオの監視信号を生成するために,適応スニペット順序予測(ASOP)モジュールを導入する。
論文 参考訳(メタデータ) (2021-12-07T09:27:56Z) - Unified Graph Structured Models for Video Understanding [93.72081456202672]
リレーショナル・テンポラル関係を明示的にモデル化するメッセージパッシンググラフニューラルネットワークを提案する。
本手法は,シーン内の関連エンティティ間の関係をより効果的にモデル化できることを示す。
論文 参考訳(メタデータ) (2021-03-29T14:37:35Z) - Temporal Relational Modeling with Self-Supervision for Action
Segmentation [38.62057004624234]
ビデオの時間関係をモデル化するための拡張時間グラフ推論モジュール(DTGRM)を紹介します。
特に,多レベル拡張時間グラフの構築により時間関係を捉え,モデル化する。
私たちのモデルは3つの挑戦的なデータセットで最先端のアクションセグメンテーションモデルよりも優れています。
論文 参考訳(メタデータ) (2020-12-14T13:41:28Z) - Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。
画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。
特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文 参考訳(メタデータ) (2020-12-09T12:40:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。