論文の概要: Semantic2Graph: Graph-based Multi-modal Feature Fusion for Action
Segmentation in Videos
- arxiv url: http://arxiv.org/abs/2209.05653v5
- Date: Tue, 6 Feb 2024 11:12:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 21:26:33.027540
- Title: Semantic2Graph: Graph-based Multi-modal Feature Fusion for Action
Segmentation in Videos
- Title(参考訳): Semantic2Graph:ビデオにおけるアクションセグメンテーションのためのグラフベースのマルチモーダル機能融合
- Authors: Junbin Zhang, Pei-Hsuan Tsai and Meng-Hsun Tsai
- Abstract要約: 本研究ではSemantic2Graphというグラフ構造化手法を導入し,ビデオの長期依存性をモデル化する。
我々は,映像行動における長期的・短期的な意味的関係を捉えるために,対応するエッジ重みを伴う肯定的・否定的な意味的エッジを設計した。
- 参考スコア(独自算出の注目度): 0.40778318140713216
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video action segmentation have been widely applied in many fields. Most
previous studies employed video-based vision models for this purpose. However,
they often rely on a large receptive field, LSTM or Transformer methods to
capture long-term dependencies within videos, leading to significant
computational resource requirements. To address this challenge, graph-based
model was proposed. However, previous graph-based models are less accurate.
Hence, this study introduces a graph-structured approach named Semantic2Graph,
to model long-term dependencies in videos, thereby reducing computational costs
and raise the accuracy. We construct a graph structure of video at the
frame-level. Temporal edges are utilized to model the temporal relations and
action order within videos. Additionally, we have designed positive and
negative semantic edges, accompanied by corresponding edge weights, to capture
both long-term and short-term semantic relationships in video actions. Node
attributes encompass a rich set of multi-modal features extracted from video
content, graph structures, and label text, encompassing visual, structural, and
semantic cues. To synthesize this multi-modal information effectively, we
employ a graph neural network (GNN) model to fuse multi-modal features for node
action label classification. Experimental results demonstrate that
Semantic2Graph outperforms state-of-the-art methods in terms of performance,
particularly on benchmark datasets such as GTEA and 50Salads. Multiple ablation
experiments further validate the effectiveness of semantic features in
enhancing model performance. Notably, the inclusion of semantic edges in
Semantic2Graph allows for the cost-effective capture of long-term dependencies,
affirming its utility in addressing the challenges posed by computational
resource constraints in video-based vision models.
- Abstract(参考訳): ビデオアクションセグメンテーションは多くの分野で広く適用されている。
これまでの研究のほとんどは、この目的のためにビデオベースのビジョンモデルを使用していた。
しかし、ビデオ内の長期的な依存関係を捉えるために、大きな受容フィールド(lstmまたはtransformerメソッド)に依存することがしばしばあり、重要な計算資源要求に繋がる。
この課題に対処するため、グラフベースのモデルが提案された。
しかし、従来のグラフベースのモデルは正確ではない。
そこで本研究では,Semantic2Graphというグラフ構造化手法を導入し,ビデオの長期依存性をモデル化し,計算コストを低減し,精度を高める。
映像のグラフ構造をフレームレベルで構築する。
時間的エッジはビデオ内の時間的関係と行動順序をモデル化するために使用される。
さらに,ビデオ行動における長期的・短期的な意味的関係を捉えるために,対応するエッジ重みを伴う肯定的・否定的な意味的エッジを設計した。
node属性は、ビデオコンテンツ、グラフ構造、ラベルテキストから抽出された豊富なマルチモーダルな特徴を包含し、視覚的、構造的、セマンティックな手がかりを包含する。
このマルチモーダル情報を効果的に合成するために,ノード動作ラベル分類のための多モーダル特徴を融合するグラフニューラルネットワーク(GNN)モデルを用いる。
実験の結果、Semantic2Graphは、特にGTEAや50Saladsのようなベンチマークデータセットにおいて、最先端の手法よりもパフォーマンスが優れていることが示された。
複数のアブレーション実験は、モデル性能の向上における意味的特徴の有効性をさらに検証する。
特に、Semantic2Graphにセマンティックエッジを組み込むことで、ビデオベースのビジョンモデルにおける計算リソースの制約による課題に対処する上で、長期的な依存関係をコスト効率よくキャプチャすることができる。
関連論文リスト
- Multi-Scene Generalized Trajectory Global Graph Solver with Composite
Nodes for Multiple Object Tracking [61.69892497726235]
複合ノードメッセージパッシングネットワーク(CoNo-Link)は、超長いフレーム情報を関連付けるためのフレームワークである。
オブジェクトをノードとして扱う従来の方法に加えて、このネットワークは情報インタラクションのためのノードとしてオブジェクトトラジェクトリを革新的に扱う。
我々のモデルは、合成ノードを追加することで、より長い時間スケールでより良い予測を学習することができる。
論文 参考訳(メタデータ) (2023-12-14T14:00:30Z) - Multi-Task Edge Prediction in Temporally-Dynamic Video Graphs [16.121140184388786]
MTD-GNNは,複数種類の関係に対して時間動的エッジを予測するグラフネットワークである。
時間-動的グラフネットワークにおける複数の関係をモデル化することは相互に有益であることを示す。
論文 参考訳(メタデータ) (2022-12-06T10:41:00Z) - MGNNI: Multiscale Graph Neural Networks with Implicit Layers [53.75421430520501]
暗黙グラフニューラルネットワーク(GNN)は、基礎となるグラフの長距離依存性をキャプチャするために提案されている。
暗黙的GNNの2つの弱点は、長距離依存を捉えるための限られた有効範囲による制約付き表現性と、複数の解像度でグラフ上のマルチスケール情報をキャプチャする能力の欠如である。
グラフ上のマルチスケール構造をモデル化できる暗黙の層(MGNNI)を持つマルチスケールグラフニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2022-10-15T18:18:55Z) - Dynamic Graph Message Passing Networks for Visual Recognition [112.49513303433606]
長距離依存のモデリングは、コンピュータビジョンにおけるシーン理解タスクに不可欠である。
完全連結グラフはそのようなモデリングには有益であるが、計算オーバーヘッドは禁じられている。
本稿では,計算複雑性を大幅に低減する動的グラフメッセージパッシングネットワークを提案する。
論文 参考訳(メタデータ) (2022-09-20T14:41:37Z) - Adaptive graph convolutional networks for weakly supervised anomaly
detection in videos [42.3118758940767]
本稿では,映像セグメント間のコンテキスト関係をモデル化するために,弱教師付き適応グラフ畳み込みネットワーク(WAGCN)を提案する。
各セグメントの異常確率スコアを生成する際に、他のビデオセグメントが現在のセグメントに与える影響を十分に検討する。
論文 参考訳(メタデータ) (2022-02-14T06:31:34Z) - TCGL: Temporal Contrastive Graph for Self-supervised Video
Representation Learning [79.77010271213695]
本稿では,TCGL(Temporal Contrastive Graph Learning)という,ビデオの自己教師型学習フレームワークを提案する。
TCGLは、フレームとスニペットの順序に関する以前の知識をグラフ構造、すなわち、インター/インタースニペットの時間トラストグラフ(TCG)に統合します。
ラベルなしビデオの監視信号を生成するために,適応スニペット順序予測(ASOP)モジュールを導入する。
論文 参考訳(メタデータ) (2021-12-07T09:27:56Z) - Unified Graph Structured Models for Video Understanding [93.72081456202672]
リレーショナル・テンポラル関係を明示的にモデル化するメッセージパッシンググラフニューラルネットワークを提案する。
本手法は,シーン内の関連エンティティ間の関係をより効果的にモデル化できることを示す。
論文 参考訳(メタデータ) (2021-03-29T14:37:35Z) - Temporal Relational Modeling with Self-Supervision for Action
Segmentation [38.62057004624234]
ビデオの時間関係をモデル化するための拡張時間グラフ推論モジュール(DTGRM)を紹介します。
特に,多レベル拡張時間グラフの構築により時間関係を捉え,モデル化する。
私たちのモデルは3つの挑戦的なデータセットで最先端のアクションセグメンテーションモデルよりも優れています。
論文 参考訳(メタデータ) (2020-12-14T13:41:28Z) - Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。
画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。
特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文 参考訳(メタデータ) (2020-12-09T12:40:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。