論文の概要: Cut-Based Graph Learning Networks to Discover Compositional Structure of
Sequential Video Data
- arxiv url: http://arxiv.org/abs/2001.07613v1
- Date: Fri, 17 Jan 2020 10:09:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-10 09:50:11.706019
- Title: Cut-Based Graph Learning Networks to Discover Compositional Structure of
Sequential Video Data
- Title(参考訳): 逐次映像データの構成構造を探索するカット型グラフ学習ネットワーク
- Authors: Kyoung-Woon On, Eun-Sol Kim, Yu-Jung Heo and Byoung-Tak Zhang
- Abstract要約: ビデオの複雑な構造を発見することによって,映像データを学習するためのカットベースグラフ学習ネットワーク(CB-GLN)を提案する。
CB-GLNはビデオデータをグラフとして表現し、ビデオのフレームとそれらの依存関係に対応するノードとエッジを持つ。
ビデオテーマ分類(Youtube-8Mデータセット)とビデオ質問・回答(TVQAデータセット)の2つの異なる課題について,提案手法の評価を行った。
- 参考スコア(独自算出の注目度): 29.841574293529796
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conventional sequential learning methods such as Recurrent Neural Networks
(RNNs) focus on interactions between consecutive inputs, i.e. first-order
Markovian dependency. However, most of sequential data, as seen with videos,
have complex dependency structures that imply variable-length semantic flows
and their compositions, and those are hard to be captured by conventional
methods. Here, we propose Cut-Based Graph Learning Networks (CB-GLNs) for
learning video data by discovering these complex structures of the video. The
CB-GLNs represent video data as a graph, with nodes and edges corresponding to
frames of the video and their dependencies respectively. The CB-GLNs find
compositional dependencies of the data in multilevel graph forms via a
parameterized kernel with graph-cut and a message passing framework. We
evaluate the proposed method on the two different tasks for video
understanding: Video theme classification (Youtube-8M dataset) and Video
Question and Answering (TVQA dataset). The experimental results show that our
model efficiently learns the semantic compositional structure of video data.
Furthermore, our model achieves the highest performance in comparison to other
baseline methods.
- Abstract(参考訳): リカレントニューラルネットワーク(RNN)のような従来の逐次学習手法は、連続的な入力間の相互作用、すなわち1次マルコフ依存に焦点を当てている。
しかし、ビデオに見られるシーケンシャルなデータのほとんどは、可変長のセマンティックフローとその構成を暗示する複雑な依存関係構造を持ち、従来の方法では捉えにくい。
本稿では,ビデオの複雑な構造を発見することによって,映像データを学習するためのカットベースグラフ学習ネットワーク(CB-GLN)を提案する。
CB-GLNはビデオデータをグラフとして表現し、ビデオのフレームとそれらの依存関係に対応するノードとエッジを持つ。
CB-GLNは、グラフカットとメッセージパッシングフレームワークを備えたパラメータ化されたカーネルを介して、マルチレベルグラフ形式のデータの構成上の依存関係を見つける。
ビデオテーマ分類(Youtube-8Mデータセット)とビデオ質問・回答(TVQAデータセット)の2つの課題について,提案手法の評価を行った。
実験の結果,本モデルは映像データの意味的構成構造を効率的に学習できることがわかった。
さらに,本モデルは,他のベースライン手法と比較して高い性能を達成する。
関連論文リスト
- VideoSAGE: Video Summarization with Graph Representation Learning [9.21019970479227]
本稿では,映像要約のためのグラフベース表現学習フレームワークを提案する。
この方法で構築されたグラフは、ビデオフレーム間の長距離インタラクションをキャプチャすることを目的としている。
論文 参考訳(メタデータ) (2024-04-14T15:49:02Z) - GraphEdit: Large Language Models for Graph Structure Learning [62.618818029177355]
グラフ構造学習(GSL)は、グラフ構造データ中のノード間の固有の依存関係と相互作用をキャプチャすることに焦点を当てている。
既存のGSL法は、監督信号として明示的なグラフ構造情報に大きく依存している。
グラフ構造化データの複雑なノード関係を学習するために,大規模言語モデル(LLM)を利用したグラフ編集を提案する。
論文 参考訳(メタデータ) (2024-02-23T08:29:42Z) - Semantic2Graph: Graph-based Multi-modal Feature Fusion for Action
Segmentation in Videos [0.40778318140713216]
本研究ではSemantic2Graphというグラフ構造化手法を導入し,ビデオの長期依存性をモデル化する。
我々は,映像行動における長期的・短期的な意味的関係を捉えるために,対応するエッジ重みを伴う肯定的・否定的な意味的エッジを設計した。
論文 参考訳(メタデータ) (2022-09-13T00:01:23Z) - TCGL: Temporal Contrastive Graph for Self-supervised Video
Representation Learning [79.77010271213695]
本稿では,TCGL(Temporal Contrastive Graph Learning)という,ビデオの自己教師型学習フレームワークを提案する。
TCGLは、フレームとスニペットの順序に関する以前の知識をグラフ構造、すなわち、インター/インタースニペットの時間トラストグラフ(TCG)に統合します。
ラベルなしビデオの監視信号を生成するために,適応スニペット順序予測(ASOP)モジュールを導入する。
論文 参考訳(メタデータ) (2021-12-07T09:27:56Z) - Reconstructive Sequence-Graph Network for Video Summarization [107.0328985865372]
キーショットベースのビデオ要約には,インナーショットとインショット間の依存関係の活用が不可欠だ。
フレームとショットをシーケンスおよびグラフ階層としてエンコードする再構成シーケンスグラフネットワーク(RSGN)を提案する。
リコンストラクタを開発し、サマリージェネレータに報奨を与えることにより、ジェネレータを教師なしの方法で最適化することができる。
論文 参考訳(メタデータ) (2021-05-10T01:47:55Z) - Temporal Contrastive Graph Learning for Video Action Recognition and
Retrieval [83.56444443849679]
本研究では,動画内の時間依存性を利用して,TCGL (temporal Contrastive Graph Learning) という新たな自己監督手法を提案する。
TCGLは、スニペット間およびスニペット内時間依存性を時間表現学習のための自己監督信号として共同で評価するハイブリッドグラフコントラスト学習戦略をルーツとしています。
実験結果は、大規模アクション認識およびビデオ検索ベンチマークにおける最先端の方法よりも、TCGLの優位性を示しています。
論文 参考訳(メタデータ) (2021-01-04T08:11:39Z) - SumGraph: Video Summarization via Recursive Graph Modeling [59.01856443537622]
本稿では、関係グラフを表すために、SumGraphと呼ばれるビデオ要約のためのグラフモデリングネットワークを提案する。
教師なしと教師なしの両方の方法で、映像要約のためのいくつかのベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-07-17T08:11:30Z) - Zero-Shot Video Object Segmentation via Attentive Graph Neural Networks [150.5425122989146]
本研究は、ゼロショットビデオオブジェクトセグメンテーション(ZVOS)のための新しい注意グラフニューラルネットワーク(AGNN)を提案する。
AGNNは、フレームをノードとして効率的に表現し、任意のフレームペア間の関係をエッジとして表現するために、完全に連結されたグラフを構築している。
3つのビデオセグメンテーションデータセットの実験結果は、AGNNがそれぞれのケースに新しい最先端を設定していることを示している。
論文 参考訳(メタデータ) (2020-01-19T10:45:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。