論文の概要: VideoSAGE: Video Summarization with Graph Representation Learning
- arxiv url: http://arxiv.org/abs/2404.10539v1
- Date: Sun, 14 Apr 2024 15:49:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-17 16:53:59.414773
- Title: VideoSAGE: Video Summarization with Graph Representation Learning
- Title(参考訳): VideoSAGE: グラフ表現学習によるビデオ要約
- Authors: Jose M. Rojas Chaves, Subarna Tripathi,
- Abstract要約: 本稿では,映像要約のためのグラフベース表現学習フレームワークを提案する。
この方法で構築されたグラフは、ビデオフレーム間の長距離インタラクションをキャプチャすることを目的としている。
- 参考スコア(独自算出の注目度): 9.21019970479227
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a graph-based representation learning framework for video summarization. First, we convert an input video to a graph where nodes correspond to each of the video frames. Then, we impose sparsity on the graph by connecting only those pairs of nodes that are within a specified temporal distance. We then formulate the video summarization task as a binary node classification problem, precisely classifying video frames whether they should belong to the output summary video. A graph constructed this way aims to capture long-range interactions among video frames, and the sparsity ensures the model trains without hitting the memory and compute bottleneck. Experiments on two datasets(SumMe and TVSum) demonstrate the effectiveness of the proposed nimble model compared to existing state-of-the-art summarization approaches while being one order of magnitude more efficient in compute time and memory
- Abstract(参考訳): 本稿では,映像要約のためのグラフベース表現学習フレームワークを提案する。
まず,各映像フレームに対応するノードのグラフに入力映像を変換する。
そして、指定された時間的距離内にあるこれらの一対のノードのみを接続することで、グラフに空間性を課す。
次に、映像要約タスクをバイナリノード分類問題として定式化し、出力要約ビデオに属するか否かを正確に分類する。
この方法で構築されたグラフは、ビデオフレーム間の長距離インタラクションをキャプチャすることを目的としている。
2つのデータセット(SumMeとTVSum)の実験は、既存の最先端の要約手法と比較して、計算時間とメモリにおいて1桁効率が良い一方で、提案したニブルモデルの有効性を実証している。
関連論文リスト
- Memory Efficient Temporal & Visual Graph Model for Unsupervised Video
Domain Adaptation [50.158454960223274]
既存のビデオドメイン適応(DA)手法は、ビデオフレームの時間的組み合わせを全て格納するか、ソースとターゲットのビデオをペアにする必要がある。
本稿では,メモリ効率の高いグラフベースビデオDA手法を提案する。
論文 参考訳(メタデータ) (2022-08-13T02:56:10Z) - GraphVid: It Only Takes a Few Nodes to Understand a Video [0.0]
視覚的に意味のある特徴をグラフにエンコードするビデオの簡潔な表現を提案する。
我々は,スーパーピクセルをグラフノードとして考慮し,ビデオのスーパーピクセルベースグラフ表現を構築した。
グラフ畳み込みネットワークを利用して、この表現を処理し、所望の出力を予測する。
論文 参考訳(メタデータ) (2022-07-04T12:52:54Z) - CGMN: A Contrastive Graph Matching Network for Self-Supervised Graph
Similarity Learning [65.1042892570989]
自己教師付きグラフ類似性学習のためのコントラストグラフマッチングネットワーク(CGMN)を提案する。
我々は,効率的なノード表現学習のために,クロスビューインタラクションとクロスグラフインタラクションという2つの戦略を用いる。
我々はノード表現をグラフ類似性計算のためのプール演算によりグラフレベル表現に変換する。
論文 参考訳(メタデータ) (2022-05-30T13:20:26Z) - Line Graph Neural Networks for Link Prediction [71.00689542259052]
実世界の多くのアプリケーションにおいて古典的なグラフ解析問題であるグラフリンク予測タスクについて検討する。
このフォーマリズムでは、リンク予測問題をグラフ分類タスクに変換する。
本稿では,線グラフをグラフ理論に用いて,根本的に異なる新しい経路を求めることを提案する。
特に、線グラフの各ノードは、元のグラフのユニークなエッジに対応するため、元のグラフのリンク予測問題は、グラフ分類タスクではなく、対応する線グラフのノード分類問題として等価に解決できる。
論文 参考訳(メタデータ) (2020-10-20T05:54:31Z) - Location-aware Graph Convolutional Networks for Video Question Answering [85.44666165818484]
そこで本研究では,ビデオ中のコンテンツを位置認識グラフとして表現することを提案する。
構築したグラフに基づいて,動作のカテゴリと時間的位置の両方を推測するためにグラフ畳み込みを提案する。
提案手法は,TGIF-QA,Youtube2Text-QA,MSVD-QAデータセットにおいて,最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2020-08-07T02:12:56Z) - Graph Neural Network for Video Relocalization [16.67309677191578]
ビデオ再ローカライゼーションデータセットには、フレームによる特徴類似性とビデオによる特徴類似性との間に一貫した関係が存在しない現象が存在する。
本稿では,この現象を考慮に入れ,検索ビデオ機能と提案ビデオ機能とを時間次元に沿って結合することにより,映像特徴をグラフとして扱う。
グラフニューラルネットワークのパワーを用いて,このグラフの関係性を融合させるマルチグラフ特徴融合モジュールを提案する。
論文 参考訳(メタデータ) (2020-07-20T04:01:40Z) - SumGraph: Video Summarization via Recursive Graph Modeling [59.01856443537622]
本稿では、関係グラフを表すために、SumGraphと呼ばれるビデオ要約のためのグラフモデリングネットワークを提案する。
教師なしと教師なしの両方の方法で、映像要約のためのいくつかのベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-07-17T08:11:30Z) - Zero-Shot Video Object Segmentation via Attentive Graph Neural Networks [150.5425122989146]
本研究は、ゼロショットビデオオブジェクトセグメンテーション(ZVOS)のための新しい注意グラフニューラルネットワーク(AGNN)を提案する。
AGNNは、フレームをノードとして効率的に表現し、任意のフレームペア間の関係をエッジとして表現するために、完全に連結されたグラフを構築している。
3つのビデオセグメンテーションデータセットの実験結果は、AGNNがそれぞれのケースに新しい最先端を設定していることを示している。
論文 参考訳(メタデータ) (2020-01-19T10:45:27Z) - Cut-Based Graph Learning Networks to Discover Compositional Structure of
Sequential Video Data [29.841574293529796]
ビデオの複雑な構造を発見することによって,映像データを学習するためのカットベースグラフ学習ネットワーク(CB-GLN)を提案する。
CB-GLNはビデオデータをグラフとして表現し、ビデオのフレームとそれらの依存関係に対応するノードとエッジを持つ。
ビデオテーマ分類(Youtube-8Mデータセット)とビデオ質問・回答(TVQAデータセット)の2つの異なる課題について,提案手法の評価を行った。
論文 参考訳(メタデータ) (2020-01-17T10:09:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。