論文の概要: SumGraph: Video Summarization via Recursive Graph Modeling
- arxiv url: http://arxiv.org/abs/2007.08809v1
- Date: Fri, 17 Jul 2020 08:11:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-09 14:07:13.519325
- Title: SumGraph: Video Summarization via Recursive Graph Modeling
- Title(参考訳): SumGraph: 再帰グラフモデリングによるビデオ要約
- Authors: Jungin Park, Jiyoung Lee, Ig-Jae Kim, and Kwanghoon Sohn
- Abstract要約: 本稿では、関係グラフを表すために、SumGraphと呼ばれるビデオ要約のためのグラフモデリングネットワークを提案する。
教師なしと教師なしの両方の方法で、映像要約のためのいくつかのベンチマークで最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 59.01856443537622
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The goal of video summarization is to select keyframes that are visually
diverse and can represent a whole story of an input video. State-of-the-art
approaches for video summarization have mostly regarded the task as a
frame-wise keyframe selection problem by aggregating all frames with equal
weight. However, to find informative parts of the video, it is necessary to
consider how all the frames of the video are related to each other. To this
end, we cast video summarization as a graph modeling problem. We propose
recursive graph modeling networks for video summarization, termed SumGraph, to
represent a relation graph, where frames are regarded as nodes and nodes are
connected by semantic relationships among frames. Our networks accomplish this
through a recursive approach to refine an initially estimated graph to
correctly classify each node as a keyframe by reasoning the graph
representation via graph convolutional networks. To leverage SumGraph in a more
practical environment, we also present a way to adapt our graph modeling in an
unsupervised fashion. With SumGraph, we achieved state-of-the-art performance
on several benchmarks for video summarization in both supervised and
unsupervised manners.
- Abstract(参考訳): ビデオ要約の目標は、視覚的に多様なキーフレームを選択し、入力ビデオの全ストーリーを表現することである。
映像要約における最先端のアプローチは、このタスクを全フレームを等重量で集約することで、フレーム単位のキーフレーム選択問題と見なしている。
しかし,映像の情報的部分を見つけるためには,映像のフレームが相互にどのように関連しているかを考える必要がある。
そこで我々は,映像要約をグラフモデリング問題として検討した。
本稿では,ビデオ要約のための再帰的グラフモデリングネットワークであるsumgraphを提案し,フレームをノードとして,ノードをフレーム間の意味的関係で接続する関係グラフを表現する。
我々のネットワークは、グラフ畳み込みネットワークを介してグラフ表現を推論することにより、各ノードをキーフレームとして正しく分類するために、初期推定グラフを洗練するための再帰的アプローチによってこれを達成する。
SumGraphをより実践的な環境で活用するために、教師なしの方法でグラフモデリングを適用する方法も提示する。
sumgraphでは,教師なしと教師なしの両方の方法で,ビデオ要約のためのベンチマークで最先端のパフォーマンスを達成しました。
関連論文リスト
- VideoSAGE: Video Summarization with Graph Representation Learning [9.21019970479227]
本稿では,映像要約のためのグラフベース表現学習フレームワークを提案する。
この方法で構築されたグラフは、ビデオフレーム間の長距離インタラクションをキャプチャすることを目的としている。
論文 参考訳(メタデータ) (2024-04-14T15:49:02Z) - Multi-Granularity Graph Pooling for Video-based Person Re-Identification [14.943835935921296]
ビデオサンプルの時間的特徴と空間的特徴を集約するためにグラフニューラルネットワーク(GNN)が導入された。
STGCNのような既存のグラフベースのモデルは、グラフ表現を得るためにノード機能でtextitmean/textitmaxプールを実行する。
ビデオ検索のための多粒度グラフ表現を学習するためのグラフプーリングネットワーク(GPNet)を提案する。
論文 参考訳(メタデータ) (2022-09-23T13:26:05Z) - Edge but not Least: Cross-View Graph Pooling [76.71497833616024]
本稿では,重要なグラフ構造情報を活用するために,クロスビューグラフプーリング(Co-Pooling)手法を提案する。
クロスビュー相互作用、エッジビュープーリング、ノードビュープーリングにより、相互にシームレスに強化され、より情報的なグラフレベルの表現が学習される。
論文 参考訳(メタデータ) (2021-09-24T08:01:23Z) - Reconstructive Sequence-Graph Network for Video Summarization [107.0328985865372]
キーショットベースのビデオ要約には,インナーショットとインショット間の依存関係の活用が不可欠だ。
フレームとショットをシーケンスおよびグラフ階層としてエンコードする再構成シーケンスグラフネットワーク(RSGN)を提案する。
リコンストラクタを開発し、サマリージェネレータに報奨を与えることにより、ジェネレータを教師なしの方法で最適化することができる。
論文 参考訳(メタデータ) (2021-05-10T01:47:55Z) - Accurate Learning of Graph Representations with Graph Multiset Pooling [45.72542969364438]
本稿では,その構造的依存関係に応じてノード間の相互作用をキャプチャするグラフマルチセットトランス (GMT) を提案する。
実験の結果,GMTはグラフ分類ベンチマークにおいて,最先端のグラフプーリング法を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-02-23T07:45:58Z) - Multilevel Graph Matching Networks for Deep Graph Similarity Learning [79.3213351477689]
グラフ構造オブジェクト間のグラフ類似性を計算するためのマルチレベルグラフマッチングネットワーク(MGMN)フレームワークを提案する。
標準ベンチマークデータセットの欠如を補うため、グラフグラフ分類とグラフグラフ回帰タスクの両方のためのデータセットセットを作成し、収集した。
総合的な実験により、MGMNはグラフグラフ分類とグラフグラフ回帰タスクの両方において、最先端のベースラインモデルより一貫して優れていることが示された。
論文 参考訳(メタデータ) (2020-07-08T19:48:19Z) - Comprehensive Information Integration Modeling Framework for Video
Titling [124.11296128308396]
エンド・ツー・エンド・エンド・モデリング・フレームワークにおいて、消費者生成ビデオの内容、消費者から提供される物語コメント文、製品属性などの包括的情報ソースを統合する。
この問題に対処するため,提案手法は,粒度レベルの相互作用モデリングと抽象レベルのストーリーライン要約という2つのプロセスから構成される。
グローバルなeコマースプラットフォームであるTaobaoの実際のデータから、大規模なデータセットを収集します。
論文 参考訳(メタデータ) (2020-06-24T10:38:15Z) - Zero-Shot Video Object Segmentation via Attentive Graph Neural Networks [150.5425122989146]
本研究は、ゼロショットビデオオブジェクトセグメンテーション(ZVOS)のための新しい注意グラフニューラルネットワーク(AGNN)を提案する。
AGNNは、フレームをノードとして効率的に表現し、任意のフレームペア間の関係をエッジとして表現するために、完全に連結されたグラフを構築している。
3つのビデオセグメンテーションデータセットの実験結果は、AGNNがそれぞれのケースに新しい最先端を設定していることを示している。
論文 参考訳(メタデータ) (2020-01-19T10:45:27Z) - Cut-Based Graph Learning Networks to Discover Compositional Structure of
Sequential Video Data [29.841574293529796]
ビデオの複雑な構造を発見することによって,映像データを学習するためのカットベースグラフ学習ネットワーク(CB-GLN)を提案する。
CB-GLNはビデオデータをグラフとして表現し、ビデオのフレームとそれらの依存関係に対応するノードとエッジを持つ。
ビデオテーマ分類(Youtube-8Mデータセット)とビデオ質問・回答(TVQAデータセット)の2つの異なる課題について,提案手法の評価を行った。
論文 参考訳(メタデータ) (2020-01-17T10:09:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。