論文の概要: Language-guided Recursive Spatiotemporal Graph Modeling for Video Summarization
- arxiv url: http://arxiv.org/abs/2509.05604v1
- Date: Sat, 06 Sep 2025 05:37:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.605122
- Title: Language-guided Recursive Spatiotemporal Graph Modeling for Video Summarization
- Title(参考訳): 音声要約のための言語誘導再帰時空間グラフモデリング
- Authors: Jungin Park, Jiyoung Lee, Kwanghoon Sohn,
- Abstract要約: ビデオ要約は、視覚的に多様性があり、あるビデオの全ストーリーを表すものを選択することを目的としている。
本稿では,空間グラフと時間グラフのノードとしてオブジェクトとフレームを定式化するVideoGraphを提案する。
実験では, 汎用的およびクエリリンクビデオ要約のためのいくつかのベンチマークにおいて, 最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 47.65036144170475
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video summarization aims to select keyframes that are visually diverse and can represent the whole story of a given video. Previous approaches have focused on global interlinkability between frames in a video by temporal modeling. However, fine-grained visual entities, such as objects, are also highly related to the main content of the video. Moreover, language-guided video summarization, which has recently been studied, requires a comprehensive linguistic understanding of complex real-world videos. To consider how all the objects are semantically related to each other, this paper regards video summarization as a language-guided spatiotemporal graph modeling problem. We present recursive spatiotemporal graph networks, called VideoGraph, which formulate the objects and frames as nodes of the spatial and temporal graphs, respectively. The nodes in each graph are connected and aggregated with graph edges, representing the semantic relationships between the nodes. To prevent the edges from being configured with visual similarity, we incorporate language queries derived from the video into the graph node representations, enabling them to contain semantic knowledge. In addition, we adopt a recursive strategy to refine initial graphs and correctly classify each frame node as a keyframe. In our experiments, VideoGraph achieves state-of-the-art performance on several benchmarks for generic and query-focused video summarization in both supervised and unsupervised manners. The code is available at https://github.com/park-jungin/videograph.
- Abstract(参考訳): ビデオの要約は、視覚的に多様なキーフレームを選択し、特定のビデオの全体を表現することを目的としている。
従来のアプローチでは、時間的モデリングによるビデオ内のフレーム間の大域的相互接続性に焦点が当てられていた。
しかし、オブジェクトのような細粒度の視覚的実体も、ビデオの主コンテンツと強く関連している。
さらに,近年研究されている言語誘導ビデオ要約では,複雑な実世界の映像を包括的に理解する必要がある。
本稿では,すべてのオブジェクトが意味的に相互に関連があるかを考えるため,音声要約を言語誘導時空間グラフモデリング問題とみなす。
本稿では,空間グラフと時間グラフのノードとしてオブジェクトとフレームをそれぞれ定式化する,ビデオグラフと呼ばれる再帰時空間グラフネットワークを提案する。
各グラフ内のノードは連結され、グラフエッジで集約され、ノード間のセマンティックな関係を表す。
エッジが視覚的類似性で設定されるのを防止するため、ビデオから派生した言語クエリをグラフノード表現に組み込むことで、意味的な知識を含むことができる。
さらに、初期グラフを洗練し、各フレームノードをキーフレームとして正しく分類するための再帰的戦略を採用する。
この実験では,教師なしと教師なしの両方で,汎用的および問合せに焦点を絞ったビデオ要約のためのいくつかのベンチマークにおいて,最先端のパフォーマンスを実現している。
コードはhttps://github.com/park-jungin/videographで公開されている。
関連論文リスト
- VideoSAGE: Video Summarization with Graph Representation Learning [9.21019970479227]
本稿では,映像要約のためのグラフベース表現学習フレームワークを提案する。
この方法で構築されたグラフは、ビデオフレーム間の長距離インタラクションをキャプチャすることを目的としている。
論文 参考訳(メタデータ) (2024-04-14T15:49:02Z) - Semantic2Graph: Graph-based Multi-modal Feature Fusion for Action
Segmentation in Videos [0.40778318140713216]
本研究ではSemantic2Graphというグラフ構造化手法を導入し,ビデオの長期依存性をモデル化する。
我々は,映像行動における長期的・短期的な意味的関係を捉えるために,対応するエッジ重みを伴う肯定的・否定的な意味的エッジを設計した。
論文 参考訳(メタデータ) (2022-09-13T00:01:23Z) - Cross-Modal Graph with Meta Concepts for Video Captioning [101.97397967958722]
ビデオキャプションのためのメタ概念を用いたクロスモーダルグラフ(CMG)を提案する。
ビデオキャプションで有用な意味概念を網羅するために、テキスト記述のための対応する視覚領域を弱く学習する。
我々は、予測された述語を用いて、全体的ビデオレベルおよび局所的フレームレベルのビデオグラフを構築し、ビデオシーケンス構造をモデル化する。
論文 参考訳(メタデータ) (2021-08-14T04:00:42Z) - VLG-Net: Video-Language Graph Matching Network for Video Grounding [57.6661145190528]
ビデオにおける言語クエリのグラウンディングは、言語クエリに関連する時間間隔(またはモーメント)を特定することを目的としている。
我々はこの問題をアルゴリズム的なグラフマッチング問題に再キャストする。
広範に使用されている3つのデータセットに対して,最先端の接地手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2020-11-19T22:32:03Z) - SumGraph: Video Summarization via Recursive Graph Modeling [59.01856443537622]
本稿では、関係グラフを表すために、SumGraphと呼ばれるビデオ要約のためのグラフモデリングネットワークを提案する。
教師なしと教師なしの両方の方法で、映像要約のためのいくつかのベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-07-17T08:11:30Z) - Iterative Context-Aware Graph Inference for Visual Dialog [126.016187323249]
本稿では,新しいコンテキスト認識グラフ(CAG)ニューラルネットワークを提案する。
グラフの各ノードは、オブジェクトベース(視覚)と履歴関連(テキスト)コンテキスト表現の両方を含む、共同意味機能に対応している。
論文 参考訳(メタデータ) (2020-04-05T13:09:37Z) - Zero-Shot Video Object Segmentation via Attentive Graph Neural Networks [150.5425122989146]
本研究は、ゼロショットビデオオブジェクトセグメンテーション(ZVOS)のための新しい注意グラフニューラルネットワーク(AGNN)を提案する。
AGNNは、フレームをノードとして効率的に表現し、任意のフレームペア間の関係をエッジとして表現するために、完全に連結されたグラフを構築している。
3つのビデオセグメンテーションデータセットの実験結果は、AGNNがそれぞれのケースに新しい最先端を設定していることを示している。
論文 参考訳(メタデータ) (2020-01-19T10:45:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。