論文の概要: Language-Guided Graph Representation Learning for Video Summarization
- arxiv url: http://arxiv.org/abs/2511.10953v1
- Date: Fri, 14 Nov 2025 04:35:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.434207
- Title: Language-Guided Graph Representation Learning for Video Summarization
- Title(参考訳): 映像要約のための言語誘導グラフ表現学習
- Authors: Wenrui Li, Wei Han, Hengyu Man, Wangmeng Zuo, Xiaopeng Fan, Yonghong Tian,
- Abstract要約: 本稿では,映像要約のためのLGRLN(Language-guided Graph Representation Learning Network)を提案する。
具体的には,ビデオフレームを構造化グラフに変換して時間的順序と文脈依存性を保存するビデオグラフ生成装置を提案する。
提案手法は,複数のベンチマークにおいて既存手法より優れている。
- 参考スコア(独自算出の注目度): 96.2763459348758
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rapid growth of video content on social media, video summarization has become a crucial task in multimedia processing. However, existing methods face challenges in capturing global dependencies in video content and accommodating multimodal user customization. Moreover, temporal proximity between video frames does not always correspond to semantic proximity. To tackle these challenges, we propose a novel Language-guided Graph Representation Learning Network (LGRLN) for video summarization. Specifically, we introduce a video graph generator that converts video frames into a structured graph to preserve temporal order and contextual dependencies. By constructing forward, backward and undirected graphs, the video graph generator effectively preserves the sequentiality and contextual relationships of video content. We designed an intra-graph relational reasoning module with a dual-threshold graph convolution mechanism, which distinguishes semantically relevant frames from irrelevant ones between nodes. Additionally, our proposed language-guided cross-modal embedding module generates video summaries with specific textual descriptions. We model the summary generation output as a mixture of Bernoulli distribution and solve it with the EM algorithm. Experimental results show that our method outperforms existing approaches across multiple benchmarks. Moreover, we proposed LGRLN reduces inference time and model parameters by 87.8% and 91.7%, respectively. Our codes and pre-trained models are available at https://github.com/liwrui/LGRLN.
- Abstract(参考訳): ソーシャルメディア上の動画コンテンツの急速な成長に伴い、ビデオ要約はマルチメディア処理において重要な課題となっている。
しかし、既存の手法では、ビデオコンテンツのグローバルな依存関係をキャプチャし、マルチモーダルなユーザカスタマイズを調節する上で、課題に直面している。
さらに、ビデオフレーム間の時間的近接は、必ずしも意味的近接と一致しない。
これらの課題に対処するために,ビデオ要約のためのLGRLN(Language-guided Graph Representation Learning Network)を提案する。
具体的には,ビデオフレームを構造化グラフに変換して時間的順序と文脈依存性を保存するビデオグラフ生成装置を提案する。
ビデオグラフ生成装置は、前方・後方・非指向のグラフを構築することにより、映像コンテンツの逐次性と文脈的関係を効果的に保存する。
我々は,ノード間の無関係なフレームと意味的に関連するフレームを区別するデュアルスレッドグラフ畳み込み機構を備えたグラフ内関係推論モジュールを設計した。
さらに,提案する言語誘導型クロスモーダル埋め込みモジュールは,特定のテキスト記述を伴う映像要約を生成する。
本稿では,Bernoulli分布の混合として要約生成出力をモデル化し,EMアルゴリズムを用いて解いた。
実験結果から,本手法は複数のベンチマークにおいて既存手法よりも優れていることがわかった。
さらに,LGRLNは推定時間とモデルパラメータをそれぞれ87.8%,91.7%削減する。
私たちのコードと事前トレーニングされたモデルはhttps://github.com/liwrui/LGRLN.orgで公開されています。
関連論文リスト
- Language-guided Recursive Spatiotemporal Graph Modeling for Video Summarization [47.65036144170475]
ビデオ要約は、視覚的に多様性があり、あるビデオの全ストーリーを表すものを選択することを目的としている。
本稿では,空間グラフと時間グラフのノードとしてオブジェクトとフレームを定式化するVideoGraphを提案する。
実験では, 汎用的およびクエリリンクビデオ要約のためのいくつかのベンチマークにおいて, 最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-09-06T05:37:31Z) - VideoSAGE: Video Summarization with Graph Representation Learning [9.21019970479227]
本稿では,映像要約のためのグラフベース表現学習フレームワークを提案する。
この方法で構築されたグラフは、ビデオフレーム間の長距離インタラクションをキャプチャすることを目的としている。
論文 参考訳(メタデータ) (2024-04-14T15:49:02Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - Semantic2Graph: Graph-based Multi-modal Feature Fusion for Action
Segmentation in Videos [0.40778318140713216]
本研究ではSemantic2Graphというグラフ構造化手法を導入し,ビデオの長期依存性をモデル化する。
我々は,映像行動における長期的・短期的な意味的関係を捉えるために,対応するエッジ重みを伴う肯定的・否定的な意味的エッジを設計した。
論文 参考訳(メタデータ) (2022-09-13T00:01:23Z) - VLG-Net: Video-Language Graph Matching Network for Video Grounding [57.6661145190528]
ビデオにおける言語クエリのグラウンディングは、言語クエリに関連する時間間隔(またはモーメント)を特定することを目的としている。
我々はこの問題をアルゴリズム的なグラフマッチング問題に再キャストする。
広範に使用されている3つのデータセットに対して,最先端の接地手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2020-11-19T22:32:03Z) - SumGraph: Video Summarization via Recursive Graph Modeling [59.01856443537622]
本稿では、関係グラフを表すために、SumGraphと呼ばれるビデオ要約のためのグラフモデリングネットワークを提案する。
教師なしと教師なしの両方の方法で、映像要約のためのいくつかのベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-07-17T08:11:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。