論文の概要: Static and Dynamic Graph Alignment Network for Temporal Video Grounding
- arxiv url: http://arxiv.org/abs/2605.00684v1
- Date: Fri, 01 May 2026 14:16:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 17:43:28.98232
- Title: Static and Dynamic Graph Alignment Network for Temporal Video Grounding
- Title(参考訳): 時間的ビデオグラウンドのための静的・動的グラフアライメントネットワーク
- Authors: Zhanjie Hu, Bolin Zhang, Jianhua Wang, Jianbo Zheng, Chenchen Yan, Takahiro Komamizu, Ichiro Ide, Jiangbo Qian,
- Abstract要約: 時間的ビデオグラウンディングは、与えられた自然言語クエリにセマンティックに対応した、トリミングされていないビデオ内の時間的モーメントをローカライズすることを目的としている。
ビデオクリップ間の時間関係をモデル化するために,GCN (Graph Convolutional Networks) がテレビGで広く採用されている。
- 参考スコア(独自算出の注目度): 17.14274381541407
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal Video Grounding (TVG) aims to localize temporal moments in an untrimmed video that semantically correspond to given natural language queries. Recently, Graph Convolutional Networks (GCN) have been widely adopted in TVG to model temporal relations among video clips and enhance contextual reasoning by constructing clip-level graphs. Despite their effectiveness, existing GCN-based TVG methods encounter three critical bottlenecks: 1) Most methods construct graph nodes using either static or dynamic features alone, resulting in incomplete visual representation and overlooking complementary semantics, 2) Most methods construct temporal graphs in a query-agnostic manner, leading to inefficient feature interaction within the temporal graph representation, and 3) Most methods often suffer from a single-granularity semantic matching, while direct training on complex temporal localization task may lead to slow convergence and suboptimal precision. To address these challenges, we propose Static and Dynamic Graph Alignment Network (SDGAN). First, SDGAN jointly exploits static and dynamic visual features to construct two complementary temporal graphs and performs Position-wise Nodes Alignment, enabling more expressive and robust visual representation. Second, SDGAN introduces Query-Clip Contrastive Learning and Adaptive Graph Modeling to explicitly align visual clips with their corresponding textual queries, yielding query-aware visual representations. Third, SDGAN incorporates multi-granularity temporal proposals within Progressive Easy-to-Hard Training Strategy, effectively bridging coarse-grained semantic localization and fine-grained temporal boundary refinement. Extensive experiments on three benchmark datasets demonstrate that SDGAN achieves superior performance across complex TVG scenarios. Codes and datasets are available at https://github.com/ZhanJieHu/SDGAN.
- Abstract(参考訳): 時間的ビデオグラウンドリング(TVG)は、与えられた自然言語クエリにセマンティックに対応する未編集ビデオにおいて、時間的モーメントをローカライズすることを目的としている。
近年、ビデオクリップ間の時間関係をモデル化し、クリップレベルのグラフを構築することで文脈推論を強化するために、GCN(Graph Convolutional Networks)がテレビGで広く採用されている。
その効果にもかかわらず、既存のGCNベースのTVG法は3つの重大なボトルネックに直面している。
1)ほとんどのメソッドは静的あるいは動的特徴のみを用いてグラフノードを構築しており,結果として不完全な視覚表現と相補的意味論を見落としている。
2)ほとんどの手法は時間グラフを問合せに依存しない方法で構築し,時間グラフ表現における非効率な特徴相互作用につながる。
3)ほとんどの手法は単一粒度のセマンティックマッチングに悩まされるが,複雑な時間的局所化タスクの直接訓練は収束の遅さと最適下限の精度に繋がる。
これらの課題に対処するために、静的および動的グラフアライメントネットワーク(SDGAN)を提案する。
まず、SDGANは静的および動的視覚的特徴を併用して、2つの補完的な時間グラフを構築し、位置対応ノードアライメントを実行し、より表現力が高く堅牢な視覚表現を可能にする。
第二に、SDGANはクエリ-Clip Contrastive LearningとAdaptive Graph Modelingを導入し、ビジュアルクリップを対応するテキストクエリに明示的にアライメントし、クエリ対応のビジュアル表現を生成する。
第三に、SDGANはプログレッシブ・イージー・ツー・ハード・トレーニング・ストラテジー(Progressive Easy-to-Hard Training Strategy)に多粒性時間的提案を組み込んでおり、粗いセマンティックローカライゼーションときめ細かい時間的境界改善を効果的にブリッジしている。
3つのベンチマークデータセットに対する大規模な実験は、SDGANが複雑なTVGシナリオで優れたパフォーマンスを達成することを示した。
コードとデータセットはhttps://github.com/ZhanJieHu/SDGAN.comで公開されている。
関連論文リスト
- Graph2Video: Leveraging Video Models to Model Dynamic Graph Evolution [18.744688870055803]
対象リンクの時間的近傍を「グラフフレーム」のシーケンスとみなすビデオインスパイアされたフレームワークを提案する。
Graph2Videoは、時間順のサブグラフフレームを“グラフビデオ”に積み重ねることで、きめ細かい局所的変動と長距離時間ダイナミクスの両方をキャプチャする。
軽量でプラグアンドプレイのリンク中心メモリユニットとして機能するリンクレベルの埋め込みを生成する。
論文 参考訳(メタデータ) (2026-03-09T07:23:50Z) - DIFFVSGG: Diffusion-Driven Online Video Scene Graph Generation [61.59996525424585]
DIFFVSGGはオンラインのVSGGソリューションで、このタスクを反復的なシーングラフ更新問題とみなしている。
オブジェクト分類の復号化、境界ボックス回帰、グラフ生成の3つのタスクを1つの共有特徴埋め込みを用いて統合する。
DIFFVSGGはさらに、後続のフレームの予測が過去のフレームの結果をLCMの条件入力として活用する継続的時間的推論を促進する。
論文 参考訳(メタデータ) (2025-03-18T06:49:51Z) - TESGNN: Temporal Equivariant Scene Graph Neural Networks for Efficient and Robust Multi-View 3D Scene Understanding [9.702862490344485]
本稿では,2つの鍵成分からなる時変Scene Graph Neural Network (TESGNN)を提案する。
ESGNNは、3次元点雲から情報を抽出し、重要な対称性特性を保持しながらシーングラフを生成する。
対称性保存特性を活用することにより,より安定かつ正確なグローバルシーン表現が得られることを示す。
論文 参考訳(メタデータ) (2024-11-15T15:39:04Z) - Constructing Holistic Spatio-Temporal Scene Graph for Video Semantic
Role Labeling [96.64607294592062]
Video Semantic Label Roleing (VidSRL)は、与えられたビデオから健全なイベントを検出することを目的としている。
近年、VidSRLの手法が提案されているが、2つの重要な欠点を負う可能性がある。
論文 参考訳(メタデータ) (2023-08-09T17:20:14Z) - From random-walks to graph-sprints: a low-latency node embedding
framework on continuous-time dynamic graphs [4.372841335228306]
本稿では,レイテンシが低く,最先端の高レイテンシモデルと競合する連続時間動的グラフ(CTDG)のフレームワークを提案する。
本フレームワークでは,マルチホップ情報を要約したタイムアウェアノード埋め込みを,入ってくるエッジ上のシングルホップ操作のみを用いて計算する。
グラフプリント機能と機械学習を組み合わせることで,競争性能が向上することを示す。
論文 参考訳(メタデータ) (2023-07-17T12:25:52Z) - EasyDGL: Encode, Train and Interpret for Continuous-time Dynamic Graph Learning [92.71579608528907]
本稿では,3つのモジュールから構成される使い勝手の良いパイプライン(EasyDGL)を設計することを目的とする。
EasyDGLは、進化するグラフデータからモデルが学習する周波数コンテンツの予測力を効果的に定量化することができる。
論文 参考訳(メタデータ) (2023-03-22T06:35:08Z) - Self-Supervised Temporal Graph learning with Temporal and Structural Intensity Alignment [53.72873672076391]
時間グラフ学習は、動的情報を用いたグラフベースのタスクのための高品質な表現を生成することを目的としている。
本稿では,時間的および構造的情報の両方を抽出する時間的グラフ学習のためのS2Tという自己教師型手法を提案する。
S2Tは、いくつかのデータセットにおける最先端の競合と比較して、少なくとも10.13%のパフォーマンス改善を実現している。
論文 参考訳(メタデータ) (2023-02-15T06:36:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。