論文の概要: Graph Neural Network for Video Relocalization
- arxiv url: http://arxiv.org/abs/2007.09877v2
- Date: Wed, 26 Jan 2022 08:06:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 13:22:01.584511
- Title: Graph Neural Network for Video Relocalization
- Title(参考訳): ビデオ再ローカライズのためのグラフニューラルネットワーク
- Authors: Yuan Zhou, Mingfei Wang, Ruolin Wang, Shuwei Huo
- Abstract要約: ビデオ再ローカライゼーションデータセットには、フレームによる特徴類似性とビデオによる特徴類似性との間に一貫した関係が存在しない現象が存在する。
本稿では,この現象を考慮に入れ,検索ビデオ機能と提案ビデオ機能とを時間次元に沿って結合することにより,映像特徴をグラフとして扱う。
グラフニューラルネットワークのパワーを用いて,このグラフの関係性を融合させるマルチグラフ特徴融合モジュールを提案する。
- 参考スコア(独自算出の注目度): 16.67309677191578
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we focus on video relocalization task, which uses a query
video clip as input to retrieve a semantic relative video clip in another
untrimmed long video. we find that in video relocalization datasets, there
exists a phenomenon showing that there does not exist consistent relationship
between feature similarity by frame and feature similarity by video, which
affects the feature fusion among frames. However, existing video relocalization
methods do not fully consider it. Taking this phenomenon into account, in this
article, we treat video features as a graph by concatenating the query video
feature and proposal video feature along time dimension, where each timestep is
treated as a node, each row of the feature matrix is treated as feature of each
node. Then, with the power of graph neural networks, we propose a Multi-Graph
Feature Fusion Module to fuse the relation feature of this graph. After
evaluating our method on ActivityNet v1.2 dataset and Thumos14 dataset, we find
that our proposed method outperforms the state of art methods.
- Abstract(参考訳): 本稿では,問合せビデオクリップを入力として,意味的相対的ビデオクリップを別の非トリミングなロングビデオから取得するビデオ再ローカライズタスクに着目した。
ビデオ再ローカライゼーションデータセットには,フレーム間の特徴融合に影響を与える,フレーム間の特徴類似性とビデオ間の特徴類似性との間に一貫した関係が存在しない現象が存在する。
しかし、既存のビデオ再ローカライズ手法では十分に考慮されていない。
この現象を考慮に入れて,本稿では,問合せビデオ特徴と提案ビデオ特徴とを時間次元に沿って結合して,各時間ステップをノードとして,各特徴行列の行を各ノードの特徴として扱うことにより,映像特徴をグラフとして扱う。
そこで我々は,グラフニューラルネットワークのパワーを生かして,このグラフの関係性を融合させるマルチグラフ特徴融合モジュールを提案する。
ActivityNet v1.2 データセットと Thumos14 データセットで評価した結果,提案手法が最先端の手法であることがわかった。
関連論文リスト
- VideoSAGE: Video Summarization with Graph Representation Learning [9.21019970479227]
本稿では,映像要約のためのグラフベース表現学習フレームワークを提案する。
この方法で構築されたグラフは、ビデオフレーム間の長距離インタラクションをキャプチャすることを目的としている。
論文 参考訳(メタデータ) (2024-04-14T15:49:02Z) - Visual Commonsense-aware Representation Network for Video Captioning [84.67432867555044]
ビデオキャプションのためのシンプルで効果的なVisual Commonsense-aware Representation Network (VCRN)を提案する。
提案手法は最先端の性能に到達し,提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-11-17T11:27:15Z) - Two-Level Temporal Relation Model for Online Video Instance Segmentation [3.9349485816629888]
オフライン端末の性能に匹敵するオンライン手法を提案する。
オブジェクトをエンコードし、時間を通して関連付ける、メッセージパッシンググラフニューラルネットワークを導入する。
提案モデルは,YouTube-VISデータセット上で,訓練されたエンドツーエンド,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-10-30T10:01:01Z) - Memory Efficient Temporal & Visual Graph Model for Unsupervised Video
Domain Adaptation [50.158454960223274]
既存のビデオドメイン適応(DA)手法は、ビデオフレームの時間的組み合わせを全て格納するか、ソースとターゲットのビデオをペアにする必要がある。
本稿では,メモリ効率の高いグラフベースビデオDA手法を提案する。
論文 参考訳(メタデータ) (2022-08-13T02:56:10Z) - Video and Text Matching with Conditioned Embeddings [81.81028089100727]
本稿では,あるコーパスから与えられたビデオクリップにテキストをマッチングする方法と,その逆について述べる。
本研究では、クエリの関連情報を考慮し、データセットデータをエンコードする。
我々は、条件付き表現をビデオ誘導機械翻訳に転送し、VATEXの現在の結果を改善した。
論文 参考訳(メタデータ) (2021-10-21T17:31:50Z) - VLG-Net: Video-Language Graph Matching Network for Video Grounding [57.6661145190528]
ビデオにおける言語クエリのグラウンディングは、言語クエリに関連する時間間隔(またはモーメント)を特定することを目的としている。
我々はこの問題をアルゴリズム的なグラフマッチング問題に再キャストする。
広範に使用されている3つのデータセットに対して,最先端の接地手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2020-11-19T22:32:03Z) - Location-aware Graph Convolutional Networks for Video Question Answering [85.44666165818484]
そこで本研究では,ビデオ中のコンテンツを位置認識グラフとして表現することを提案する。
構築したグラフに基づいて,動作のカテゴリと時間的位置の両方を推測するためにグラフ畳み込みを提案する。
提案手法は,TGIF-QA,Youtube2Text-QA,MSVD-QAデータセットにおいて,最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2020-08-07T02:12:56Z) - SumGraph: Video Summarization via Recursive Graph Modeling [59.01856443537622]
本稿では、関係グラフを表すために、SumGraphと呼ばれるビデオ要約のためのグラフモデリングネットワークを提案する。
教師なしと教師なしの両方の方法で、映像要約のためのいくつかのベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-07-17T08:11:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。