論文の概要: Position-aware Location Regression Network for Temporal Video Grounding
- arxiv url: http://arxiv.org/abs/2204.05499v1
- Date: Tue, 12 Apr 2022 03:14:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-13 13:14:57.414730
- Title: Position-aware Location Regression Network for Temporal Video Grounding
- Title(参考訳): 時間的ビデオグラウンドのための位置認識位置回帰ネットワーク
- Authors: Sunoh Kim, Kimin Yun, Jin Young Choi
- Abstract要約: ビデオ監視に成功するための鍵は、重要なアクターやオブジェクトに対応する意味的フレーズを理解することである。
本稿では,クエリとビデオの位置認識機能を利用した位置認識位置回帰ネットワーク(PLRN)を提案する。
PLRNは、時間とメモリの少ない既存のメソッドよりも競合的なパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 9.37169649747738
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The key to successful grounding for video surveillance is to understand a
semantic phrase corresponding to important actors and objects. Conventional
methods ignore comprehensive contexts for the phrase or require heavy
computation for multiple phrases. To understand comprehensive contexts with
only one semantic phrase, we propose Position-aware Location Regression Network
(PLRN) which exploits position-aware features of a query and a video.
Specifically, PLRN first encodes both the video and query using positional
information of words and video segments. Then, a semantic phrase feature is
extracted from an encoded query with attention. The semantic phrase feature and
encoded video are merged and made into a context-aware feature by reflecting
local and global contexts. Finally, PLRN predicts start, end, center, and width
values of a grounding boundary. Our experiments show that PLRN achieves
competitive performance over existing methods with less computation time and
memory.
- Abstract(参考訳): ビデオ監視を成功させる鍵は、重要なアクターやオブジェクトに対応する意味的フレーズを理解することである。
従来の手法では、フレーズの包括的なコンテキストを無視したり、複数のフレーズの重い計算を必要とする。
1つの意味句だけで包括的文脈を理解するために,クエリとビデオの位置認識機能を活用した位置認識位置回帰ネットワーク (plrn) を提案する。
具体的には、PLRNはまず、単語とビデオセグメントの位置情報を用いて、ビデオとクエリの両方をエンコードする。
そして、注目された符号化クエリから意味句特徴を抽出する。
セマンティックフレーズ機能とエンコードされたビデオは統合され、ローカルおよびグローバルコンテキストを反映してコンテキスト認識機能に変換される。
最後に、plrnは接地境界の開始、終了、中心、および幅値を予測する。
実験の結果,PLRNは計算時間やメモリの少ない既存手法に比べて性能が優れていた。
関連論文リスト
- Temporal Perceiving Video-Language Pre-training [112.1790287726804]
本研究は、時間的・意味的な微粒なアライメントを可能にする、新しいテキスト-ビデオのローカライゼーション・プレテキストタスクを導入する。
具体的には、テキスト-ビデオのローカライゼーションは、テキスト記述が与えられたビデオの開始と終了の境界を予測するモーメント検索から成っている。
提案手法は,細粒度フレーム表現と単語表現を結合し,単一モードにおける異なるインスタンスの表現を暗黙的に区別する。
論文 参考訳(メタデータ) (2023-01-18T12:15:47Z) - Unsupervised Temporal Video Grounding with Deep Semantic Clustering [58.95918952149763]
時間的ビデオグラウンドティングは、所定の文クエリに従って、ビデオ内のターゲットセグメントをローカライズすることを目的としている。
本稿では,ペアアノテーションを使わずにビデオグラウンドモデルが学べるかどうかを考察する。
ペア化された監視が存在しないことを考慮し,クエリ集合全体からすべての意味情報を活用するための新しいDeep Semantic Clustering Network (DSCNet)を提案する。
論文 参考訳(メタデータ) (2022-01-14T05:16:33Z) - Multi-Modal Interaction Graph Convolutional Network for Temporal
Language Localization in Videos [55.52369116870822]
本稿では,ビデオにおける時間的言語ローカライゼーションの問題に対処することに焦点を当てる。
自然言語文で記述された瞬間の始点と終点を、未編集のビデオで識別することを目的としている。
論文 参考訳(メタデータ) (2021-10-12T14:59:25Z) - End-to-End Dense Video Grounding via Parallel Regression [30.984657885692553]
ビデオグラウンドイングは、言語クエリが与えられた未トリミングビデオに対応するビデオモーメントをローカライズすることを目的としている。
本稿では,Transformer-alike Architecture (PRVG) を再構成することで,エンドツーエンドの並列デコーディングパラダイムを提案する。
設計の単純さのおかげで、私たちのPRVGフレームワークは異なるテストスキームに適用できます。
論文 参考訳(メタデータ) (2021-09-23T10:03:32Z) - Video Corpus Moment Retrieval with Contrastive Learning [56.249924768243375]
ビデオコーパスモーメント検索(VCMR)は、与えられたテキストクエリに意味的に対応する時間モーメントを取得することです。
VCMRのためのコントラシブラーニング(ReLoCLNet)を用いた検索・ローカリゼーションネットワークを提案する。
実験の結果、ReLoCLNetは効率のためにテキストとビデオを個別にエンコードし、その検索精度はクロスモーダル相互作用学習を採用するベースラインと匹敵する。
論文 参考訳(メタデータ) (2021-05-13T12:54:39Z) - A Hierarchical Multi-Modal Encoder for Moment Localization in Video
Corpus [31.387948069111893]
テキストクエリにセマンティックにマッチする長いビデオにおいて、短いセグメントを識別する方法を示す。
この問題に対処するために、粗いクリップレベルと微調整フレームレベルの両方でビデオをエンコードするHierArchical Multi-Modal EncodeR (HAMMER)を提案する。
我々は、ActivityNet CaptionsとTVRデータセット上のビデオコーパスにおけるモーメントローカライゼーションのモデルを評価するために、広範囲にわたる実験を行った。
論文 参考訳(メタデータ) (2020-11-18T02:42:36Z) - Text-based Localization of Moments in a Video Corpus [38.393877654679414]
与えられた文問合せのためのビデオコーパス内のモーメントの時間的局所化の課題に対処する。
本稿では,モーメントアライメントネットワーク(HMAN)を提案する。
HMANはビデオ内モーメント間の微妙な違いの学習に加えて、文クエリに基づくビデオ間グローバルセマンティック概念の識別にも重点を置いている。
論文 参考訳(メタデータ) (2020-08-20T00:05:45Z) - Fine-grained Iterative Attention Network for TemporalLanguage
Localization in Videos [63.94898634140878]
ビデオ中の時間的言語ローカライゼーションは、与えられた文クエリに基づいて、ビデオセグメントの1つを未トリミングビデオにグラウンドすることを目的としている。
本稿では,2つのクエリ・ビデオ・インフォーム抽出のための反復的注意モジュールからなる細粒度反復注意ネットワーク(FIAN)を提案する。
本稿では,Ac-tivityNet Captions,TACoS,Charades-STAの3つのベンチマークで提案手法を評価した。
論文 参考訳(メタデータ) (2020-08-06T04:09:03Z) - Local-Global Video-Text Interactions for Temporal Grounding [77.5114709695216]
本稿では,テキストクエリに関連するビデオの時間間隔を特定することを目的とした,テキスト間時間グラウンドリングの問題に対処する。
そこで本研究では,テキストクエリにおける意味句の中間レベルの特徴の集合を抽出する,新しい回帰モデルを用いてこの問題に対処する。
提案手法は,ローカルからグローバルへのコンテキスト情報を活用することにより,目標時間間隔を効果的に予測する。
論文 参考訳(メタデータ) (2020-04-16T08:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。