論文の概要: A Survey on Video Moment Localization
- arxiv url: http://arxiv.org/abs/2306.07515v1
- Date: Tue, 13 Jun 2023 02:57:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-14 15:09:02.079630
- Title: A Survey on Video Moment Localization
- Title(参考訳): ビデオモーメントのローカライゼーションに関する調査
- Authors: Meng Liu, Liqiang Nie, Yunxiao Wang, Meng Wang, Yong Rui
- Abstract要約: ビデオモーメントのローカライゼーションは、与えられた自然言語クエリによって記述されたビデオ内のターゲットセグメントを検索することを目的としている。
本稿では,教師付き,弱教師付き,教師なしなどの既存の映像モーメントローカライゼーション手法について概説する。
本稿では,この分野,特に大規模データセットと解釈可能なビデオモーメントローカライゼーションモデルについて論じる。
- 参考スコア(独自算出の注目度): 61.5323647499912
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Video moment localization, also known as video moment retrieval, aiming to
search a target segment within a video described by a given natural language
query. Beyond the task of temporal action localization whereby the target
actions are pre-defined, video moment retrieval can query arbitrary complex
activities. In this survey paper, we aim to present a comprehensive review of
existing video moment localization techniques, including supervised, weakly
supervised, and unsupervised ones. We also review the datasets available for
video moment localization and group results of related work. In addition, we
discuss promising future directions for this field, in particular large-scale
datasets and interpretable video moment localization models.
- Abstract(参考訳): video moment localization(ビデオモーメントローカライゼーション、ビデオモーメントローカライゼーション)は、与えられた自然言語クエリによって記述されたビデオ内のターゲットセグメントを検索することを目的としている。
対象のアクションが事前に定義された時間的アクションローカライゼーションのタスクの他に、ビデオモーメント検索は任意の複雑なアクティビティをクエリできる。
本稿では,教師付き,弱い教師付き,教師なしといった既存のビデオモーメントローカライズ手法の包括的レビューを行う。
また、ビデオモーメントのローカライゼーションや、関連する作業のグループ結果のデータセットについてもレビューする。
さらに,この分野の今後の方向性,特に大規模データセットと解釈可能なビデオモーメントローカライズモデルについて述べる。
関連論文リスト
- Prompting Large Language Models to Reformulate Queries for Moment
Localization [79.57593838400618]
モーメントローカライゼーションのタスクは、与えられた自然言語クエリの未トリミングビデオ中の時間モーメントをローカライズすることである。
我々は,モーメントクエリを大規模言語モデルを用いて命令セットに再構成し,ローカライズモデルに親しみやすくするための初期の試みを行っている。
論文 参考訳(メタデータ) (2023-06-06T05:48:09Z) - What, when, and where? -- Self-Supervised Spatio-Temporal Grounding in Untrimmed Multi-Action Videos from Narrated Instructions [55.574102714832456]
時空間グラウンド(時空間グラウンド)は、空間と時間における事象を局所化するタスクを指す。
このタスクのモデルは、通常、人間の注釈付き文とバウンディングボックスの監督によって訓練される。
我々は,局所的な表現学習と,より詳細な空間情報に焦点を合わせ,高レベルな表現を捉えるグローバルな表現を組み合わせる。
論文 参考訳(メタデータ) (2023-03-29T19:38:23Z) - Hierarchical Video-Moment Retrieval and Step-Captioning [68.4859260853096]
HiRESTは、インストラクショナルビデオデータセットから3.4Kのテキストビデオペアで構成されている。
我々の階層的ベンチマークは、ビデオ検索、モーメント検索、2つの新しいモーメントセグメンテーション、ステップキャプションタスクからなる。
論文 参考訳(メタデータ) (2023-03-29T02:33:54Z) - Modal-specific Pseudo Query Generation for Video Corpus Moment Retrieval [20.493241098064665]
ビデオコーパスモーメント検索(VCMR)は、自然言語クエリを用いて、大きなビデオコーパスから最も関連性の高いビデオモーメントを検索するタスクである。
モーダル固有のPseudo Query Generation Network (MPGN) を提案する。
MPGNは、選択した時間モーメントから視覚情報とテキスト情報の両方を活用する疑似クエリを生成する。
我々は,MPGNがビデオコーパスモーメントを明示的なアノテーションなしでローカライズすることに成功したことを示す。
論文 参考訳(メタデータ) (2022-10-23T05:05:18Z) - Progressive Localization Networks for Language-based Moment Localization [56.54450664871467]
本稿では,言語に基づくモーメントローカライゼーションの課題に焦点を当てる。
既存のほとんどの手法は、まず時間長の候補モーメントをサンプリングし、そのモーメントを決定するために与えられたクエリとマッチングする。
本稿では,ターゲットモーメントを粗い方法で段階的に局所化する多段階プログレッシブ・ローカライゼーション・ネットワーク(PLN)を提案する。
論文 参考訳(メタデータ) (2021-02-02T03:45:59Z) - A Hierarchical Multi-Modal Encoder for Moment Localization in Video
Corpus [31.387948069111893]
テキストクエリにセマンティックにマッチする長いビデオにおいて、短いセグメントを識別する方法を示す。
この問題に対処するために、粗いクリップレベルと微調整フレームレベルの両方でビデオをエンコードするHierArchical Multi-Modal EncodeR (HAMMER)を提案する。
我々は、ActivityNet CaptionsとTVRデータセット上のビデオコーパスにおけるモーメントローカライゼーションのモデルを評価するために、広範囲にわたる実験を行った。
論文 参考訳(メタデータ) (2020-11-18T02:42:36Z) - DORi: Discovering Object Relationship for Moment Localization of a
Natural-Language Query in Video [98.54696229182335]
本研究では,自然言語クエリを用いて,時間的モーメントローカライゼーションの課題について検討する。
私たちの重要なイノベーションは、言語で条件付きメッセージパッシングアルゴリズムを通じて、ビデオ機能の埋め込みを学ぶことです。
時間的なサブグラフは、時間を通してビデオ内のアクティビティをキャプチャする。
論文 参考訳(メタデータ) (2020-10-13T09:50:29Z) - Text-based Localization of Moments in a Video Corpus [38.393877654679414]
与えられた文問合せのためのビデオコーパス内のモーメントの時間的局所化の課題に対処する。
本稿では,モーメントアライメントネットワーク(HMAN)を提案する。
HMANはビデオ内モーメント間の微妙な違いの学習に加えて、文クエリに基づくビデオ間グローバルセマンティック概念の識別にも重点を置いている。
論文 参考訳(メタデータ) (2020-08-20T00:05:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。