論文の概要: A Hierarchical Multi-Modal Encoder for Moment Localization in Video
Corpus
- arxiv url: http://arxiv.org/abs/2011.09046v2
- Date: Tue, 24 Nov 2020 04:11:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-24 03:17:51.678085
- Title: A Hierarchical Multi-Modal Encoder for Moment Localization in Video
Corpus
- Title(参考訳): ビデオコーパスにおけるモーメントローカライゼーションのための階層型マルチモーダルエンコーダ
- Authors: Bowen Zhang, Hexiang Hu, Joonseok Lee, Ming Zhao, Sheide Chammas,
Vihan Jain, Eugene Ie, Fei Sha
- Abstract要約: テキストクエリにセマンティックにマッチする長いビデオにおいて、短いセグメントを識別する方法を示す。
この問題に対処するために、粗いクリップレベルと微調整フレームレベルの両方でビデオをエンコードするHierArchical Multi-Modal EncodeR (HAMMER)を提案する。
我々は、ActivityNet CaptionsとTVRデータセット上のビデオコーパスにおけるモーメントローカライゼーションのモデルを評価するために、広範囲にわたる実験を行った。
- 参考スコア(独自算出の注目度): 31.387948069111893
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Identifying a short segment in a long video that semantically matches a text
query is a challenging task that has important application potentials in
language-based video search, browsing, and navigation. Typical retrieval
systems respond to a query with either a whole video or a pre-defined video
segment, but it is challenging to localize undefined segments in untrimmed and
unsegmented videos where exhaustively searching over all possible segments is
intractable. The outstanding challenge is that the representation of a video
must account for different levels of granularity in the temporal domain. To
tackle this problem, we propose the HierArchical Multi-Modal EncodeR (HAMMER)
that encodes a video at both the coarse-grained clip level and the fine-grained
frame level to extract information at different scales based on multiple
subtasks, namely, video retrieval, segment temporal localization, and masked
language modeling. We conduct extensive experiments to evaluate our model on
moment localization in video corpus on ActivityNet Captions and TVR datasets.
Our approach outperforms the previous methods as well as strong baselines,
establishing new state-of-the-art for this task.
- Abstract(参考訳): テキストクエリに意味的にマッチする長いビデオの短いセグメントを特定することは、言語ベースのビデオ検索、ブラウジング、ナビゲーションにおいて重要な応用可能性を持つ課題である。
一般的な検索システムは、ビデオ全体または事前に定義されたビデオセグメントの問合せに応答するが、すべての可能なセグメントを網羅的に検索できる未編集ビデオに未定義のセグメントをローカライズすることは困難である。
顕著な課題は、ビデオの表現が時間領域における粒度の異なるレベルを考慮しなければならないことである。
この問題に対処するため,HierArchical Multi-Modal EncodeR (HAMMER) を提案し,粗いクリップレベルと細粒度フレームレベルの両方でビデオを符号化し,複数のサブタスク,すなわちビデオ検索,セグメント時間的ローカライゼーション,マスク付き言語モデリングに基づいて異なるスケールで情報を抽出する。
我々は、ActivityNet CaptionsとTVRデータセット上のビデオコーパスにおけるモーメントローカライゼーションのモデルを評価するための広範な実験を行った。
提案手法は,従来の手法と強いベースラインを上回り,この課題に対する新たな最先端技術を確立する。
関連論文リスト
- Improving Video Corpus Moment Retrieval with Partial Relevance
Enhancement [79.48249428428802]
ビデオコーパスモーメント検索(VCMR)は、未検索ビデオの大規模なコーパスから関連モーメントを検索するための新しいビデオ検索タスクである。
我々は、VCMRタスクにおいて、クエリとビデオの間の部分的関係を効果的に捉えることが不可欠であると主張している。
ビデオ検索には,異なるモダリティに適したクエリ表現を生成するマルチモーダル・コラボレーティブ・ビデオレトリバーを導入する。
そこで本研究では,モータリティ特異的なゲートを用いたモーメントローカライザを提案する。
論文 参考訳(メタデータ) (2024-02-21T07:16:06Z) - Zero-shot Audio Topic Reranking using Large Language Models [45.3240272898503]
The Multimodal Video Search by Examples project investigateds using video clips as the query term for information search。
本研究は,この高速アーカイブ検索によるパフォーマンス損失の軽減を目的とした手法である。
パブリックなビデオアーカイブであるBBC Rewind corpusでトピックベースの検索のパフォーマンスを評価する。
論文 参考訳(メタデータ) (2023-09-14T11:13:36Z) - Hierarchical Video-Moment Retrieval and Step-Captioning [68.4859260853096]
HiRESTは、インストラクショナルビデオデータセットから3.4Kのテキストビデオペアで構成されている。
我々の階層的ベンチマークは、ビデオ検索、モーメント検索、2つの新しいモーメントセグメンテーション、ステップキャプションタスクからなる。
論文 参考訳(メタデータ) (2023-03-29T02:33:54Z) - Temporal Perceiving Video-Language Pre-training [112.1790287726804]
本研究は、時間的・意味的な微粒なアライメントを可能にする、新しいテキスト-ビデオのローカライゼーション・プレテキストタスクを導入する。
具体的には、テキスト-ビデオのローカライゼーションは、テキスト記述が与えられたビデオの開始と終了の境界を予測するモーメント検索から成っている。
提案手法は,細粒度フレーム表現と単語表現を結合し,単一モードにおける異なるインスタンスの表現を暗黙的に区別する。
論文 参考訳(メタデータ) (2023-01-18T12:15:47Z) - Multi-Modal Interaction Graph Convolutional Network for Temporal
Language Localization in Videos [55.52369116870822]
本稿では,ビデオにおける時間的言語ローカライゼーションの問題に対処することに焦点を当てる。
自然言語文で記述された瞬間の始点と終点を、未編集のビデオで識別することを目的としている。
論文 参考訳(メタデータ) (2021-10-12T14:59:25Z) - A Survey on Deep Learning Technique for Video Segmentation [147.0767454918527]
ビデオセグメンテーションは幅広い応用において重要な役割を果たしている。
ディープラーニングベースのアプローチは、ビデオセグメンテーションに特化しており、魅力的なパフォーマンスを提供している。
論文 参考訳(メタデータ) (2021-07-02T15:51:07Z) - Text-based Localization of Moments in a Video Corpus [38.393877654679414]
与えられた文問合せのためのビデオコーパス内のモーメントの時間的局所化の課題に対処する。
本稿では,モーメントアライメントネットワーク(HMAN)を提案する。
HMANはビデオ内モーメント間の微妙な違いの学習に加えて、文クエリに基づくビデオ間グローバルセマンティック概念の識別にも重点を置いている。
論文 参考訳(メタデータ) (2020-08-20T00:05:45Z) - Fine-grained Iterative Attention Network for TemporalLanguage
Localization in Videos [63.94898634140878]
ビデオ中の時間的言語ローカライゼーションは、与えられた文クエリに基づいて、ビデオセグメントの1つを未トリミングビデオにグラウンドすることを目的としている。
本稿では,2つのクエリ・ビデオ・インフォーム抽出のための反復的注意モジュールからなる細粒度反復注意ネットワーク(FIAN)を提案する。
本稿では,Ac-tivityNet Captions,TACoS,Charades-STAの3つのベンチマークで提案手法を評価した。
論文 参考訳(メタデータ) (2020-08-06T04:09:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。