論文の概要: A Hierarchical Multi-Modal Encoder for Moment Localization in Video
Corpus
- arxiv url: http://arxiv.org/abs/2011.09046v2
- Date: Tue, 24 Nov 2020 04:11:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-24 03:17:51.678085
- Title: A Hierarchical Multi-Modal Encoder for Moment Localization in Video
Corpus
- Title(参考訳): ビデオコーパスにおけるモーメントローカライゼーションのための階層型マルチモーダルエンコーダ
- Authors: Bowen Zhang, Hexiang Hu, Joonseok Lee, Ming Zhao, Sheide Chammas,
Vihan Jain, Eugene Ie, Fei Sha
- Abstract要約: テキストクエリにセマンティックにマッチする長いビデオにおいて、短いセグメントを識別する方法を示す。
この問題に対処するために、粗いクリップレベルと微調整フレームレベルの両方でビデオをエンコードするHierArchical Multi-Modal EncodeR (HAMMER)を提案する。
我々は、ActivityNet CaptionsとTVRデータセット上のビデオコーパスにおけるモーメントローカライゼーションのモデルを評価するために、広範囲にわたる実験を行った。
- 参考スコア(独自算出の注目度): 31.387948069111893
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Identifying a short segment in a long video that semantically matches a text
query is a challenging task that has important application potentials in
language-based video search, browsing, and navigation. Typical retrieval
systems respond to a query with either a whole video or a pre-defined video
segment, but it is challenging to localize undefined segments in untrimmed and
unsegmented videos where exhaustively searching over all possible segments is
intractable. The outstanding challenge is that the representation of a video
must account for different levels of granularity in the temporal domain. To
tackle this problem, we propose the HierArchical Multi-Modal EncodeR (HAMMER)
that encodes a video at both the coarse-grained clip level and the fine-grained
frame level to extract information at different scales based on multiple
subtasks, namely, video retrieval, segment temporal localization, and masked
language modeling. We conduct extensive experiments to evaluate our model on
moment localization in video corpus on ActivityNet Captions and TVR datasets.
Our approach outperforms the previous methods as well as strong baselines,
establishing new state-of-the-art for this task.
- Abstract(参考訳): テキストクエリに意味的にマッチする長いビデオの短いセグメントを特定することは、言語ベースのビデオ検索、ブラウジング、ナビゲーションにおいて重要な応用可能性を持つ課題である。
一般的な検索システムは、ビデオ全体または事前に定義されたビデオセグメントの問合せに応答するが、すべての可能なセグメントを網羅的に検索できる未編集ビデオに未定義のセグメントをローカライズすることは困難である。
顕著な課題は、ビデオの表現が時間領域における粒度の異なるレベルを考慮しなければならないことである。
この問題に対処するため,HierArchical Multi-Modal EncodeR (HAMMER) を提案し,粗いクリップレベルと細粒度フレームレベルの両方でビデオを符号化し,複数のサブタスク,すなわちビデオ検索,セグメント時間的ローカライゼーション,マスク付き言語モデリングに基づいて異なるスケールで情報を抽出する。
我々は、ActivityNet CaptionsとTVRデータセット上のビデオコーパスにおけるモーメントローカライゼーションのモデルを評価するための広範な実験を行った。
提案手法は,従来の手法と強いベースラインを上回り,この課題に対する新たな最先端技術を確立する。
関連論文リスト
- One Token to Seg Them All: Language Instructed Reasoning Segmentation in Videos [41.34787907803329]
VideoLISAは、ビデオ内の言語命令による推論セグメンテーションの問題に対処するために設計された、ビデオベースのマルチモーダルな大規模言語モデルである。
VideoLISAは、言語命令に基づいてビデオ内に時間的に一貫したセグメンテーションマスクを生成する。
論文 参考訳(メタデータ) (2024-09-29T07:47:15Z) - ViLLa: Video Reasoning Segmentation with Large Language Model [48.75470418596875]
そこで我々は,新しいビデオセグメンテーションタスクであるビデオ推論セグメンテーションを提案する。
このタスクは、複雑な入力テキストクエリが与えられたセグメンテーションマスクのトラックレットを出力するように設計されている。
ViLLa: 大規模言語モデルを用いたビデオ推論セグメンテーションを提案する。
論文 参考訳(メタデータ) (2024-07-18T17:59:17Z) - Localizing Events in Videos with Multimodal Queries [71.40602125623668]
マルチモーダルクエリによるビデオ内のイベントのローカライズのための新しいベンチマークICQを導入する。
4種類の参照イメージと5種類のリファインメントテキストが含まれており、異なるドメインにわたるモデルパフォーマンスを探索することができます。
論文 参考訳(メタデータ) (2024-06-14T14:35:58Z) - LongVLM: Efficient Long Video Understanding via Large Language Models [55.813206751150716]
LongVLMはビデオ理解のためのシンプルだが強力なビデオLLMである。
ローカル情報とグローバル情報の両方を含むビデオ表現をエンコードする。
我々のモデルは、長いビデオ理解のためのより正確な応答を生成する。
論文 参考訳(メタデータ) (2024-04-04T11:33:29Z) - Improving Video Corpus Moment Retrieval with Partial Relevance Enhancement [72.7576395034068]
Video Corpus Moment Retrieval(VCMR)は、テキストクエリを使って、大量の未トリミングビデオから関連する瞬間を検索するための、新しいビデオ検索タスクである。
我々は、VCMRタスクにおいて、クエリとビデオの間の部分的関係を効果的に捉えることが不可欠であると主張している。
ビデオ検索には,2つのモーダルに対して異なる問合せ表現を生成するマルチモーダル・コラボレーティブ・ビデオレトリバーを導入する。
そこで本研究では,モータリティ特異的なゲートを用いたモーメントローカライザを提案する。
論文 参考訳(メタデータ) (2024-02-21T07:16:06Z) - Hierarchical Video-Moment Retrieval and Step-Captioning [68.4859260853096]
HiRESTは、インストラクショナルビデオデータセットから3.4Kのテキストビデオペアで構成されている。
我々の階層的ベンチマークは、ビデオ検索、モーメント検索、2つの新しいモーメントセグメンテーション、ステップキャプションタスクからなる。
論文 参考訳(メタデータ) (2023-03-29T02:33:54Z) - A Survey on Deep Learning Technique for Video Segmentation [147.0767454918527]
ビデオセグメンテーションは幅広い応用において重要な役割を果たしている。
ディープラーニングベースのアプローチは、ビデオセグメンテーションに特化しており、魅力的なパフォーマンスを提供している。
論文 参考訳(メタデータ) (2021-07-02T15:51:07Z) - Text-based Localization of Moments in a Video Corpus [38.393877654679414]
与えられた文問合せのためのビデオコーパス内のモーメントの時間的局所化の課題に対処する。
本稿では,モーメントアライメントネットワーク(HMAN)を提案する。
HMANはビデオ内モーメント間の微妙な違いの学習に加えて、文クエリに基づくビデオ間グローバルセマンティック概念の識別にも重点を置いている。
論文 参考訳(メタデータ) (2020-08-20T00:05:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。