論文の概要: Hierarchical Video-Moment Retrieval and Step-Captioning
- arxiv url: http://arxiv.org/abs/2303.16406v1
- Date: Wed, 29 Mar 2023 02:33:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-30 16:25:47.233042
- Title: Hierarchical Video-Moment Retrieval and Step-Captioning
- Title(参考訳): 階層型ビデオモーメント検索とステップキャプション
- Authors: Abhay Zala, Jaemin Cho, Satwik Kottur, Xilun Chen, Barlas O\u{g}uz,
Yasher Mehdad, Mohit Bansal
- Abstract要約: HiRESTは、インストラクショナルビデオデータセットから3.4Kのテキストビデオペアで構成されている。
我々の階層的ベンチマークは、ビデオ検索、モーメント検索、2つの新しいモーメントセグメンテーション、ステップキャプションタスクからなる。
- 参考スコア(独自算出の注目度): 68.4859260853096
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There is growing interest in searching for information from large video
corpora. Prior works have studied relevant tasks, such as text-based video
retrieval, moment retrieval, video summarization, and video captioning in
isolation, without an end-to-end setup that can jointly search from video
corpora and generate summaries. Such an end-to-end setup would allow for many
interesting applications, e.g., a text-based search that finds a relevant video
from a video corpus, extracts the most relevant moment from that video, and
segments the moment into important steps with captions. To address this, we
present the HiREST (HIerarchical REtrieval and STep-captioning) dataset and
propose a new benchmark that covers hierarchical information retrieval and
visual/textual stepwise summarization from an instructional video corpus.
HiREST consists of 3.4K text-video pairs from an instructional video dataset,
where 1.1K videos have annotations of moment spans relevant to text query and
breakdown of each moment into key instruction steps with caption and timestamps
(totaling 8.6K step captions). Our hierarchical benchmark consists of video
retrieval, moment retrieval, and two novel moment segmentation and step
captioning tasks. In moment segmentation, models break down a video moment into
instruction steps and identify start-end boundaries. In step captioning, models
generate a textual summary for each step. We also present starting point
task-specific and end-to-end joint baseline models for our new benchmark. While
the baseline models show some promising results, there still exists large room
for future improvement by the community. Project website:
https://hirest-cvpr2023.github.io
- Abstract(参考訳): 大規模なビデオコーパスから情報を探すことへの関心が高まっている。
従来の研究は、テキストベースのビデオ検索、モーメント検索、動画要約、動画キャプションを単独で行うなど、ビデオコーパスから共同で検索して要約を生成するエンドツーエンドのセットアップなしで、関連するタスクを研究してきた。
このようなエンドツーエンドのセットアップは、例えばビデオコーパスから関連のあるビデオを見つけ、そのビデオから最も関連性の高い瞬間を抽出し、その瞬間をキャプションで重要なステップに分割するテキストベースの検索など、多くの興味深いアプリケーションを可能にする。
そこで本研究では,ヒレスト(階層的検索とステップカプセル化)データセットを提示し,階層的情報検索と教師付きビデオコーパスからの視覚的/テキスト的ステップワイズ要約をカバーする新しいベンチマークを提案する。
HiRESTは、インストラクショナルビデオデータセットから3.4Kのテキストビデオペアで構成されており、1.1Kビデオはテキストクエリに関連するモーメントのアノテーションを持ち、各モーメントをキャプションとタイムスタンプ(合計8.6Kステップキャプション)を備えたキーインストラクションステップに分解する。
階層的ベンチマークは,ビデオ検索,モーメント検索,および2つの新しいモーメントセグメンテーションとステップキャプションタスクからなる。
瞬間セグメンテーションでは、モデルはビデオモーメントを命令ステップに分解し、始末境界を識別する。
ステップキャプションでは、モデルが各ステップのテキスト要約を生成する。
また、新しいベンチマークの開始点タスク特化モデルとエンドツーエンドのジョイントベースラインモデルも提示する。
ベースラインモデルには有望な結果がいくつかあるが、コミュニティによる今後の改善の余地は大きい。
プロジェクトウェブサイト: https://hirest-cvpr2023.github.io
関連論文リスト
- StoryBench: A Multifaceted Benchmark for Continuous Story Visualization [42.439670922813434]
StoryBench: テキストとビデオのモデルを確実に評価する、新しい、挑戦的なマルチタスクベンチマーク。
我々のベンチマークには、アクション実行、ストーリー継続、ストーリー生成という難易度を高める3つのビデオ生成タスクが含まれている。
従来の動画キャプションから生成したストーリーライクなデータに基づくトレーニングの利点を,小型ながら強力なテキスト・ビデオベースラインで評価した。
論文 参考訳(メタデータ) (2023-08-22T17:53:55Z) - VideoXum: Cross-modal Visual and Textural Summarization of Videos [54.0985975755278]
我々は新しい共同ビデオとテキスト要約タスクを提案する。
目標は、短縮されたビデオクリップと、長いビデオから対応するテキスト要約の両方を生成することだ。
生成された短縮ビデオクリップとテキストナラティブは、セマンティックに適切に調整されるべきである。
論文 参考訳(メタデータ) (2023-03-21T17:51:23Z) - Temporal Perceiving Video-Language Pre-training [112.1790287726804]
本研究は、時間的・意味的な微粒なアライメントを可能にする、新しいテキスト-ビデオのローカライゼーション・プレテキストタスクを導入する。
具体的には、テキスト-ビデオのローカライゼーションは、テキスト記述が与えられたビデオの開始と終了の境界を予測するモーメント検索から成っている。
提案手法は,細粒度フレーム表現と単語表現を結合し,単一モードにおける異なるインスタンスの表現を暗黙的に区別する。
論文 参考訳(メタデータ) (2023-01-18T12:15:47Z) - HierVL: Learning Hierarchical Video-Language Embeddings [108.77600799637172]
HierVLは階層的なビデオ言語埋め込みであり、長期および短期の関連を同時に扱う。
クリップレベルとビデオレベルの両方でテキストと視覚のアライメントを促進する階層的なコントラストトレーニングの目標を導入する。
我々の階層的スキームは、SotAを達成した長期的なビデオ表現と同様に、その単一レベルよりも優れたクリップ表現をもたらす。
論文 参考訳(メタデータ) (2023-01-05T21:53:19Z) - TL;DW? Summarizing Instructional Videos with Task Relevance &
Cross-Modal Saliency [133.75876535332003]
我々は,ビデオ要約の未探索領域である指導ビデオの要約に焦点をあてる。
既存のビデオ要約データセットは、手動のフレームレベルのアノテーションに依存している。
本稿では,文脈対応の時間的ビデオエンコーダとセグメントスコアリング変換器を組み合わせた指導ビデオ要約ネットワークを提案する。
論文 参考訳(メタデータ) (2022-08-14T04:07:40Z) - QVHighlights: Detecting Moments and Highlights in Videos via Natural
Language Queries [89.24431389933703]
Query-based Video Highlights (QVHighlights) データセットを提示する。
これは1万本以上のYouTubeビデオで構成され、幅広いトピックをカバーしている。
データセット内の各ビデオには、(1)人書き自由形式のNLクエリ、(2)クエリに関するビデオw.r.t.の関連モーメント、(3)クエリに関連するすべてのクリップに対する5ポイントスケールのサリエンシスコアが注釈付けされている。
論文 参考訳(メタデータ) (2021-07-20T16:42:58Z) - A Hierarchical Multi-Modal Encoder for Moment Localization in Video
Corpus [31.387948069111893]
テキストクエリにセマンティックにマッチする長いビデオにおいて、短いセグメントを識別する方法を示す。
この問題に対処するために、粗いクリップレベルと微調整フレームレベルの両方でビデオをエンコードするHierArchical Multi-Modal EncodeR (HAMMER)を提案する。
我々は、ActivityNet CaptionsとTVRデータセット上のビデオコーパスにおけるモーメントローカライゼーションのモデルを評価するために、広範囲にわたる実験を行った。
論文 参考訳(メタデータ) (2020-11-18T02:42:36Z) - Text-based Localization of Moments in a Video Corpus [38.393877654679414]
与えられた文問合せのためのビデオコーパス内のモーメントの時間的局所化の課題に対処する。
本稿では,モーメントアライメントネットワーク(HMAN)を提案する。
HMANはビデオ内モーメント間の微妙な違いの学習に加えて、文クエリに基づくビデオ間グローバルセマンティック概念の識別にも重点を置いている。
論文 参考訳(メタデータ) (2020-08-20T00:05:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。