論文の概要: Joint Moment Retrieval and Highlight Detection Via Natural Language
Queries
- arxiv url: http://arxiv.org/abs/2305.04961v1
- Date: Mon, 8 May 2023 18:00:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-10 14:53:08.921386
- Title: Joint Moment Retrieval and Highlight Detection Via Natural Language
Queries
- Title(参考訳): 自然言語クエリによる共同モーメント検索とハイライト検出
- Authors: Richard Luo, Austin Peng, Heidi Yap and Koby Beard
- Abstract要約: 本稿では,自然言語クエリに基づく共同動画要約とハイライト検出のための新しい手法を提案する。
このアプローチでは、視覚とオーディオの両方のキューを使用して、ユーザの自然言語クエリにマッチして、ビデオから最も関連性があり興味深い瞬間を検索する。
提案手法では、視覚変換器(ViT)で使用される複数の手法を用いて、トランスフォーマーライクなエンコーダデコーダモデルを作成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video summarization has become an increasingly important task in the field of
computer vision due to the vast amount of video content available on the
internet. In this project, we propose a new method for natural language query
based joint video summarization and highlight detection using multi-modal
transformers. This approach will use both visual and audio cues to match a
user's natural language query to retrieve the most relevant and interesting
moments from a video. Our approach employs multiple recent techniques used in
Vision Transformers (ViTs) to create a transformer-like encoder-decoder model.
We evaluated our approach on multiple datasets such as YouTube Highlights and
TVSum to demonstrate the flexibility of our proposed method.
- Abstract(参考訳): ビデオ要約は、インターネットで利用可能な膨大なビデオコンテンツのため、コンピュータビジョンの分野でますます重要なタスクになっている。
本研究では,マルチモーダルトランスフォーマーを用いた自然言語問合せに基づく映像要約とハイライト検出のための新しい手法を提案する。
このアプローチでは、ビジュアルとオーディオの両方のヒントを使用して、ユーザの自然言語クエリをマッチさせて、ビデオから最も重要で興味深いモーメントを検索する。
提案手法では、視覚変換器(ViT)で使用される複数の手法を用いて、トランスフォーマライクなエンコーダデコーダモデルを作成する。
提案手法の柔軟性を示すために,YouTube Highlights や TVSum などの複数のデータセットに対するアプローチを評価した。
関連論文リスト
- Realizing Video Summarization from the Path of Language-based Semantic Understanding [19.825666473712197]
本稿では,Mixture of Experts(MoE)パラダイムに触発された新しいビデオ要約フレームワークを提案する。
提案手法は,複数のビデオLLMを統合し,包括的で一貫性のあるテキスト要約を生成する。
論文 参考訳(メタデータ) (2024-10-06T15:03:22Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - AVTENet: Audio-Visual Transformer-based Ensemble Network Exploiting
Multiple Experts for Video Deepfake Detection [53.448283629898214]
近年の超現実的なディープフェイクビデオの普及は、オーディオと視覚の偽造の脅威に注意を向けている。
AI生成のフェイクビデオの検出に関するこれまでのほとんどの研究は、視覚的モダリティまたはオーディオ的モダリティのみを使用していた。
音響操作と視覚操作の両方を考慮したAVTENet(Audio-Visual Transformer-based Ensemble Network)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-19T19:01:26Z) - UMT: Unified Multi-modal Transformers for Joint Video Moment Retrieval
and Highlight Detection [46.25856560381347]
我々は、Unified Multi-modal Transformers (UMT) という、最初の統一されたフレームワークを提示する。
UMTはそのような共同最適化を実現することができるが、個々の問題を解決するために容易に分解できる。
我々の知る限り、これは共同最適化と個別モーメント検索のいずれにもマルチモーダル(視覚)学習を統合する最初のスキームである。
論文 参考訳(メタデータ) (2022-03-23T22:11:43Z) - All in One: Exploring Unified Video-Language Pre-training [44.22059872694995]
そこで本研究では,生のビデオとテキストの信号を共同表現に組み込んだ,エンドツーエンドのビデオ言語モデルであるtextitall-in-one Transformerを提案する。
コードと事前訓練されたモデルはhttps://github.com/showlab/all-in-one.comでリリースされた。
論文 参考訳(メタデータ) (2022-03-14T17:06:30Z) - Hierarchical Multimodal Transformer to Summarize Videos [103.47766795086206]
変換器の大成功とビデオの自然な構造(フレームショットビデオ)に触発された階層変換器は,映像要約のために開発された。
2種類の情報を統合するために、2ストリーム方式で符号化し、階層変換器に基づいて多モード融合機構を開発する。
実際、広範な実験により、HMTは従来のRNNベースおよび注意に基づくビデオ要約手法のほとんどを超越していることが示された。
論文 参考訳(メタデータ) (2021-09-22T07:38:59Z) - GPT2MVS: Generative Pre-trained Transformer-2 for Multi-modal Video
Summarization [18.543372365239673]
提案モデルは,コンテキスト化された映像要約制御器,マルチモーダルアテンション機構,対話型アテンションネットワーク,映像要約生成器から構成される。
その結果, 最新手法と比較して, 精度5.88%, F1スコアが4.06%上昇し, このモデルが有効であることが示された。
論文 参考訳(メタデータ) (2021-04-26T10:50:37Z) - Multi-modal Transformer for Video Retrieval [67.86763073161012]
ビデオの様々なモードを共同で符号化するマルチモーダルトランスを提案する。
自然言語に関しては,マルチモーダル変換器と組み合わさった言語を最適化するベストプラクティスについて検討する。
この新たなフレームワークにより,3つのデータセット上での映像検索の最先端化が可能となる。
論文 参考訳(メタデータ) (2020-07-21T07:38:46Z) - Self-Supervised MultiModal Versatile Networks [76.19886740072808]
我々は、ビデオに自然に存在する3つのモダリティ(ビジュアル、オーディオ、言語ストリーム)を活用することで、自己スーパービジョンを用いて表現を学習する。
ビデオ, ビデオテキスト, 画像, 音声タスクに対して, ビデオデータの大規模な収集を訓練したネットワークを, どのように適用できるかを実証する。
論文 参考訳(メタデータ) (2020-06-29T17:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。