論文の概要: Beyond the Frame: Single and mutilple video summarization method with
user-defined length
- arxiv url: http://arxiv.org/abs/2401.10254v1
- Date: Sat, 23 Dec 2023 04:32:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-28 16:28:32.994497
- Title: Beyond the Frame: Single and mutilple video summarization method with
user-defined length
- Title(参考訳): フレームを超えて: ユーザ定義長の単一かつ多用なビデオ要約法
- Authors: Vahid Ahmadi Kalkhorani, Qingquan Zhang, Guanqun Song, Ting Zhu
- Abstract要約: ビデオの要約は難しいが重要な作業であり、さらなる研究と開発にかなりの可能性がある。
本稿では,NLP技術とビデオ処理技術を組み合わせて,長い動画を比較的短いビデオに変換する。
- 参考スコア(独自算出の注目度): 4.424739166856966
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video smmarization is a crucial method to reduce the time of videos which
reduces the spent time to watch/review a long video. This apporach has became
more important as the amount of publisehed video is increasing everyday. A
single or multiple videos can be summarized into a relatively short video using
various of techniques from multimodal audio-visual techniques, to natural
language processing approaches. Audiovisual techniques may be used to recognize
significant visual events and pick the most important parts, while NLP
techniques can be used to evaluate the audio transcript and extract the main
sentences (timestamps) and corresponding video frames from the original video.
Another approach is to use the best of both domain. Meaning that we can use
audio-visual cues as well as video transcript to extract and summarize the
video. In this paper, we combine a variety of NLP techniques (extractive and
contect-based summarizers) with video processing techniques to convert a long
video into a single relatively short video. We design this toll in a way that
user can specify the relative length of the summarized video. We have also
explored ways of summarizing and concatenating multiple videos into a single
short video which will help having most important concepts from the same
subject in a single short video. Out approach shows that video summarizing is a
difficult but significant work, with substantial potential for further research
and development, and it is possible thanks to the development of NLP models.
- Abstract(参考訳): ビデオのsmmarizationは、長いビデオの視聴/再生に要する時間を短縮する、ビデオの時間を削減するための重要な方法である。
毎日の出版ビデオの増加に伴い、このアポラチはますます重要になっている。
単一または複数のビデオは、マルチモーダルオーディオ視覚技術から自然言語処理アプローチまで、様々な技術を用いて、比較的短いビデオにまとめることができる。
オーディオビジュアル技術は重要な視覚イベントを認識し、最も重要な部分を選択するのに使うことができるが、nlp技術は音声の書き起こしを評価し、元のビデオから主文(タイムスタンプ)と対応するビデオフレームを抽出するのに使うことができる。
もう1つのアプローチは、両方のドメインのベストを使用することです。
つまり、音声と視覚の手がかりだけでなく、ビデオの書き起こしも、ビデオの抽出と要約に利用できます。
本稿では,様々なnlp技術(extractive and contect-based summaryr)とビデオ処理技術を組み合わせることで,長い映像を1つの比較的短い映像に変換する。
この料金は、ユーザが要約ビデオの相対的長さを指定できるように設計する。
また、複数の動画を1つの短いビデオにまとめ、まとめる方法も検討しており、同じ主題から最も重要な概念を1つの短いビデオにまとめるのに役立ちます。
アウトアプローチは、ビデオの要約は難しいが重要な作業であり、さらなる研究と開発の可能性があり、NLPモデルの開発により可能であることを示している。
関連論文リスト
- Step Differences in Instructional Video [34.551572600535565]
本論文では,HowTo100Mから一対の動画を含む視覚的インストラクション・チューニングデータを生成する手法を提案する。
次に、ビデオ条件付き言語モデルをトレーニングして、複数の生のビデオに共同で理由付けします。
本モデルでは,ビデオペアとランキングビデオの違いを識別し,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-04-24T21:49:59Z) - InternVideo2: Scaling Foundation Models for Multimodal Video Understanding [51.129913789991924]
InternVideo2は、ビデオファウンデーションモデル(FM)の新たなファミリーで、ビデオ認識、ビデオ音声タスク、ビデオ中心タスクの最先端の結果を達成する。
私たちのコアデザインは、マスク付きビデオモデリング、クロスコントラスト学習、予測トークンを統合し、最大6Bビデオサイズまでスケールアップするプログレッシブトレーニングアプローチです。
論文 参考訳(メタデータ) (2024-03-22T17:57:42Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - Causal Video Summarizer for Video Exploration [74.27487067877047]
Causal Video Summarizer (CVS) はビデオとクエリ間の対話的な情報をキャプチャするために提案されている。
既存のマルチモーダル映像要約データセットの評価から,提案手法が有効であることを示す実験結果が得られた。
論文 参考訳(メタデータ) (2023-07-04T22:52:16Z) - TL;DW? Summarizing Instructional Videos with Task Relevance &
Cross-Modal Saliency [133.75876535332003]
我々は,ビデオ要約の未探索領域である指導ビデオの要約に焦点をあてる。
既存のビデオ要約データセットは、手動のフレームレベルのアノテーションに依存している。
本稿では,文脈対応の時間的ビデオエンコーダとセグメントスコアリング変換器を組み合わせた指導ビデオ要約ネットワークを提案する。
論文 参考訳(メタデータ) (2022-08-14T04:07:40Z) - ECLIPSE: Efficient Long-range Video Retrieval using Sight and Sound [103.28102473127748]
長距離テキスト・ビデオ検索のためのオーディオビジュアル手法を提案する。
私たちのアプローチは、複雑な人間のアクションを捉えた数分のビデオを検索することを目的としています。
我々の手法は2.92倍高速で、2.34倍のメモリ効率を持つ。
論文 参考訳(メタデータ) (2022-04-06T14:43:42Z) - Text-Driven Video Acceleration: A Weakly-Supervised Reinforcement
Learning Method [6.172652648945223]
本稿では,テキストを用いた指導ビデオの高速化を目的とした,弱教師付き手法を提案する。
新たな共同報酬関数がエージェントを誘導し、どのフレームから入力ビデオを取り除き、ターゲット長に減らすかを選択する。
また,高度に識別可能な埋め込み空間を生成可能な拡張視覚誘導型文書注意ネットワーク(VDAN+)を提案する。
論文 参考訳(メタデータ) (2022-03-29T17:43:01Z) - Less is More: ClipBERT for Video-and-Language Learning via Sparse
Sampling [98.41300980759577]
ビデオと言語の学習に対する標準的なアプローチは、オフラインで抽出された高密度ビデオ機能から学習するニューラルネットワークを規定する。
本稿では,ビデオ・言語タスクに対して,手頃なエンドツーエンド学習を可能にする汎用フレームワークClipBERTを提案する。
6つのデータセットにおけるテキスト・ビデオ検索とビデオ質問応答の実験は、ClipBERTが既存の手法より優れていることを示した。
論文 参考訳(メタデータ) (2021-02-11T18:50:16Z) - Straight to the Point: Fast-forwarding Videos via Reinforcement Learning
Using Textual Data [1.004766879203303]
本稿では,指導ビデオの高速化を目的とした強化学習の定式化に基づく新しい手法を提案する。
本手法では,最終映像のギャップを生じさせることなく,情報伝達に関係のないフレームを適応的に選択できる。
本稿では,VDAN(Visually-Guided Document Attention Network)と呼ばれる新しいネットワークを提案する。
論文 参考訳(メタデータ) (2020-03-31T14:07:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。