論文の概要: ECLIPSE: Efficient Long-range Video Retrieval using Sight and Sound
- arxiv url: http://arxiv.org/abs/2204.02874v1
- Date: Wed, 6 Apr 2022 14:43:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-07 18:35:16.814995
- Title: ECLIPSE: Efficient Long-range Video Retrieval using Sight and Sound
- Title(参考訳): ECLIPSE:視線と音を用いた高能率長距離ビデオ検索
- Authors: Yan-Bo Lin, Jie Lei, Mohit Bansal, Gedas Bertasius
- Abstract要約: 長距離テキスト・ビデオ検索のためのオーディオビジュアル手法を提案する。
私たちのアプローチは、複雑な人間のアクションを捉えた数分のビデオを検索することを目的としています。
我々の手法は2.92倍高速で、2.34倍のメモリ効率を持つ。
- 参考スコア(独自算出の注目度): 103.28102473127748
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce an audiovisual method for long-range text-to-video retrieval.
Unlike previous approaches designed for short video retrieval (e.g., 5-15
seconds in duration), our approach aims to retrieve minute-long videos that
capture complex human actions. One challenge of standard video-only approaches
is the large computational cost associated with processing hundreds of densely
extracted frames from such long videos. To address this issue, we propose to
replace parts of the video with compact audio cues that succinctly summarize
dynamic audio events and are cheap to process. Our method, named ECLIPSE
(Efficient CLIP with Sound Encoding), adapts the popular CLIP model to an
audiovisual video setting, by adding a unified audiovisual transformer block
that captures complementary cues from the video and audio streams. In addition
to being 2.92x faster and 2.34x memory-efficient than long-range video-only
approaches, our method also achieves better text-to-video retrieval accuracy on
several diverse long-range video datasets such as ActivityNet, QVHighlights,
YouCook2, DiDeMo and Charades.
- Abstract(参考訳): 長距離テキスト・ビデオ検索のためのオーディオビジュアル手法を提案する。
従来の短いビデオ検索(例えば5~15秒間)の手法とは異なり、本手法は複雑な人間の動作を捉えた分間のビデオの検索を目的としている。
標準的なビデオのみのアプローチの課題の1つは、このような長いビデオから数百の高密度に抽出されたフレームを処理することに伴う大きな計算コストである。
この問題に対処するため,我々は,動的オーディオイベントを簡潔に要約し,処理が容易なコンパクトなオーディオキューにビデオの一部を置き換える提案を行う。
ECLIPSE (Efficient CLIP with Sound Encoding) と名付けられたこの手法は,ビデオとオーディオストリームから補完的な手がかりをキャプチャする統合されたオーディオ視覚変換ブロックを追加することで,一般的なCLIPモデルをオーディオ映像設定に適応させる。
また,2.92倍高速で2.34倍のメモリ効率を実現するとともに,ActivityNet,QVHighlights,YouCook2,DiDeMo,Charadesなど,様々な長距離ビデオデータセット上でのテキスト・ビデオ検索精度も向上した。
関連論文リスト
- LVCHAT: Facilitating Long Video Comprehension [25.395689904747965]
本稿では,Long Video Chat (LVChat) を提案する。
LVは、長ビデオのQAデータセットと長ビデオのキャプションベンチマークにおいて、既存の手法を最大27%上回っている。
論文 参考訳(メタデータ) (2024-02-19T11:59:14Z) - Beyond the Frame: Single and mutilple video summarization method with
user-defined length [4.424739166856966]
ビデオの要約は難しいが重要な作業であり、さらなる研究と開発にかなりの可能性がある。
本稿では,NLP技術とビデオ処理技術を組み合わせて,長い動画を比較的短いビデオに変換する。
論文 参考訳(メタデータ) (2023-12-23T04:32:07Z) - A Video is Worth 10,000 Words: Training and Benchmarking with Diverse
Captions for Better Long Video Retrieval [43.58794386905177]
既存の長いビデオ検索システムは、段落から段落までの検索システムで訓練され、テストされる。
これは、ビデオのリッチさと多種多様な有効な記述を無視している。
本稿では,最先端の大規模言語モデルを利用して,多種多様な合成キャプションを注意深く生成するパイプラインを提案する。
論文 参考訳(メタデータ) (2023-11-30T18:59:45Z) - Diverse and Aligned Audio-to-Video Generation via Text-to-Video Model
Adaptation [89.96013329530484]
本研究では,多様な意味クラスから自然音声サンプルによってガイドされる多種多様なリアルなビデオを生成するタスクについて考察する。
既存のテキスト条件付きビデオ生成モデルと事前学習されたオーディオエンコーダモデルを利用する。
提案手法は,音声映像サンプルの有意な意味的多様性を示す3つのデータセットに対して広範に検証する。
論文 参考訳(メタデータ) (2023-09-28T13:26:26Z) - Revisiting Kernel Temporal Segmentation as an Adaptive Tokenizer for
Long-form Video Understanding [57.917616284917756]
実世界のビデオは、しばしば数分間の長さであり、意味的に一貫した長さのセグメントがある。
長いビデオを処理するための一般的なアプローチは、一定時間の長さの一様にサンプリングされたクリップにショートフォームビデオモデルを適用することである。
このアプローチは、固定長のクリップがしばしば冗長または非形式的であるため、長いビデオの基本的な性質を無視する。
論文 参考訳(メタデータ) (2023-09-20T18:13:32Z) - CATR: Combinatorial-Dependence Audio-Queried Transformer for
Audio-Visual Video Segmentation [43.562848631392384]
音声視覚映像のセグメンテーションは、画像フレーム内の音生成対象のピクセルレベルのマップを生成することを目的としている。
本稿では,それぞれの時間的・空間的次元から音声と映像の特徴を結合した非結合型音声・映像依存性を提案する。
論文 参考訳(メタデータ) (2023-09-18T12:24:02Z) - Audio-Driven Dubbing for User Generated Contents via Style-Aware
Semi-Parametric Synthesis [123.11530365315677]
既存の自動ダビングメソッドは通常、PGC(Professionally Generated Content)の生産用に設計されている。
本稿では,ユーザ生成コンテンツ(UGC)制作においてより有効な音声駆動型ダビング手法について検討する。
論文 参考訳(メタデータ) (2023-08-31T15:41:40Z) - Video Generation Beyond a Single Clip [76.5306434379088]
ビデオ生成モデルは、実際のビデオの長さと比較して比較的短いビデオクリップしか生成できない。
多様なコンテンツや複数のイベントをカバーした長いビデオを生成するために,ビデオ生成プロセスを制御するための追加のガイダンスを提案する。
提案手法は、固定時間ウィンドウ内でリアルな映像を生成することに焦点を当てた、既存の映像生成の取り組みを補完するものである。
論文 参考訳(メタデータ) (2023-04-15T06:17:30Z) - SVTS: Scalable Video-to-Speech Synthesis [105.29009019733803]
本稿では,ビデオ・トゥ・スペクトログラム予測器と事前学習したニューラルボコーダの2つのコンポーネントからなるスケーラブルなビデオ音声合成フレームワークを提案する。
私たちは、挑戦的なLSS3データセットで不可解な結果を示す最初の人です。
論文 参考訳(メタデータ) (2022-05-04T13:34:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。