論文の概要: ECLIPSE: Efficient Long-range Video Retrieval using Sight and Sound
- arxiv url: http://arxiv.org/abs/2204.02874v1
- Date: Wed, 6 Apr 2022 14:43:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-07 18:35:16.814995
- Title: ECLIPSE: Efficient Long-range Video Retrieval using Sight and Sound
- Title(参考訳): ECLIPSE:視線と音を用いた高能率長距離ビデオ検索
- Authors: Yan-Bo Lin, Jie Lei, Mohit Bansal, Gedas Bertasius
- Abstract要約: 長距離テキスト・ビデオ検索のためのオーディオビジュアル手法を提案する。
私たちのアプローチは、複雑な人間のアクションを捉えた数分のビデオを検索することを目的としています。
我々の手法は2.92倍高速で、2.34倍のメモリ効率を持つ。
- 参考スコア(独自算出の注目度): 103.28102473127748
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce an audiovisual method for long-range text-to-video retrieval.
Unlike previous approaches designed for short video retrieval (e.g., 5-15
seconds in duration), our approach aims to retrieve minute-long videos that
capture complex human actions. One challenge of standard video-only approaches
is the large computational cost associated with processing hundreds of densely
extracted frames from such long videos. To address this issue, we propose to
replace parts of the video with compact audio cues that succinctly summarize
dynamic audio events and are cheap to process. Our method, named ECLIPSE
(Efficient CLIP with Sound Encoding), adapts the popular CLIP model to an
audiovisual video setting, by adding a unified audiovisual transformer block
that captures complementary cues from the video and audio streams. In addition
to being 2.92x faster and 2.34x memory-efficient than long-range video-only
approaches, our method also achieves better text-to-video retrieval accuracy on
several diverse long-range video datasets such as ActivityNet, QVHighlights,
YouCook2, DiDeMo and Charades.
- Abstract(参考訳): 長距離テキスト・ビデオ検索のためのオーディオビジュアル手法を提案する。
従来の短いビデオ検索(例えば5~15秒間)の手法とは異なり、本手法は複雑な人間の動作を捉えた分間のビデオの検索を目的としている。
標準的なビデオのみのアプローチの課題の1つは、このような長いビデオから数百の高密度に抽出されたフレームを処理することに伴う大きな計算コストである。
この問題に対処するため,我々は,動的オーディオイベントを簡潔に要約し,処理が容易なコンパクトなオーディオキューにビデオの一部を置き換える提案を行う。
ECLIPSE (Efficient CLIP with Sound Encoding) と名付けられたこの手法は,ビデオとオーディオストリームから補完的な手がかりをキャプチャする統合されたオーディオ視覚変換ブロックを追加することで,一般的なCLIPモデルをオーディオ映像設定に適応させる。
また,2.92倍高速で2.34倍のメモリ効率を実現するとともに,ActivityNet,QVHighlights,YouCook2,DiDeMo,Charadesなど,様々な長距離ビデオデータセット上でのテキスト・ビデオ検索精度も向上した。
関連論文リスト
- SAVEn-Vid: Synergistic Audio-Visual Integration for Enhanced Understanding in Long Video Context [19.224601064352846]
SAVEn-Vidは,58k以上の音声・視覚的指示を含む,史上初の音声・視覚的ビデオデータセットである。
AVBenchは、ロングビデオ内の音声・視覚的理解タスクの強化に関するモデルを評価するためにデザインされた2500QAを含むベンチマークである。
実験により、SAVEnVideoは、ゼロショット長ビデオタスク(Video-MME)で3.61%、ゼロショット長ビデオタスク(Music-AVQA)で1.29%、最上位のオーディオ・ヴィジュアル・タスク(Music-AVQA)で1.29%を上回った。
論文 参考訳(メタデータ) (2024-11-25T09:22:13Z) - LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding [65.46303012350207]
LongVUは、長いビデオの視覚的詳細を保存しながら、ビデオトークンの数を減らす適応圧縮機構である。
DINOv2の機能を利用して、高い類似性を示す冗長なフレームを削除します。
時間的依存関係に基づいて,フレーム間の空間トークン削減を行う。
論文 参考訳(メタデータ) (2024-10-22T21:21:37Z) - StreamingT2V: Consistent, Dynamic, and Extendable Long Video Generation from Text [58.49820807662246]
本稿では,80,240,600,1200以上のフレームをスムーズな遷移で自動回帰的に生成するStreamingT2Vを紹介する。
私たちのコードは、https://github.com/Picsart-AI-Research/StreamingT2V.comで利用可能です。
論文 参考訳(メタデータ) (2024-03-21T18:27:29Z) - LVCHAT: Facilitating Long Video Comprehension [25.395689904747965]
本稿では,Long Video Chat (LVChat) を提案する。
LVは、長ビデオのQAデータセットと長ビデオのキャプションベンチマークにおいて、既存の手法を最大27%上回っている。
論文 参考訳(メタデータ) (2024-02-19T11:59:14Z) - Beyond the Frame: Single and mutilple video summarization method with
user-defined length [4.424739166856966]
ビデオの要約は難しいが重要な作業であり、さらなる研究と開発にかなりの可能性がある。
本稿では,NLP技術とビデオ処理技術を組み合わせて,長い動画を比較的短いビデオに変換する。
論文 参考訳(メタデータ) (2023-12-23T04:32:07Z) - Diverse and Aligned Audio-to-Video Generation via Text-to-Video Model
Adaptation [89.96013329530484]
本研究では,多様な意味クラスから自然音声サンプルによってガイドされる多種多様なリアルなビデオを生成するタスクについて考察する。
既存のテキスト条件付きビデオ生成モデルと事前学習されたオーディオエンコーダモデルを利用する。
提案手法は,音声映像サンプルの有意な意味的多様性を示す3つのデータセットに対して広範に検証する。
論文 参考訳(メタデータ) (2023-09-28T13:26:26Z) - CATR: Combinatorial-Dependence Audio-Queried Transformer for
Audio-Visual Video Segmentation [43.562848631392384]
音声視覚映像のセグメンテーションは、画像フレーム内の音生成対象のピクセルレベルのマップを生成することを目的としている。
本稿では,それぞれの時間的・空間的次元から音声と映像の特徴を結合した非結合型音声・映像依存性を提案する。
論文 参考訳(メタデータ) (2023-09-18T12:24:02Z) - Audio-Driven Dubbing for User Generated Contents via Style-Aware
Semi-Parametric Synthesis [123.11530365315677]
既存の自動ダビングメソッドは通常、PGC(Professionally Generated Content)の生産用に設計されている。
本稿では,ユーザ生成コンテンツ(UGC)制作においてより有効な音声駆動型ダビング手法について検討する。
論文 参考訳(メタデータ) (2023-08-31T15:41:40Z) - Video Generation Beyond a Single Clip [76.5306434379088]
ビデオ生成モデルは、実際のビデオの長さと比較して比較的短いビデオクリップしか生成できない。
多様なコンテンツや複数のイベントをカバーした長いビデオを生成するために,ビデオ生成プロセスを制御するための追加のガイダンスを提案する。
提案手法は、固定時間ウィンドウ内でリアルな映像を生成することに焦点を当てた、既存の映像生成の取り組みを補完するものである。
論文 参考訳(メタデータ) (2023-04-15T06:17:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。