Fugu-MT 論文翻訳(概要): ECLIPSE: Efficient Long-range Video Retrieval using Sight and Sound

論文の概要: ECLIPSE: Efficient Long-range Video Retrieval using Sight and Sound

arxiv url: http://arxiv.org/abs/2204.02874v1
Date: Wed, 6 Apr 2022 14:43:42 GMT
ステータス: 翻訳完了
システム内更新日: 2022-04-07 18:35:16.814995
Title: ECLIPSE: Efficient Long-range Video Retrieval using Sight and Sound
Title（参考訳）: ECLIPSE:視線と音を用いた高能率長距離ビデオ検索
Authors: Yan-Bo Lin, Jie Lei, Mohit Bansal, Gedas Bertasius
Abstract要約: 長距離テキスト・ビデオ検索のためのオーディオビジュアル手法を提案する。私たちのアプローチは、複雑な人間のアクションを捉えた数分のビデオを検索することを目的としています。我々の手法は2.92倍高速で、2.34倍のメモリ効率を持つ。
参考スコア（独自算出の注目度）: 103.28102473127748
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce an audiovisual method for long-range text-to-video retrieval. Unlike previous approaches designed for short video retrieval (e.g., 5-15 seconds in duration), our approach aims to retrieve minute-long videos that capture complex human actions. One challenge of standard video-only approaches is the large computational cost associated with processing hundreds of densely extracted frames from such long videos. To address this issue, we propose to replace parts of the video with compact audio cues that succinctly summarize dynamic audio events and are cheap to process. Our method, named ECLIPSE (Efficient CLIP with Sound Encoding), adapts the popular CLIP model to an audiovisual video setting, by adding a unified audiovisual transformer block that captures complementary cues from the video and audio streams. In addition to being 2.92x faster and 2.34x memory-efficient than long-range video-only approaches, our method also achieves better text-to-video retrieval accuracy on several diverse long-range video datasets such as ActivityNet, QVHighlights, YouCook2, DiDeMo and Charades.
Abstract（参考訳）: 長距離テキスト・ビデオ検索のためのオーディオビジュアル手法を提案する。従来の短いビデオ検索(例えば5～15秒間)の手法とは異なり、本手法は複雑な人間の動作を捉えた分間のビデオの検索を目的としている。標準的なビデオのみのアプローチの課題の1つは、このような長いビデオから数百の高密度に抽出されたフレームを処理することに伴う大きな計算コストである。この問題に対処するため,我々は,動的オーディオイベントを簡潔に要約し,処理が容易なコンパクトなオーディオキューにビデオの一部を置き換える提案を行う。 ECLIPSE (Efficient CLIP with Sound Encoding) と名付けられたこの手法は,ビデオとオーディオストリームから補完的な手がかりをキャプチャする統合されたオーディオ視覚変換ブロックを追加することで,一般的なCLIPモデルをオーディオ映像設定に適応させる。また,2.92倍高速で2.34倍のメモリ効率を実現するとともに,ActivityNet,QVHighlights,YouCook2,DiDeMo,Charadesなど,様々な長距離ビデオデータセット上でのテキスト・ビデオ検索精度も向上した。

関連論文リスト

Multimodal Lengthy Videos Retrieval Framework and Evaluation Metric [1.9774761182870912]
本稿では,視覚的マッチングストリームと聴覚的マッチングストリームと,独自の字幕ベースのビデオセグメンテーションアプローチを組み合わせた統合フレームワークを提案する。我々はYouCook2ベンチマークで実験を行い、有望な検索性能を示す。
論文参考訳（メタデータ） (2025-04-06T18:18:09Z)
Semi-Supervised Audio-Visual Video Action Recognition with Audio Source Localization Guided Mixup [2.80888070977859]
映像と音声を併用した映像行動認識のための音声・視覚SSLを提案する。 UCF-51, Kinetics-400, VGGSoundデータセットの実験では,提案手法の優れた性能を示す。
論文参考訳（メタデータ） (2025-03-04T05:13:56Z)
Parameter-free Video Segmentation for Vision and Language Understanding [55.20132267309382]
最小記述長の原理に基づいて,映像を連続的なチャンクに分割するアルゴリズムを提案する。アルゴリズムは完全にパラメータフリーで、設定された閾値や指定するチャンクの数やサイズを必要としない特徴ベクトルが与えられる。
論文参考訳（メタデータ） (2025-03-03T05:54:37Z)
VideoChat-Flash: Hierarchical Compression for Long-Context Video Modeling [43.485687038460895]
マルチモーダル大言語モデル(MLLM)における長文ビデオモデリングの重要性本稿では,モデルアーキテクチャ,トレーニングデータ,トレーニング戦略,評価ベンチマークといった側面からこの問題に対処することを目的とする。我々はVideoChat-Flashという強力なビデオMLLMを構築し、メインストリームのビデオベンチマークとショートビデオベンチマークの両方で主要なパフォーマンスを示している。
論文参考訳（メタデータ） (2024-12-31T18:01:23Z)
SAVEn-Vid: Synergistic Audio-Visual Integration for Enhanced Understanding in Long Video Context [19.224601064352846]
SAVEn-Vidは,58k以上の音声・視覚的指示を含む,史上初の音声・視覚的ビデオデータセットである。 AVBenchは、ロングビデオ内の音声・視覚的理解タスクの強化に関するモデルを評価するためにデザインされた2500QAを含むベンチマークである。実験により、SAVEnVideoは、ゼロショット長ビデオタスク(Video-MME)で3.61%、ゼロショット長ビデオタスク(Music-AVQA)で1.29%、最上位のオーディオ・ヴィジュアル・タスク(Music-AVQA)で1.29%を上回った。
論文参考訳（メタデータ） (2024-11-25T09:22:13Z)
LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding [65.46303012350207]
LongVUは、長いビデオの視覚的詳細を保存しながら、ビデオトークンの数を減らす適応圧縮機構である。 DINOv2の機能を利用して、高い類似性を示す冗長なフレームを削除します。時間的依存関係に基づいて,フレーム間の空間トークン削減を行う。
論文参考訳（メタデータ） (2024-10-22T21:21:37Z)
StreamingT2V: Consistent, Dynamic, and Extendable Long Video Generation from Text [58.49820807662246]
本稿では,80,240,600,1200以上のフレームをスムーズな遷移で自動回帰的に生成するStreamingT2Vを紹介する。私たちのコードは、https://github.com/Picsart-AI-Research/StreamingT2V.comで利用可能です。
論文参考訳（メタデータ） (2024-03-21T18:27:29Z)
LVCHAT: Facilitating Long Video Comprehension [25.395689904747965]
本稿では,Long Video Chat (LVChat) を提案する。 LVは、長ビデオのQAデータセットと長ビデオのキャプションベンチマークにおいて、既存の手法を最大27%上回っている。
論文参考訳（メタデータ） (2024-02-19T11:59:14Z)
Beyond the Frame: Single and mutilple video summarization method with user-defined length [4.424739166856966]
ビデオの要約は難しいが重要な作業であり、さらなる研究と開発にかなりの可能性がある。本稿では,NLP技術とビデオ処理技術を組み合わせて,長い動画を比較的短いビデオに変換する。
論文参考訳（メタデータ） (2023-12-23T04:32:07Z)
A Video is Worth 10,000 Words: Training and Benchmarking with Diverse Captions for Better Long Video Retrieval [43.58794386905177]
既存の長いビデオ検索システムは、段落から段落までの検索システムで訓練され、テストされる。これは、ビデオのリッチさと多種多様な有効な記述を無視している。本稿では,最先端の大規模言語モデルを利用して,多種多様な合成キャプションを注意深く生成するパイプラインを提案する。
論文参考訳（メタデータ） (2023-11-30T18:59:45Z)
Diverse and Aligned Audio-to-Video Generation via Text-to-Video Model Adaptation [89.96013329530484]
本研究では,多様な意味クラスから自然音声サンプルによってガイドされる多種多様なリアルなビデオを生成するタスクについて考察する。既存のテキスト条件付きビデオ生成モデルと事前学習されたオーディオエンコーダモデルを利用する。提案手法は,音声映像サンプルの有意な意味的多様性を示す3つのデータセットに対して広範に検証する。
論文参考訳（メタデータ） (2023-09-28T13:26:26Z)
Audio-Driven Dubbing for User Generated Contents via Style-Aware Semi-Parametric Synthesis [123.11530365315677]
既存の自動ダビングメソッドは通常、PGC(Professionally Generated Content)の生産用に設計されている。本稿では,ユーザ生成コンテンツ(UGC)制作においてより有効な音声駆動型ダビング手法について検討する。
論文参考訳（メタデータ） (2023-08-31T15:41:40Z)
Video Generation Beyond a Single Clip [76.5306434379088]
ビデオ生成モデルは、実際のビデオの長さと比較して比較的短いビデオクリップしか生成できない。多様なコンテンツや複数のイベントをカバーした長いビデオを生成するために,ビデオ生成プロセスを制御するための追加のガイダンスを提案する。提案手法は、固定時間ウィンドウ内でリアルな映像を生成することに焦点を当てた、既存の映像生成の取り組みを補完するものである。
論文参考訳（メタデータ） (2023-04-15T06:17:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。