Fugu-MT 論文翻訳(概要): Multimodal Lengthy Videos Retrieval Framework and Evaluation Metric

論文の概要: Multimodal Lengthy Videos Retrieval Framework and Evaluation Metric

arxiv url: http://arxiv.org/abs/2504.04572v1
Date: Sun, 06 Apr 2025 18:18:09 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-16 00:55:07.806538
Title: Multimodal Lengthy Videos Retrieval Framework and Evaluation Metric
Title（参考訳）: マルチモーダル長ビデオ検索フレームワークと評価基準
Authors: Mohamed Eltahir, Osamah Sarraj, Mohammed Bremoo, Mohammed Khurd, Abdulrahman Alfrihidi, Taha Alshatiri, Mohammad Almatrafi, Tanveer Hussain,
Abstract要約: 本稿では,視覚的マッチングストリームと聴覚的マッチングストリームと,独自の字幕ベースのビデオセグメンテーションアプローチを組み合わせた統合フレームワークを提案する。我々はYouCook2ベンチマークで実験を行い、有望な検索性能を示す。
参考スコア（独自算出の注目度）: 1.9774761182870912
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Precise video retrieval requires multi-modal correlations to handle unseen vocabulary and scenes, becoming more complex for lengthy videos where models must perform effectively without prior training on a specific dataset. We introduce a unified framework that combines a visual matching stream and an aural matching stream with a unique subtitles-based video segmentation approach. Additionally, the aural stream includes a complementary audio-based two-stage retrieval mechanism that enhances performance on long-duration videos. Considering the complex nature of retrieval from lengthy videos and its corresponding evaluation, we introduce a new retrieval evaluation method specifically designed for long-video retrieval to support further research. We conducted experiments on the YouCook2 benchmark, showing promising retrieval performance.
Abstract（参考訳）: 正確なビデオ検索には、見えない語彙やシーンを扱うためにマルチモーダルな相関が必要である。本稿では,視覚的マッチングストリームと聴覚的マッチングストリームと,独自の字幕ベースのビデオセグメンテーションアプローチを組み合わせた統合フレームワークを提案する。さらに、オーディオストリームには、長調ビデオのパフォーマンスを向上させる補完的なオーディオベースの2段階検索機構が含まれている。長編ビデオからの検索の複雑な性質とそれに対応する評価を考慮し、さらなる研究を支援するために、長編ビデオ検索に特化して設計された新しい検索評価手法を提案する。我々はYouCook2ベンチマーク実験を行い、有望な検索性能を示した。

関連論文リスト

Everything Can Be Described in Words: A Simple Unified Multi-Modal Framework with Semantic and Temporal Alignment [0.0]
時間的推論と大規模マルチモーダルデータ処理の必要性から,Long Video Question Answering (LVQA) は困難である。非常に長い動画を効率的に処理する検索拡張生成フレームワークであるUMaTを紹介する。 UMaTは、マルチモーダル統合、長文ビデオ理解、スパース情報検索において、既存の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2025-03-12T05:28:24Z)
Query-centric Audio-Visual Cognition Network for Moment Retrieval, Segmentation and Step-Captioning [56.873534081386]
ビデオ検索、モーメント検索、モーメントセグメンテーション、ステップキャプションを含む新しいトピックHIRESTが紹介されている。 3つのタスクに対して信頼性の高いマルチモーダル表現を構築するために,クエリ中心の音声視覚認知ネットワークを提案する。これにより、ユーザが優先するコンテンツを認識し、3つのタスクに対してクエリ中心の音声視覚表現を実現することができる。
論文参考訳（メタデータ） (2024-12-18T06:43:06Z)
Scaling Up Video Summarization Pretraining with Large Language Models [73.74662411006426]
本稿では,大規模ビデオ要約データセットを生成するための,自動化されたスケーラブルなパイプラインを提案する。我々は既存のアプローチの限界を分析し、それらに効果的に対処する新しいビデオ要約モデルを提案する。我々の研究は、プロが注釈付けした高品質の要約を持つ1200本の長編ビデオを含む新しいベンチマークデータセットも提示した。
論文参考訳（メタデータ） (2024-04-04T11:59:06Z)
Improving Video Corpus Moment Retrieval with Partial Relevance Enhancement [72.7576395034068]
Video Corpus Moment Retrieval(VCMR)は、テキストクエリを使って、大量の未トリミングビデオから関連する瞬間を検索するための、新しいビデオ検索タスクである。我々は、VCMRタスクにおいて、クエリとビデオの間の部分的関係を効果的に捉えることが不可欠であると主張している。ビデオ検索には,2つのモーダルに対して異なる問合せ表現を生成するマルチモーダル・コラボレーティブ・ビデオレトリバーを導入する。そこで本研究では,モータリティ特異的なゲートを用いたモーメントローカライザを提案する。
論文参考訳（メタデータ） (2024-02-21T07:16:06Z)
ECLIPSE: Efficient Long-range Video Retrieval using Sight and Sound [103.28102473127748]
長距離テキスト・ビデオ検索のためのオーディオビジュアル手法を提案する。私たちのアプローチは、複雑な人間のアクションを捉えた数分のビデオを検索することを目的としています。我々の手法は2.92倍高速で、2.34倍のメモリ効率を持つ。
論文参考訳（メタデータ） (2022-04-06T14:43:42Z)
Video Summarization Based on Video-text Modelling [0.0]
ビデオのセマンティック表現を得るために,マルチモーダルな自己教師型学習フレームワークを提案する。また,より優れた要約を生成するために,動画内の重要なコンテンツを段階的にピンポイントするプログレッシブな映像要約手法も導入する。映像分類に基づく映像要約の質を客観的に評価する枠組みを提案する。
論文参考訳（メタデータ） (2022-01-07T15:21:46Z)
Video Corpus Moment Retrieval with Contrastive Learning [56.249924768243375]
ビデオコーパスモーメント検索(VCMR)は、与えられたテキストクエリに意味的に対応する時間モーメントを取得することです。 VCMRのためのコントラシブラーニング(ReLoCLNet)を用いた検索・ローカリゼーションネットワークを提案する。実験の結果、ReLoCLNetは効率のためにテキストとビデオを個別にエンコードし、その検索精度はクロスモーダル相互作用学習を採用するベースラインと匹敵する。
論文参考訳（メタデータ） (2021-05-13T12:54:39Z)
Temporal Context Aggregation for Video Retrieval with Contrastive Learning [81.12514007044456]
フレームレベルの特徴間の時間的長距離情報を組み込んだビデオ表現学習フレームワークTCAを提案する。提案手法は,映像レベルの特徴を持つ最先端の手法に対して,FIVR-200Kでは17% mAPの大幅な性能上の優位性を示す。
論文参考訳（メタデータ） (2020-08-04T05:24:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。