論文の概要: Continual Text-to-Video Retrieval with Frame Fusion and Task-Aware Routing
- arxiv url: http://arxiv.org/abs/2503.10111v2
- Date: Thu, 10 Apr 2025 07:20:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-11 12:21:04.036985
- Title: Continual Text-to-Video Retrieval with Frame Fusion and Task-Aware Routing
- Title(参考訳): フレームフュージョンとタスク・アウェア・ルーティングを用いた連続テキスト・ビデオ検索
- Authors: Zecheng Zhao, Zhi Chen, Zi Huang, Shazia Sadiq, Tong Chen,
- Abstract要約: 本稿では,既存のアプローチの限界に対処するため,CTVR(Continuous Text-to-Video Retrieval)の最初のベンチマークを紹介する。
本稿では、2つの重要なコンポーネントからなる新しいCTVRフレームワークであるFrameFusionMoEを提案する。
FrameFusionMoEは、歴史的テキスト・ビデオ関連性を保ちながら、新しいビデオコンテンツへの効果的な適応を可能にし、破滅的な忘れを緩和する。
- 参考スコア(独自算出の注目度): 31.879777750189774
- License:
- Abstract: Text-to-Video Retrieval (TVR) aims to retrieve relevant videos based on textual queries. However, as video content evolves continuously, adapting TVR systems to new data remains a critical yet under-explored challenge. In this paper, we introduce the first benchmark for Continual Text-to-Video Retrieval (CTVR) to address the limitations of existing approaches. Current Pre-Trained Model (PTM)-based TVR methods struggle with maintaining model plasticity when adapting to new tasks, while existing Continual Learning (CL) methods suffer from catastrophic forgetting, leading to semantic misalignment between historical queries and stored video features. To address these two challenges, we propose FrameFusionMoE, a novel CTVR framework that comprises two key components: (1) the Frame Fusion Adapter (FFA), which captures temporal video dynamics while preserving model plasticity, and (2) the Task-Aware Mixture-of-Experts (TAME), which ensures consistent semantic alignment between queries across tasks and the stored video features. Thus, FrameFusionMoE enables effective adaptation to new video content while preserving historical text-video relevance to mitigate catastrophic forgetting. We comprehensively evaluate FrameFusionMoE on two benchmark datasets under various task settings. Results demonstrate that FrameFusionMoE outperforms existing CL and TVR methods, achieving superior retrieval performance with minimal degradation on earlier tasks when handling continuous video streams. Our code is available at: https://github.com/JasonCodeMaker/CTVR.
- Abstract(参考訳): Text-to-Video Retrieval (TVR)は、テキストクエリに基づいて関連ビデオを取得することを目的としている。
しかし、ビデオコンテンツが継続的に進化するにつれて、TVRシステムを新しいデータに適応させることは、依然として重要な課題である。
本稿では,既存のアプローチの限界に対処するため,CTVR(Continuous Text-to-Video Retrieval)の最初のベンチマークを紹介する。
現在のPTM(Pre-Trained Model)ベースのTVR手法は,新しいタスクに適応する際のモデル可塑性の維持に苦慮している。
これら2つの課題に対処するため,(1)フレーム融合アダプタ(FFA)と(2)タスク・アウェア・ミックス・オブ・エクササイズ(TAME)の2つの主要なコンポーネントからなる新しいCTVRフレームワークであるFrameFusionMoEを提案する。
このため、FrameFusionMoEは、歴史的テキスト・ビデオ関連性を保ちながら、新しいビデオコンテンツへの効果的な適応を可能にし、破滅的な忘れを軽減できる。
タスク設定の異なる2つのベンチマークデータセット上でFrameFusionMoEを総合的に評価する。
その結果、FrameFusionMoEは既存のCL法やTVR法よりも優れており、連続ビデオストリーム処理時のタスクの劣化を最小限に抑えながら、検索性能に優れていた。
私たちのコードは、https://github.com/JasonCodeMaker/CTVR.comで利用可能です。
関連論文リスト
- Video Decomposition Prior: A Methodology to Decompose Videos into Layers [74.36790196133505]
本稿では,プロのビデオ編集の実践からインスピレーションを得た,VDP以前の新しいビデオ分解手法を提案する。
VDPフレームワークは、ビデオシーケンスを複数のRGBレイヤと関連する不透明度レベルに分解する。
ビデオオブジェクトのセグメンテーション、デハジング、リライティングといったタスクに対処する。
論文 参考訳(メタデータ) (2024-12-06T10:35:45Z) - SyncVIS: Synchronized Video Instance Segmentation [48.75470418596875]
我々はSyncVISという新しいフレームワークを用いて同期モデリングを行う。
SyncVISはビデオレベルのクエリの埋め込みを明示的に導入し、ビデオレベルのクエリとフレームレベルのクエリの埋め込みを同期させる2つの主要なモジュールを設計する。
提案手法は,提案手法の有効性と汎用性を実証し,最先端の結果を得る。
論文 参考訳(メタデータ) (2024-12-01T16:43:20Z) - VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection [61.54044967253421]
空間的詳細と時間的コヒーレンスを保持するビデオQAペアを特徴とする,新しいデータセットであるVideoEspressoを紹介する。
GPT-4o を用いた QA ペア生成にあたり, 冗長性を抑えるためにセマンティック・アウェア法を用いて構成パイプラインを構築した。
フレームセレクタと2段階の命令微調整推論LVLMを備えたハイブリッドLVLM協調フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-22T08:33:36Z) - Temporal Sentence Grounding in Streaming Videos [60.67022943824329]
本稿では,ストリーミングビデオにおける時間文グラウンディング(TSGSV)の新たな課題に取り組むことを目的とする。
TSGSVの目標は、ビデオストリームと所定の文クエリの関連性を評価することである。
本研究では,(1)モデルが今後のイベントを学習することを可能にするTwinNet構造,(2)冗長な視覚的フレームを除去する言語誘導型特徴圧縮器の2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2023-08-14T12:30:58Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - vCLIMB: A Novel Video Class Incremental Learning Benchmark [53.90485760679411]
本稿では,ビデオ連続学習ベンチマークvCLIMBを紹介する。
vCLIMBは、ビデオ連続学習における深層モデルの破滅的な忘れを解析するための標準化されたテストベッドである。
本稿では,メモリベース連続学習法に適用可能な時間的整合性正規化を提案する。
論文 参考訳(メタデータ) (2022-01-23T22:14:17Z) - Temporal Context Aggregation for Video Retrieval with Contrastive
Learning [81.12514007044456]
フレームレベルの特徴間の時間的長距離情報を組み込んだビデオ表現学習フレームワークTCAを提案する。
提案手法は,映像レベルの特徴を持つ最先端の手法に対して,FIVR-200Kでは17% mAPの大幅な性能上の優位性を示す。
論文 参考訳(メタデータ) (2020-08-04T05:24:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。