論文の概要: StableFusion: Continual Video Retrieval via Frame Adaptation
- arxiv url: http://arxiv.org/abs/2503.10111v1
- Date: Thu, 13 Mar 2025 07:10:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 15:53:00.443642
- Title: StableFusion: Continual Video Retrieval via Frame Adaptation
- Title(参考訳): StableFusion:フレーム適応による連続的なビデオ検索
- Authors: Zecheng Zhao, Zhi Chen, Zi Huang, Shazia Sadiq, Tong Chen,
- Abstract要約: 連続テキスト・ビデオ検索(CTVR)の最初のベンチマークを紹介する。
分析の結果,既存のTVR手法は,新しいタスクに適応する際に,可塑性を維持するのに苦労していることがわかった。
これらの課題に対処するために,2つの主要コンポーネントからなる新しいCTVRフレームワークであるStableFusionを提案する。
- 参考スコア(独自算出の注目度): 31.879777750189774
- License:
- Abstract: Text-to-Video Retrieval (TVR) aims to match videos with corresponding textual queries, yet the continual influx of new video content poses a significant challenge for maintaining system performance over time. In this work, we introduce the first benchmark for Continual Text-to-Video Retrieval (CTVR) to overcome these limitations. Our analysis reveals that current TVR methods based on pre-trained models struggle to retain plasticity when adapting to new tasks, while existing continual learning approaches experience catastrophic forgetting, resulting in semantic misalignment between historical queries and stored video features. To address these challenges, we propose StableFusion, a novel CTVR framework comprising two main components: the Frame Fusion Adapter (FFA), which captures temporal dynamics in video content while preserving model flexibility, and the Task-Aware Mixture-of-Experts (TAME), which maintains consistent semantic alignment between queries across tasks and the stored video features. Comprehensive evaluations on two benchmark datasets under various task settings demonstrate that StableFusion outperforms existing continual learning and TVR methods, achieving superior retrieval performance with minimal degradation on earlier tasks in the context of continuous video streams. Our code is available at: https://github.com/JasonCodeMaker/CTVR
- Abstract(参考訳): Text-to-Video Retrieval (TVR) は、ビデオと対応するテキストクエリをマッチングすることを目的としている。
本研究では,これらの制限を克服するためのCTVR(Continuous Text-to-Video Retrieval)の最初のベンチマークを紹介する。
分析の結果,従来のTVR手法では,新しいタスクに適応する際の可塑性の維持が困難であり,既存の連続学習手法は破滅的な忘れ込みを経験し,歴史的クエリと記憶されたビデオ特徴とのセマンティックな相違が生じていることがわかった。
これらの課題に対処するために,フレームフュージョンアダプタ (FFA) とタスク・アウェア・ミックス・オブ・エキスパート (TAME) の2つの主要なコンポーネントからなる新しいCTVRフレームワークであるStableFusionを提案する。
各種タスク設定下での2つのベンチマークデータセットの総合評価は、StableFusionが既存の連続学習法とTVR法より優れており、連続ビデオストリームのコンテキストにおいて、以前のタスクを最小限に劣化させることなく、より優れた検索性能を達成することを実証している。
私たちのコードは、https://github.com/JasonCodeMaker/CTVRで利用可能です。
関連論文リスト
- Video Decomposition Prior: A Methodology to Decompose Videos into Layers [74.36790196133505]
本稿では,プロのビデオ編集の実践からインスピレーションを得た,VDP以前の新しいビデオ分解手法を提案する。
VDPフレームワークは、ビデオシーケンスを複数のRGBレイヤと関連する不透明度レベルに分解する。
ビデオオブジェクトのセグメンテーション、デハジング、リライティングといったタスクに対処する。
論文 参考訳(メタデータ) (2024-12-06T10:35:45Z) - SyncVIS: Synchronized Video Instance Segmentation [48.75470418596875]
我々はSyncVISという新しいフレームワークを用いて同期モデリングを行う。
SyncVISはビデオレベルのクエリの埋め込みを明示的に導入し、ビデオレベルのクエリとフレームレベルのクエリの埋め込みを同期させる2つの主要なモジュールを設計する。
提案手法は,提案手法の有効性と汎用性を実証し,最先端の結果を得る。
論文 参考訳(メタデータ) (2024-12-01T16:43:20Z) - VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection [61.54044967253421]
空間的詳細と時間的コヒーレンスを保持するビデオQAペアを特徴とする,新しいデータセットであるVideoEspressoを紹介する。
GPT-4o を用いた QA ペア生成にあたり, 冗長性を抑えるためにセマンティック・アウェア法を用いて構成パイプラインを構築した。
フレームセレクタと2段階の命令微調整推論LVLMを備えたハイブリッドLVLM協調フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-22T08:33:36Z) - Temporal Sentence Grounding in Streaming Videos [60.67022943824329]
本稿では,ストリーミングビデオにおける時間文グラウンディング(TSGSV)の新たな課題に取り組むことを目的とする。
TSGSVの目標は、ビデオストリームと所定の文クエリの関連性を評価することである。
本研究では,(1)モデルが今後のイベントを学習することを可能にするTwinNet構造,(2)冗長な視覚的フレームを除去する言語誘導型特徴圧縮器の2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2023-08-14T12:30:58Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - vCLIMB: A Novel Video Class Incremental Learning Benchmark [53.90485760679411]
本稿では,ビデオ連続学習ベンチマークvCLIMBを紹介する。
vCLIMBは、ビデオ連続学習における深層モデルの破滅的な忘れを解析するための標準化されたテストベッドである。
本稿では,メモリベース連続学習法に適用可能な時間的整合性正規化を提案する。
論文 参考訳(メタデータ) (2022-01-23T22:14:17Z) - Temporal Context Aggregation for Video Retrieval with Contrastive
Learning [81.12514007044456]
フレームレベルの特徴間の時間的長距離情報を組み込んだビデオ表現学習フレームワークTCAを提案する。
提案手法は,映像レベルの特徴を持つ最先端の手法に対して,FIVR-200Kでは17% mAPの大幅な性能上の優位性を示す。
論文 参考訳(メタデータ) (2020-08-04T05:24:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。