論文の概要: StableFusion: Continual Video Retrieval via Frame Adaptation
- arxiv url: http://arxiv.org/abs/2503.10111v1
- Date: Thu, 13 Mar 2025 07:10:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 21:36:22.569219
- Title: StableFusion: Continual Video Retrieval via Frame Adaptation
- Title(参考訳): StableFusion:フレーム適応による連続的なビデオ検索
- Authors: Zecheng Zhao, Zhi Chen, Zi Huang, Shazia Sadiq, Tong Chen,
- Abstract要約: 連続テキスト・ビデオ検索(CTVR)の最初のベンチマークを紹介する。
分析の結果,既存のTVR手法は,新しいタスクに適応する際に,可塑性を維持するのに苦労していることがわかった。
これらの課題に対処するために,2つの主要コンポーネントからなる新しいCTVRフレームワークであるStableFusionを提案する。
- 参考スコア(独自算出の注目度): 31.879777750189774
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-Video Retrieval (TVR) aims to match videos with corresponding textual queries, yet the continual influx of new video content poses a significant challenge for maintaining system performance over time. In this work, we introduce the first benchmark for Continual Text-to-Video Retrieval (CTVR) to overcome these limitations. Our analysis reveals that current TVR methods based on pre-trained models struggle to retain plasticity when adapting to new tasks, while existing continual learning approaches experience catastrophic forgetting, resulting in semantic misalignment between historical queries and stored video features. To address these challenges, we propose StableFusion, a novel CTVR framework comprising two main components: the Frame Fusion Adapter (FFA), which captures temporal dynamics in video content while preserving model flexibility, and the Task-Aware Mixture-of-Experts (TAME), which maintains consistent semantic alignment between queries across tasks and the stored video features. Comprehensive evaluations on two benchmark datasets under various task settings demonstrate that StableFusion outperforms existing continual learning and TVR methods, achieving superior retrieval performance with minimal degradation on earlier tasks in the context of continuous video streams. Our code is available at: https://github.com/JasonCodeMaker/CTVR
- Abstract(参考訳): Text-to-Video Retrieval (TVR) は、ビデオと対応するテキストクエリをマッチングすることを目的としている。
本研究では,これらの制限を克服するためのCTVR(Continuous Text-to-Video Retrieval)の最初のベンチマークを紹介する。
分析の結果,従来のTVR手法では,新しいタスクに適応する際の可塑性の維持が困難であり,既存の連続学習手法は破滅的な忘れ込みを経験し,歴史的クエリと記憶されたビデオ特徴とのセマンティックな相違が生じていることがわかった。
これらの課題に対処するために,フレームフュージョンアダプタ (FFA) とタスク・アウェア・ミックス・オブ・エキスパート (TAME) の2つの主要なコンポーネントからなる新しいCTVRフレームワークであるStableFusionを提案する。
各種タスク設定下での2つのベンチマークデータセットの総合評価は、StableFusionが既存の連続学習法とTVR法より優れており、連続ビデオストリームのコンテキストにおいて、以前のタスクを最小限に劣化させることなく、より優れた検索性能を達成することを実証している。
私たちのコードは、https://github.com/JasonCodeMaker/CTVRで利用可能です。
関連論文リスト
- VideoComp: Advancing Fine-Grained Compositional and Temporal Alignment in Video-Text Models [48.00262713744499]
VideoCompは、ビデオテキストの構成性を理解するためのベンチマークおよび学習フレームワークである。
我々は,再順序付け,行動語置換,部分的字幕化,複合的ディスラプションなどの微妙な時間的破壊を伴う挑戦的な負のサンプルを作成する。
これらのベンチマークは、拡張された凝集性ビデオテキストシーケンスにわたるモデルの構成感度を包括的にテストする。
論文 参考訳(メタデータ) (2025-04-04T22:24:30Z) - HierarQ: Task-Aware Hierarchical Q-Former for Enhanced Video Understanding [14.464718780172582]
タスク対応の階層型Q-FormerベースのフレームワークであるHierarQを導入する。
ビデオ理解にタスク認識を組み込むために,軽量な2ストリーム言語誘導機能変調器を導入する。
ビデオ理解、質問応答、キャプションタスクにわたる10の動画ベンチマークの大規模な評価は、HierarQの最先端のパフォーマンスを示している。
論文 参考訳(メタデータ) (2025-03-11T16:21:23Z) - Video Decomposition Prior: A Methodology to Decompose Videos into Layers [74.36790196133505]
本稿では,プロのビデオ編集の実践からインスピレーションを得た,VDP以前の新しいビデオ分解手法を提案する。
VDPフレームワークは、ビデオシーケンスを複数のRGBレイヤと関連する不透明度レベルに分解する。
ビデオオブジェクトのセグメンテーション、デハジング、リライティングといったタスクに対処する。
論文 参考訳(メタデータ) (2024-12-06T10:35:45Z) - SyncVIS: Synchronized Video Instance Segmentation [48.75470418596875]
我々はSyncVISという新しいフレームワークを用いて同期モデリングを行う。
SyncVISはビデオレベルのクエリの埋め込みを明示的に導入し、ビデオレベルのクエリとフレームレベルのクエリの埋め込みを同期させる2つの主要なモジュールを設計する。
提案手法は,提案手法の有効性と汎用性を実証し,最先端の結果を得る。
論文 参考訳(メタデータ) (2024-12-01T16:43:20Z) - VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection [61.54044967253421]
空間的詳細と時間的コヒーレンスを保持するビデオQAペアを特徴とする,新しいデータセットであるVideoEspressoを紹介する。
GPT-4o を用いた QA ペア生成にあたり, 冗長性を抑えるためにセマンティック・アウェア法を用いて構成パイプラインを構築した。
フレームセレクタと2段階の命令微調整推論LVLMを備えたハイブリッドLVLM協調フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-22T08:33:36Z) - Improving Video Corpus Moment Retrieval with Partial Relevance Enhancement [72.7576395034068]
Video Corpus Moment Retrieval(VCMR)は、テキストクエリを使って、大量の未トリミングビデオから関連する瞬間を検索するための、新しいビデオ検索タスクである。
我々は、VCMRタスクにおいて、クエリとビデオの間の部分的関係を効果的に捉えることが不可欠であると主張している。
ビデオ検索には,2つのモーダルに対して異なる問合せ表現を生成するマルチモーダル・コラボレーティブ・ビデオレトリバーを導入する。
そこで本研究では,モータリティ特異的なゲートを用いたモーメントローカライザを提案する。
論文 参考訳(メタデータ) (2024-02-21T07:16:06Z) - Temporal Sentence Grounding in Streaming Videos [60.67022943824329]
本稿では,ストリーミングビデオにおける時間文グラウンディング(TSGSV)の新たな課題に取り組むことを目的とする。
TSGSVの目標は、ビデオストリームと所定の文クエリの関連性を評価することである。
本研究では,(1)モデルが今後のイベントを学習することを可能にするTwinNet構造,(2)冗長な視覚的フレームを除去する言語誘導型特徴圧縮器の2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2023-08-14T12:30:58Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - Video Event Restoration Based on Keyframes for Video Anomaly Detection [9.18057851239942]
既存のディープニューラルネットワークベースの異常検出(VAD)手法は、主にフレーム再構成やフレーム予測の経路に従う。
これらの制限を突破するために、新しいVADパラダイムを導入します。
本稿では,ビデオイベント復元のためのU字型スイニングトランスフォーマーネットワーク (USTN-DSC) を提案する。
論文 参考訳(メタデータ) (2023-04-11T10:13:19Z) - Contrastive Video-Language Learning with Fine-grained Frame Sampling [54.542962813921214]
FineCoは、ビデオフレーム上で操作する微妙なコントラスト対象で、ビデオと言語表現をよりよく学習するアプローチである。
テキストと意味的に等価なフレームを選択することで、ビデオの削除を支援し、クロスモーダル対応を改善する。
論文 参考訳(メタデータ) (2022-10-10T22:48:08Z) - vCLIMB: A Novel Video Class Incremental Learning Benchmark [53.90485760679411]
本稿では,ビデオ連続学習ベンチマークvCLIMBを紹介する。
vCLIMBは、ビデオ連続学習における深層モデルの破滅的な忘れを解析するための標準化されたテストベッドである。
本稿では,メモリベース連続学習法に適用可能な時間的整合性正規化を提案する。
論文 参考訳(メタデータ) (2022-01-23T22:14:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。