論文の概要: StructAlign: Structured Cross-Modal Alignment for Continual Text-to-Video Retrieval
- arxiv url: http://arxiv.org/abs/2601.20597v1
- Date: Wed, 28 Jan 2026 13:34:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.945173
- Title: StructAlign: Structured Cross-Modal Alignment for Continual Text-to-Video Retrieval
- Title(参考訳): StructAlign:連続的テキスト・ビデオ検索のためのクロスモーダルアライメント構造
- Authors: Shaokun Wang, Weili Guan, Jizhou Han, Jianlong Wu, Yupeng Hu, Liqiang Nie,
- Abstract要約: Continual Text-to-Video Retrievalの重要な課題はフィーチャードリフトだ。
我々はCTVRのための構造化クロスモーダルアライメント手法であるStructAlignを提案する。
我々の手法は、常に最先端の連続検索手法より優れています。
- 参考スコア(独自算出の注目度): 75.28673512571449
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Continual Text-to-Video Retrieval (CTVR) is a challenging multimodal continual learning setting, where models must incrementally learn new semantic categories while maintaining accurate text-video alignment for previously learned ones, thus making it particularly prone to catastrophic forgetting. A key challenge in CTVR is feature drift, which manifests in two forms: intra-modal feature drift caused by continual learning within each modality, and non-cooperative feature drift across modalities that leads to modality misalignment. To mitigate these issues, we propose StructAlign, a structured cross-modal alignment method for CTVR. First, StructAlign introduces a simplex Equiangular Tight Frame (ETF) geometry as a unified geometric prior to mitigate modality misalignment. Building upon this geometric prior, we design a cross-modal ETF alignment loss that aligns text and video features with category-level ETF prototypes, encouraging the learned representations to form an approximate simplex ETF geometry. In addition, to suppress intra-modal feature drift, we design a Cross-modal Relation Preserving loss, which leverages complementary modalities to preserve cross-modal similarity relations, providing stable relational supervision for feature updates. By jointly addressing non-cooperative feature drift across modalities and intra-modal feature drift, StructAlign effectively alleviates catastrophic forgetting in CTVR. Extensive experiments on benchmark datasets demonstrate that our method consistently outperforms state-of-the-art continual retrieval approaches.
- Abstract(参考訳): 連続的テキスト・ツー・ビデオ検索(CTVR)は、従来学習されていたものに対する正確なテキスト・ビデオアライメントを維持しながら、モデルが新たなセマンティックなカテゴリを漸進的に学習しなくてはならないという、困難なマルチモーダルな連続学習環境である。
CTVRにおける重要な課題は特徴ドリフトであり、各モダリティ内で連続的な学習によって引き起こされるモダリティ内特徴ドリフトと、モダリティの不適応につながるモダリティ間での非協調的特徴ドリフトである。
これらの問題を緩和するために,CTVRのための構造化クロスモーダルアライメント手法であるStructAlignを提案する。
まず、StructAlignは、モダリティの不整合を緩和する前の統一幾何として、単純な等角的タイトフレーム(ETF)幾何を導入する。
この幾何学的事前に基づいて、テキストとビデオの特徴をカテゴリレベルのETFプロトタイプと整合させるクロスモーダルなETFアライメント損失を設計し、学習された表現に近似的なETFアライメントを形成するよう促す。
さらに,モーダル内特徴のドリフトを抑制するために,相互類似性を維持するために相補的モダリティを活用するクロスモーダル関係保存損失を設計し,特徴更新のための安定したリレーショナル監視を実現する。
StructAlignは、モダリティ全体にわたる非協調的特徴ドリフトとモダリティ内特徴ドリフトを併用することにより、CTVRにおける破滅的な忘れを効果的に軽減する。
ベンチマークデータセットの大規模な実験により,我々の手法が常に最先端の連続検索手法より優れていることが示された。
関連論文リスト
- TRACER: Texture-Robust Affordance Chain-of-Thought for Deformable-Object Refinement [37.77903164878976]
TRACER は Texture-Robust Affordance Chain-of- Thought with dEformable-object Refinement framework である。
セマンティック推論から外見が損なわれ、物理的に一貫した機能領域の洗練まで、階層横断的なマッピングを提供する。
Fine-AGDDO15データセットと実世界のロボットプラットフォームで実施された実験は、TRACERが精度を著しく向上することを示した。
論文 参考訳(メタデータ) (2026-01-28T03:12:18Z) - STCDiT: Spatio-Temporally Consistent Diffusion Transformer for High-Quality Video Super-Resolution [60.06664986365803]
我々は,事前学習したビデオ拡散モデルに基づいて構築されたビデオ超解像フレームワークSTCDiTを提案する。
複雑なカメラの動きであっても、構造的に忠実で時間的に安定した動画を劣化した入力から復元することを目的としている。
論文 参考訳(メタデータ) (2025-11-24T05:37:23Z) - Cross-Frame Representation Alignment for Fine-Tuning Video Diffusion Models [31.138079872368532]
トレーニングデータの特定の属性を反映したビデオを生成するための、ユーザレベルでの微調整ビデオ拡散モデル(VDM)は、注目すべき課題である。
Representation Alignment (REPA)のような最近の研究は、DiTベースの画像拡散モデルの収束と品質を改善することを約束している。
フレームの隠れ状態と隣接するフレームの外部特徴を整列する新しい正規化手法であるCross-frame Representation Alignment(CREPA)を導入する。
論文 参考訳(メタデータ) (2025-06-10T20:34:47Z) - Low-Light Video Enhancement via Spatial-Temporal Consistent Decomposition [52.89441679581216]
低照度ビデオエンハンスメント(LLVE)は、激しい視認性とノイズに悩まされる動的または静的なシーンの復元を目指している。
本稿では、ビューに依存しない、ビューに依存しないコンポーネントを組み込んだ革新的なビデオ分解戦略を提案する。
我々のフレームワークは、既存のメソッドを一貫して上回り、新しいSOTAパフォーマンスを確立します。
論文 参考訳(メタデータ) (2024-05-24T15:56:40Z) - Motion-Aware Video Frame Interpolation [49.49668436390514]
我々は、連続するフレームから中間光の流れを直接推定する動き対応ビデオフレーム補間(MA-VFI)ネットワークを導入する。
受容場が異なる入力フレームからグローバルな意味関係と空間的詳細を抽出するだけでなく、必要な計算コストと複雑さを効果的に削減する。
論文 参考訳(メタデータ) (2024-02-05T11:00:14Z) - Temporal Consistency Learning of inter-frames for Video Super-Resolution [38.26035126565062]
ビデオ超解像(VSR)は、低解像度(LR)参照フレームと複数の隣接フレームから高解像度(HR)フレームを再構成することを目的としたタスクである。
既存の手法は一般に情報伝達とフレームアライメントを探求し、VSRの性能を向上させる。
本稿では,再建されたビデオの一貫性を高めるため,VSRのための時間一貫性学習ネットワーク(TCNet)を提案する。
論文 参考訳(メタデータ) (2022-11-03T08:23:57Z) - Exploring Motion Ambiguity and Alignment for High-Quality Video Frame
Interpolation [46.02120172459727]
本稿では,GTに近い中間フレームを可能な限り再構築する要件を緩和することを提案する。
本研究では,テクスチャ整合性損失 (TCL) を補間されたコンテンツが,与えられたフレーム内でのテクスチャ整合性損失 (TCL) と類似した構造を維持するべきであるという仮定に基づいて開発する。
論文 参考訳(メタデータ) (2022-03-19T10:37:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。