論文の概要: HLFormer: Enhancing Partially Relevant Video Retrieval with Hyperbolic Learning
- arxiv url: http://arxiv.org/abs/2507.17402v2
- Date: Sun, 27 Jul 2025 08:26:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 12:09:50.615267
- Title: HLFormer: Enhancing Partially Relevant Video Retrieval with Hyperbolic Learning
- Title(参考訳): HLFormer:双曲学習による部分関連ビデオ検索の実現
- Authors: Jun Li, Jinpeng Wang, Chaolei Tan, Niu Lian, Long Chen, Yaowei Wang, Min Zhang, Shu-Tao Xia, Bin Chen,
- Abstract要約: 部分関連ビデオ検索(PRVR)は、部分コンテンツのみを記述するテキストクエリと、未トリミングされたビデオとをマッチングするという課題に対処する。
本稿は,高次空間学習を利用してユークリッド空間の最適階層的モデリング能力を補う,PRVRのための最初のハイパーボリックモデリングフレームワークであるHLFormerを提案する。
- 参考スコア(独自算出の注目度): 77.434558721499
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Partially Relevant Video Retrieval (PRVR) addresses the critical challenge of matching untrimmed videos with text queries describing only partial content. Existing methods suffer from geometric distortion in Euclidean space that sometimes misrepresents the intrinsic hierarchical structure of videos and overlooks certain hierarchical semantics, ultimately leading to suboptimal temporal modeling. To address this issue, we propose the first hyperbolic modeling framework for PRVR, namely HLFormer, which leverages hyperbolic space learning to compensate for the suboptimal hierarchical modeling capabilities of Euclidean space. Specifically, HLFormer integrates the Lorentz Attention Block and Euclidean Attention Block to encode video embeddings in hybrid spaces, using the Mean-Guided Adaptive Interaction Module to dynamically fuse features. Additionally, we introduce a Partial Order Preservation Loss to enforce "text < video" hierarchy through Lorentzian cone constraints. This approach further enhances cross-modal matching by reinforcing partial relevance between video content and text queries. Extensive experiments show that HLFormer outperforms state-of-the-art methods. Code is released at https://github.com/lijun2005/ICCV25-HLFormer.
- Abstract(参考訳): 部分関連ビデオ検索(PRVR)は、部分的コンテンツのみを記述するテキストクエリと未編集ビデオとをマッチングする上で重要な課題に対処する。
既存の手法はユークリッド空間の幾何学的歪みに悩まされ、ビデオの内在的階層構造を誤って表現し、特定の階層的意味論を見落とし、最終的には最適時相モデリングに繋がる。
この問題に対処するため,我々は,ユークリッド空間の最適階層的モデリング能力を補うために,双曲型空間学習を利用したPRVRのための最初の双曲型モデリングフレームワークHLFormerを提案する。
具体的には、HLFormerはLorentz Attention BlockとEuclidean Attention Blockを統合して、Mean-Guided Adaptive Interaction Moduleを使って、ハイブリッドスペースにビデオ埋め込みをエンコードする。
さらに,Lorentzian cone 制約によって "text < video" 階層を強制する部分順序保存損失を導入する。
このアプローチは、ビデオコンテンツとテキストクエリ間の部分的関連性を強化することで、クロスモーダルマッチングをさらに強化する。
HLFormerは最先端の手法よりも優れています。
コードはhttps://github.com/lijun2005/ICCV25-HLFormerで公開されている。
関連論文リスト
- Mavors: Multi-granularity Video Representation for Multimodal Large Language Model [39.24524388617938]
$mathbfMavors$は、全体的ロングビデオモデリングのための新しいフレームワークである。
Mavorsは生のビデオコンテンツを2つのコアコンポーネントを通して潜在表現にエンコードする。
このフレームワークは、イメージを単一フレームビデオとして扱うことにより、画像とビデオの理解を統一する。
論文 参考訳(メタデータ) (2025-04-14T10:14:44Z) - VTD-CLIP: Video-to-Text Discretization via Prompting CLIP [44.51452778561945]
視覚言語モデルは視覚的および言語的理解を橋渡しし、ビデオ認識タスクに強力であることが証明されている。
既存のアプローチは、主にパラメータ効率の良い画像テキスト事前学習モデルの微調整に依存している。
本稿では,時間的モデリングの不十分さによる限定的な解釈可能性や一般化の低さに対処する,ビデオからテキストへの離散化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-24T07:27:19Z) - Token-Efficient Long Video Understanding for Multimodal LLMs [101.70681093383365]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z) - Rethinking Video Tokenization: A Conditioned Diffusion-based Approach [58.164354605550194]
新しいトークン化ツールであるDiffusion Conditioned-based Gene Tokenizerは、GANベースのデコーダを条件付き拡散モデルで置き換える。
再建に基本的MSE拡散損失とKL項,LPIPSを併用した訓練を行った。
CDTのスケールダウン版(3$times inference speedup)でさえ、トップベースラインと互換性がある。
論文 参考訳(メタデータ) (2025-03-05T17:59:19Z) - VERIFIED: A Video Corpus Moment Retrieval Benchmark for Fine-Grained Video Understanding [44.382937324454254]
既存のビデオコーパスモーメント検索(VCMR)は、粗大な理解に限られている。
本稿では,コーパスからベストマッチングモーメントをローカライズするために,より難易度の高いVCMRベンチマークを提案する。
VERIFIEDを用いて、Charades-FIG、DiDeMo-FIG、ActivityNet-FIGを含むより難易度の高いVCMRベンチマークを構築する。
論文 参考訳(メタデータ) (2024-10-11T07:42:36Z) - SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。
時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。
10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文 参考訳(メタデータ) (2024-07-22T08:04:09Z) - GMMFormer: Gaussian-Mixture-Model Based Transformer for Efficient
Partially Relevant Video Retrieval [59.47258928867802]
テキストクエリーが与えられた場合、部分関連ビデオ検索(PRVR)はデータベースに関連する瞬間を含むビデオを探し出そうとする。
本稿では,GMMFormerを提案する。GMMFormerはガウス・ミクチャーモデルに基づくトランスフォーマーで,クリップ表現を暗黙的にモデル化する。
3つの大規模ビデオデータセットの実験は、GMMFormerの優位性と効率を実証している。
論文 参考訳(メタデータ) (2023-10-08T15:04:50Z) - Reuse and Diffuse: Iterative Denoising for Text-to-Video Generation [92.55296042611886]
リユースとディフューズ”と呼ばれるフレームワークを$textitVidRD$と名づけて提案する。
また、既存の複数のデータセットからの多様なコンテンツを含むビデオテキストデータを構成するための一連の戦略を提案する。
論文 参考訳(メタデータ) (2023-09-07T08:12:58Z) - Swap Attention in Spatiotemporal Diffusions for Text-to-Video Generation [55.36617538438858]
本研究では,空間的知覚と時間的知覚の相互作用を強化する新しいアプローチを提案する。
我々はHD-VG-130Mという大規模かつオープンソースのビデオデータセットをキュレートする。
論文 参考訳(メタデータ) (2023-05-18T11:06:15Z) - Frame-wise Action Representations for Long Videos via Sequence
Contrastive Learning [44.412145665354736]
本稿では,フレームワイドな行動表現を学習するための,新しいコントラッシブな行動表現学習フレームワークを提案する。
自己教師型学習の最近の進歩に触発されて,2つの相関する視点に適用した新しいシーケンス・コントラッシブ・ロス(SCL)を提案する。
提案手法は,映像アライメントや細かなフレーム検索作業において,優れた性能を示す。
論文 参考訳(メタデータ) (2022-03-28T17:59:54Z) - ARVo: Learning All-Range Volumetric Correspondence for Video Deblurring [92.40655035360729]
ビデオデブラリングモデルは連続フレームを利用して、カメラの揺動や物体の動きからぼやけを取り除く。
特徴空間におけるボケフレーム間の空間的対応を学習する新しい暗黙的手法を提案する。
提案手法は,新たに収集したビデオデブレーション用ハイフレームレート(1000fps)データセットとともに,広く採用されているDVDデータセット上で評価される。
論文 参考訳(メタデータ) (2021-03-07T04:33:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。