論文の概要: ProPy: Building Interactive Prompt Pyramids upon CLIP for Partially Relevant Video Retrieval
- arxiv url: http://arxiv.org/abs/2508.19024v1
- Date: Tue, 26 Aug 2025 13:42:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 17:42:38.861641
- Title: ProPy: Building Interactive Prompt Pyramids upon CLIP for Partially Relevant Video Retrieval
- Title(参考訳): ProPy:CLIPを使った動画検索のためのインタラクティブなプロンプトピラミッド
- Authors: Yi Pan, Yujia Zhang, Michael Kampffmeyer, Xiaoguang Zhao,
- Abstract要約: 部分関連ビデオ検索(PRVR)は、特定のセグメントのみに関連するクエリに基づいてビデオを取得することを含む、実用的かつ困難なタスクである。
PRVR用に特別に設計されたCLIPの体系的アーキテクチャ適応モデルであるProPyを提案する。
ProPyは3つの公開データセットでSOTAのパフォーマンスを達成し、以前のモデルよりも大幅にパフォーマンスが向上した。
- 参考スコア(独自算出の注目度): 17.27936402184736
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Partially Relevant Video Retrieval (PRVR) is a practical yet challenging task that involves retrieving videos based on queries relevant to only specific segments. While existing works follow the paradigm of developing models to process unimodal features, powerful pretrained vision-language models like CLIP remain underexplored in this field. To bridge this gap, we propose ProPy, a model with systematic architectural adaption of CLIP specifically designed for PRVR. Drawing insights from the semantic relevance of multi-granularity events, ProPy introduces two key innovations: (1) A Prompt Pyramid structure that organizes event prompts to capture semantics at multiple granularity levels, and (2) An Ancestor-Descendant Interaction Mechanism built on the pyramid that enables dynamic semantic interaction among events. With these designs, ProPy achieves SOTA performance on three public datasets, outperforming previous models by significant margins. Code is available at https://github.com/BUAAPY/ProPy.
- Abstract(参考訳): 部分関連ビデオ検索(PRVR)は、特定のセグメントのみに関連するクエリに基づいてビデオを取得することを含む、実用的かつ困難なタスクである。
既存の作業は、単一機能を処理するモデルを開発するパラダイムに従っているが、CLIPのような強力な事前訓練されたビジョン言語モデルは、この分野では未熟である。
このギャップを埋めるために,PRVR用に特別に設計されたCLIPの体系的アーキテクチャ適応モデルであるProPyを提案する。
多粒度イベントのセマンティック関連性から洞察を引き出すため、ProPyでは、(1)イベントプロンプトを整理して複数の粒度レベルでセマンティクスをキャプチャするプロンプトピラミッド構造、(2)イベント間の動的セマンティクス相互作用を可能にするピラミッド上に構築されたアンセスタ・ディセンダントインタラクション機構という、2つの重要なイノベーションを紹介している。
これらの設計により、ProPyは3つの公開データセット上でのSOTAパフォーマンスを達成し、以前のモデルよりも大幅に向上した。
コードはhttps://github.com/BUAAPY/ProPy.comで入手できる。
関連論文リスト
- DanmakuTPPBench: A Multi-modal Benchmark for Temporal Point Process Modeling and Understanding [17.450031813318965]
本稿では,マルチモーダル・テンポラル・ポイント・プロセス(TPP)モデリングの進歩を目的としたベンチマークであるDanmakuTPPBenchを紹介する。
TPPは時間的事象系列をモデル化するために広く研究されてきたが、既存のデータセットは概ね非モーダルである。
我々のベンチマークは、強力なベースラインを確立し、マルチモーダル言語モデリングランドスケープへのTPPモデリングのさらなる統合を要求する。
論文 参考訳(メタデータ) (2025-05-23T22:38:28Z) - Constructing Holistic Spatio-Temporal Scene Graph for Video Semantic
Role Labeling [96.64607294592062]
Video Semantic Label Roleing (VidSRL)は、与えられたビデオから健全なイベントを検出することを目的としている。
近年、VidSRLの手法が提案されているが、2つの重要な欠点を負う可能性がある。
論文 参考訳(メタデータ) (2023-08-09T17:20:14Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z) - Improving Video Instance Segmentation via Temporal Pyramid Routing [61.10753640148878]
Video Instance(VIS)は、ビデオシーケンス内の各インスタンスを検出し、セグメンテーションし、追跡することを目的とした、新しい、本質的にはマルチタスク問題である。
隣接する2つのフレームからなる特徴ピラミッド対から画素レベルのアグリゲーションを条件付きで調整し,実行するための時間ピラミッドルーティング(TPR)戦略を提案する。
我々のアプローチはプラグイン・アンド・プレイモジュールであり、既存のインスタンス・セグメンテーション・メソッドにも容易に適用できます。
論文 参考訳(メタデータ) (2021-07-28T03:57:12Z) - Learning to Associate Every Segment for Video Panoptic Segmentation [123.03617367709303]
粗いセグメントレベルのマッチングと細かなピクセルレベルのマッチングを同時に学習する。
本研究では,Cityscapes-VPSおよびVIPERデータセット上で,フレーム単位の計算モデルにより,最先端の計算結果が得られることを示す。
論文 参考訳(メタデータ) (2021-06-17T13:06:24Z) - DeepQAMVS: Query-Aware Hierarchical Pointer Networks for Multi-Video
Summarization [127.16984421969529]
DeepQAMVSと呼ばれるマルチビデオ要約のための新しいQuery-Aware階層型ポインタネットワークを紹介します。
DeepQAMVSは強化学習で訓練され、代表性、多様性、クエリ適応性、時間的コヒーレンスを捉えた報酬を取り入れている。
MVS1Kデータセットで最新の結果を達成し、入力されたビデオフレームの数と線形に推論時間をスケーリングします。
論文 参考訳(メタデータ) (2021-05-13T17:33:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。