論文の概要: Prompt-aware of Frame Sampling for Efficient Text-Video Retrieval
- arxiv url: http://arxiv.org/abs/2507.15491v1
- Date: Mon, 21 Jul 2025 10:46:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:32.363681
- Title: Prompt-aware of Frame Sampling for Efficient Text-Video Retrieval
- Title(参考訳): 効率的なテキスト検索のためのフレームサンプリングのプロンプト認識
- Authors: Deyu Zhang, Tingting Long, Jinrui Zhang, Ligeng Chen, Ju Ren, Yaoxue Zhang,
- Abstract要約: ProCLIPは、最先端の精度を実現し、効率を大幅に改善したユーザ中心のフレームワークである。
テキストプロンプトを用いて軽量特徴抽出器を動的に誘導し,意味のあるフレームを選択するプロンプト対応フレームサンプリング戦略を設計する。
軽量モジュールによる高速粗いフィルタリングとCLIPを用いた微粒化再構成を併用し,精度を保ちながら検索効率を向上する2段階のプルーニング戦略を採用する。
- 参考スコア(独自算出の注目度): 21.65508603851204
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Enabling efficient text-video retrieval on edge-end devices is critical for real-world applications. Yet, existing methods face a critical challenge in balancing accuracy and computational efficiency: uniform frame sampling methods ensure content coverage but incur prohibitive computational costs, while salient-frame sampling methods reduce overhead but suffer from query-agnostic frame selection that biases retrieval results. To address this, we propose ProCLIP, a user-centric framework that achieves state-of-the-art accuracy with significantly improved efficiency. We design a prompt-aware frame sampling strategy that dynamically guides lightweight feature extractors using textual prompts to select semantically relevant frames, overcoming the limitations of existing salient-frame sampling methods which rely on static, query-agnostic selection criteria. Moreover, we adopt a two-stage candidate pruning strategy that combines rapid coarse filtering via a lightweight module with CLIP-powered fine-grained re-ranking, enhancing retrieval efficiency while preserving accuracy. Experiments across benchmarks show ProCLIP achieves 75.3% latency reduction versus baselines while maintaining competitive accuracy, i.e., R@1=49.0 in MSR-VTT dataset. Code is available at https://github.com/tiffylong/ProCLIP.
- Abstract(参考訳): エッジデバイス上で効率的なテキストビデオ検索を実現することは、現実世界のアプリケーションにとって非常に重要である。
しかし、既存の手法は、精度と計算効率のバランスをとる上で、重要な課題に直面している。一様フレームサンプリング法は、コンテンツカバレッジを保証するが、禁忌な計算コストを発生させる一方、有能フレームサンプリング法はオーバーヘッドを低減させるが、検索結果を偏見するクエリ非依存のフレーム選択に悩まされる。
そこで本稿では,ユーザ中心のフレームワークであるProCLIPを提案する。
静的なクエリに依存しない選択基準に依存する既存の有意なフレームサンプリング手法の限界を克服し、テキストのプロンプトを用いて、軽量な特徴抽出器を動的に誘導するプロンプト対応のフレームサンプリング戦略を設計する。
さらに,軽量モジュールによる高速粗いフィルタリングとCLIPを用いた微粒化再構成を併用し,精度を保ちながら検索効率を向上する2段階のプルーニング戦略を採用した。
MSR-VTTデータセットにおけるR@1=49.0の競合精度を維持しながら、ベンチマークによる試験の結果、ProCLIPは75.3%のレイテンシ削減を実現している。
コードはhttps://github.com/tiffylong/ProCLIPで入手できる。
関連論文リスト
- Less is More: Token-Efficient Video-QA via Adaptive Frame-Pruning and Semantic Graph Integration [21.69452489173625]
過剰なフレームが文脈の希釈によってパラドックス的に性能を低下させる「レスはそれ以上」現象である。
視覚エコー」は「視覚エコー」という時間的冗長性を有する
AFP"は、ResNet-50とCLIPの機能空間に適応的な階層的クラスタリングアルゴリズムを用いて、これらのエコーを単一の代表に識別し、マージする。
我々の完全なアプローチは、必要なフレームを86.9%まで、合計入力トークンを83.2%まで劇的に削減することを示しています。
論文 参考訳(メタデータ) (2025-08-05T11:31:55Z) - E-VRAG: Enhancing Long Video Understanding with Resource-Efficient Retrieval Augmented Generation [8.441615871480858]
ビデオ理解のための新規かつ効率的なビデオRAGフレームワークであるE-VRAGを提案する。
まず,階層的な問合せ分解に基づくフレーム前フィルタリング手法を適用し,無関係なフレームを除去する。
次に、フレームスコアリングに軽量なVLMを用い、モデルレベルでの計算コストをさらに削減する。
論文 参考訳(メタデータ) (2025-08-03T02:09:54Z) - An Memory-Efficient Framework for Deformable Transformer with Neural Architecture Search [4.533437219543447]
Deformable Attention Transformer (DAT) はコンピュータビジョンタスクにおいて顕著な性能を示した。
既存のアクセラレーション手法は高いハードウェアオーバーヘッドを発生させるか、モデルの精度を妥協させるかのいずれかである。
本稿では,DATのためのハードウェアフレンドリな最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-13T06:42:00Z) - ReFoCUS: Reinforcement-guided Frame Optimization for Contextual Understanding [52.050036778325094]
ReFoCUS(Reinforcement-guided Frame Optimization for Contextual UnderStanding)は、新しいフレームレベルのポリシー最適化フレームワークである。
ReFoCUSは、参照LMMから派生した報酬信号を用いて、フレームに対するモデル固有の嗜好を反映して、強化学習を通じてフレーム選択ポリシーを学習する。
提案手法は複数のビデオQAベンチマークにおける推論性能を継続的に改善する。
論文 参考訳(メタデータ) (2025-06-02T03:08:07Z) - Seeing What Matters: Empowering CLIP with Patch Generation-to-Selection [54.21851618853518]
本稿では,CLIPのトレーニング効率を高めるために,パッチ生成と選択という簡潔で効果的なアプローチを提案する。
私たちのアプローチであるCLIP-PGSは、ゼロショット分類と検索タスクにおいて、新しい最先端結果を設定する。
論文 参考訳(メタデータ) (2025-03-21T12:10:38Z) - Balancing Accuracy and Efficiency for Large-Scale SLAM: A Minimal Subset Approach for Scalable Loop Closures [7.066382982173528]
本稿では,ループ閉鎖に最も影響の大きい優越性を用いてポーズグラフを構築するオンラインサンプリング手法を提案する。
各種公開データセットの評価結果から,提案手法は位置認識における偽陽性率の低減に優れることが示された。
論文 参考訳(メタデータ) (2025-01-03T12:48:01Z) - TAPT: Test-Time Adversarial Prompt Tuning for Robust Inference in Vision-Language Models [53.91006249339802]
視覚的対人攻撃に対するCLIPの推論ロバスト性を高めるため, TAPT(Test-Time Adversarial Prompt Tuning)と呼ばれる新しい防御手法を提案する。
TAPTは、CLIPの推論プロセスを堅牢化するために、防御的バイモーダル(テキストと視覚)のプロンプトを学習するテストタイムディフェンス手法である。
我々は、ImageNetなど10のゼロショットデータセットを含む11のベンチマークデータセットに対するTAPTの有効性を評価する。
論文 参考訳(メタデータ) (2024-11-20T08:58:59Z) - Bridging SFT and DPO for Diffusion Model Alignment with Self-Sampling Preference Optimization [67.8738082040299]
自己サンプリング優先最適化(SSPO)は,訓練後強化学習のための新しいアライメント手法である。
SSPOは、SFTのトレーニング安定性を維持しながら、ペアデータと報酬モデルの必要性を排除する。
SSPOは、テキスト・ツー・イメージベンチマークにおける以前のアプローチを全て上回り、テキスト・ツー・ビデオベンチマークにおける優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-10-07T17:56:53Z) - Transforming Image Super-Resolution: A ConvFormer-based Efficient Approach [58.57026686186709]
本稿では, Convolutional Transformer Layer (ConvFormer) を導入し, ConvFormer-based Super-Resolution Network (CFSR) を提案する。
CFSRは畳み込みベースのアプローチとトランスフォーマーベースのアプローチの両方の利点を継承する。
CFSRは計算コストと性能のバランスが最適であることを示す実験である。
論文 参考訳(メタデータ) (2024-01-11T03:08:00Z) - TMP: Temporal Motion Propagation for Online Video Super-Resolution [20.56797955203068]
オンラインビデオ超解像(オンラインVSR)は、時間情報を集約するための効果的なアライメントモジュールに大きく依存している。
既存のオンラインVSR手法の多くは、各フレームの運動場を別々に推定してアライメントを行う。
本稿では,高速な画素レベルのアライメントを実現するために,運動場の連続性を利用した効率的な時間運動伝搬法を提案する。
論文 参考訳(メタデータ) (2023-12-15T16:17:34Z) - Efficient Adversarial Contrastive Learning via Robustness-Aware Coreset
Selection [59.77647907277523]
敵対的コントラスト学習(ACL)は、高価なデータアノテーションを必要としないが、敵対的攻撃に耐える堅牢な表現を出力する。
ACLは、すべてのトレーニングデータの逆の変種を生成するのに、膨大な実行時間が必要です。
本稿では,ACLの高速化を目的としたロバストネス対応コアセット選択(RCS)手法を提案する。
論文 参考訳(メタデータ) (2023-02-08T03:20:14Z) - OCSampler: Compressing Videos to One Clip with Single-step Sampling [82.0417131211353]
本稿では,OCSampler というフレームワークを提案する。
我々の基本的な動機は、効率的なビデオ認識タスクは、フレームをシーケンシャルに拾うのではなく、シーケンス全体を一度に処理することにある。
論文 参考訳(メタデータ) (2022-01-12T09:50:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。