論文の概要: Exploiting Inter-Sample Correlation and Intra-Sample Redundancy for Partially Relevant Video Retrieval
- arxiv url: http://arxiv.org/abs/2504.19637v1
- Date: Mon, 28 Apr 2025 09:52:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.390284
- Title: Exploiting Inter-Sample Correlation and Intra-Sample Redundancy for Partially Relevant Video Retrieval
- Title(参考訳): 部分関連ビデオ検索におけるサンプル間相関とサンプル内冗長性の検討
- Authors: Junlong Ren, Gangjian Zhang, Yu Hu, Jian Shu, Hao Wang,
- Abstract要約: PRVRは、テキストクエリに関連するターゲットビデオを取得することを目的としている。
既存の手法は、セマンティック空間を構築するために、ペア化されたビデオとテキストクエリを粗く整列する。
サンプル間相関とサンプル内冗長性を体系的に活用する新しいPRVRフレームワークを提案する。
- 参考スコア(独自算出の注目度): 5.849812241074385
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Partially Relevant Video Retrieval (PRVR) aims to retrieve the target video that is partially relevant to the text query. The primary challenge in PRVR arises from the semantic asymmetry between textual and visual modalities, as videos often contain substantial content irrelevant to the query. Existing methods coarsely align paired videos and text queries to construct the semantic space, neglecting the critical cross-modal dual nature inherent in this task: inter-sample correlation and intra-sample redundancy. To this end, we propose a novel PRVR framework to systematically exploit these two characteristics. Our framework consists of three core modules. First, the Inter Correlation Enhancement (ICE) module captures inter-sample correlation by identifying semantically similar yet unpaired text queries and video moments, combining them to form pseudo-positive pairs for more robust semantic space construction. Second, the Intra Redundancy Mining (IRM) module mitigates intra-sample redundancy by mining redundant video moment features and treating them as hard negative samples, thereby encouraging the model to learn more discriminative representations. Finally, to reinforce these modules, we introduce the Temporal Coherence Prediction (TCP) module, which enhances feature discrimination by training the model to predict the original temporal order of randomly shuffled video frames and moments. Extensive experiments on three datasets demonstrate the superiority of our approach compared to previous methods, achieving state-of-the-art results.
- Abstract(参考訳): 部分関連ビデオ検索(PRVR)は、テキストクエリに関連するターゲットビデオの検索を目的としている。
PRVRにおける主な課題は、ビデオがクエリに関係のない実質的な内容を含むことが多いため、テキストと視覚的モダリティのセマンティックな非対称性から生じる。
既存の手法では、ペア化されたビデオとテキストクエリを粗くアライメントしてセマンティック空間を構築することで、このタスクに固有の重要なクロスモーダル双対性(サンプル間相関とサンプル内冗長性)を無視している。
そこで本研究では,これら2つの特徴を体系的に活用する新しいPRVRフレームワークを提案する。
私たちのフレームワークは3つのコアモジュールで構成されています。
まず、相互相関強化(ICE)モジュールは、意味的に類似していないテキストクエリとビデオモーメントを識別することで、サンプル間の相関を捕捉し、それらを組み合わせてより堅牢な意味空間構築のための擬陽性ペアを形成する。
第2に、イントラ冗長マイニング(IRM)モジュールは、冗長なビデオモーメント特徴をマイニングし、それらをハードネガティブなサンプルとして扱うことで、サンプル内の冗長性を緩和し、より差別的な表現を学習するようモデルに促す。
最後に、これらのモジュールを強化するために、ランダムにシャッフルされたビデオフレームとモーメントのオリジナルの時間順序を予測するためにモデルをトレーニングすることで特徴識別を強化するTemporal Coherence Prediction (TCP)モジュールを導入する。
3つのデータセットに対する大規模な実験は、従来の手法と比較してアプローチの優位性を実証し、最先端の結果を得た。
関連論文リスト
- Hierarchical Relation-augmented Representation Generalization for Few-shot Action Recognition [53.02634128715853]
Few-shot Action Recognition (FSAR) は、新しいアクションカテゴリーをほとんど見ない形で認識することを目的としている。
FSARのための階層的関係強化表現一般化フレームワークHR2G-shotを提案する。
3種類の関係モデリング(フレーム間、ビデオ間、タスク間)を統合し、全体的視点からタスク固有の時間パターンを学習する。
論文 参考訳(メタデータ) (2025-04-14T10:23:22Z) - VideoFusion: A Spatio-Temporal Collaborative Network for Mutli-modal Video Fusion and Restoration [26.59510171451438]
既存のマルチセンサー融合研究は、主にビデオではなく複数の画像からの補完を統合している。
VideoFusionは、時間的相補性と時間的ダイナミクスを利用して、文脈的時間的コヒーレントなビデオを生成する。
大規模な実験により、VideoFusionは、シーケンシャルなシナリオで既存の画像指向の融合パラダイムより優れていることが判明した。
論文 参考訳(メタデータ) (2025-03-30T08:27:18Z) - Bridging Vision and Language: Modeling Causality and Temporality in Video Narratives [0.0]
本稿では,Causal-Temporal Reasoning Moduleを最先端のLVLMに統合する拡張フレームワークを提案する。
CTRMはCausal Dynamics(CDE)とTemporal Learner(TRL)の2つの重要なコンポーネントから構成される。
大規模ビデオテキストデータセットの事前学習を併用して,モデル最適化のための多段階学習戦略を設計する。
論文 参考訳(メタデータ) (2024-12-14T07:28:38Z) - Cross-modal Contrastive Learning with Asymmetric Co-attention Network
for Video Moment Retrieval [0.17590081165362778]
ビデオモーメント検索は、ビデオとテキストの微妙な相互作用を必要とする課題である。
画像テキスト事前学習における最近の研究により、既存の事前学習モデルのほとんどは、視覚的シーケンスとテキストシーケンスの長さの違いにより、情報非対称性に悩まされていることが示されている。
我々は、空間情報と時間情報の両方を保存するのに補助的な必要性のあるビデオテキスト領域にも、同様の問題が存在しているかどうかを疑問視する。
論文 参考訳(メタデータ) (2023-12-12T17:00:46Z) - Zero-Shot Video Moment Retrieval from Frozen Vision-Language Models [58.17315970207874]
モーメント・テキストアライメントを容易にするため、任意のVLMから一般化可能なビジュアル・テクスチャの事前適応のためのゼロショット手法を提案する。
3つのVMRベンチマークデータセットで実施された実験は、ゼロショットアルゴリズムの顕著なパフォーマンス上の利点を示している。
論文 参考訳(メタデータ) (2023-09-01T13:06:50Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - Support-set based Multi-modal Representation Enhancement for Video
Captioning [121.70886789958799]
サンプル間で共有されるセマンティックサブ空間において、リッチな情報をマイニングするためのサポートセットベースのマルチモーダル表現拡張(SMRE)モデルを提案する。
具体的には、サンプル間の基礎となる関係を学習し、意味的関連視覚要素を得るためのサポートセットを構築するためのサポートセット構築(SC)モジュールを提案する。
本研究では,SST(Semantic Space Transformation)モジュールを設計し,相対距離を制約し,マルチモーダルインタラクションを自己管理的に管理する。
論文 参考訳(メタデータ) (2022-05-19T03:40:29Z) - Disentangled Representation Learning for Text-Video Retrieval [51.861423831566626]
テキスト・ビデオ検索(TVR)における相互モダリティの相互作用
我々は相互作用のパラダイムを深く研究し、その計算を2つの項に分けることができることを示した。
本稿では,逐次的かつ階層的な表現を捉えるための非絡み合いフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-14T13:55:33Z) - Weakly-Supervised Spatio-Temporal Anomaly Detection in Surveillance
Video [128.41392860714635]
Weakly-Supervised Snoma-Temporally Detection (WSSTAD) を監視ビデオに導入する。
WSSTADは異常事象を封止する時空間管(すなわち連続する境界ボックスのシーケンス)をローカライズすることを目的としている。
本稿では,空間的・時間的領域に複数粒度を持つ入力提案を行うデュアルブランチネットワークを提案する。
論文 参考訳(メタデータ) (2021-08-09T06:11:14Z) - Frame-wise Cross-modal Matching for Video Moment Retrieval [32.68921139236391]
ビデオモーメント検索は、与えられた言語クエリのためにビデオ中の瞬間を検索するターゲットである。
本課題は,1)未編集ビデオにおける関連モーメントのローカライズの必要性,2)テキストクエリとビデオコンテンツ間のセマンティックなギャップを埋めることである。
本稿では,対話モデルに基づいて時間境界を予測できる注意的相互関連マッチングモデルを提案する。
論文 参考訳(メタデータ) (2020-09-22T10:25:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。