論文の概要: Enhancing Partially Relevant Video Retrieval with Robust Alignment Learning
- arxiv url: http://arxiv.org/abs/2509.01383v1
- Date: Mon, 01 Sep 2025 11:30:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.662521
- Title: Enhancing Partially Relevant Video Retrieval with Robust Alignment Learning
- Title(参考訳): ロバストアライメント学習による部分関連ビデオ検索の強化
- Authors: Long Zhang, Peipei Song, Jianfeng Dong, Kun Li, Xun Yang,
- Abstract要約: 関連のあるビデオ検索は、あるクエリに関連するビデオを取得することを目的としている。
中心となる課題は、突発的なセマンティックな相関に対して、堅牢なクエリとビデオのアライメントを学ぶことだ。
データの不確実性を明示的にモデル化するRobust Alignment Learningフレームワークを提案する。
- 参考スコア(独自算出の注目度): 29.427720184101474
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Partially Relevant Video Retrieval (PRVR) aims to retrieve untrimmed videos partially relevant to a given query. The core challenge lies in learning robust query-video alignment against spurious semantic correlations arising from inherent data uncertainty: 1) query ambiguity, where the query incompletely characterizes the target video and often contains uninformative tokens, and 2) partial video relevance, where abundant query-irrelevant segments introduce contextual noise in cross-modal alignment. Existing methods often focus on enhancing multi-scale clip representations and retrieving the most relevant clip. However, the inherent data uncertainty in PRVR renders them vulnerable to distractor videos with spurious similarities, leading to suboptimal performance. To fill this research gap, we propose Robust Alignment Learning (RAL) framework, which explicitly models the uncertainty in data. Key innovations include: 1) we pioneer probabilistic modeling for PRVR by encoding videos and queries as multivariate Gaussian distributions. This not only quantifies data uncertainty but also enables proxy-level matching to capture the variability in cross-modal correspondences; 2) we consider the heterogeneous informativeness of query words and introduce learnable confidence gates to dynamically weight similarity. As a plug-and-play solution, RAL can be seamlessly integrated into the existing architectures. Extensive experiments across diverse retrieval backbones demonstrate its effectiveness.
- Abstract(参考訳): 一部関連ビデオ検索(PRVR)は、あるクエリに関連する未トリミングされたビデオを検索することを目的としている。
主な課題は、データ固有の不確実性から生じるスプリラスなセマンティックな相関に対して、堅牢なクエリ・ビデオアライメントを学習することである。
1) クエリの曖昧さ - クエリが対象の動画を不完全な特徴付け、しばしば非形式的トークンを含む場合。
2) 部分的ビデオ関連性では, クエリ非関連セグメントが多用され, クロスモーダルアライメントにおいてコンテキストノイズが生じる。
既存の方法は、しばしばマルチスケールのクリップ表現の強化と、最も関連性の高いクリップの検索に重点を置いている。
しかし、PRVRに固有のデータ不確実性は、それらが急激な類似性を持つ邪魔なビデオに対して脆弱であり、最適以下のパフォーマンスをもたらす。
この研究ギャップを埋めるために、データの不確実性を明示的にモデル化するRobust Alignment Learning(RAL)フレームワークを提案する。
主なイノベーションは以下のとおりである。
1) ビデオとクエリを多変量ガウス分布として符号化することでPRVRの確率論的モデリングを開拓する。
これはデータの不確実性を定量化するだけでなく、プロキシレベルのマッチングによって、クロスモーダル対応における可変性をキャプチャできる。
2) 問合せ語の不均一な情報性について考察し, 類似度を動的に重み付けするために学習可能な信頼ゲートを導入する。
プラグイン・アンド・プレイのソリューションとして、RALは既存のアーキテクチャにシームレスに統合できる。
多様な検索バックボーンにわたる大規模な実験は、その効果を実証している。
関連論文リスト
- Ambiguity-Restrained Text-Video Representation Learning for Partially Relevant Video Retrieval [0.0]
部分関連ビデオ検索(PRVR)は、特定のセグメントが所定のテキストクエリに関連するビデオを取得することを目的としている。
テキストとビデオの内容のあいまいさは、その概念的スコープに基づいて指摘する。
この曖昧さをモデル学習プロセスに組み込んだフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-09T06:44:45Z) - Exploiting Inter-Sample Correlation and Intra-Sample Redundancy for Partially Relevant Video Retrieval [5.849812241074385]
PRVRは、テキストクエリに関連するターゲットビデオを取得することを目的としている。
既存の手法は、セマンティック空間を構築するために、ペア化されたビデオとテキストクエリを粗く整列する。
サンプル間相関とサンプル内冗長性を体系的に活用する新しいPRVRフレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-28T09:52:46Z) - QD-VMR: Query Debiasing with Contextual Understanding Enhancement for Video Moment Retrieval [7.313447367245476]
Video Moment Retrieval (VMR) は、クエリに対応する未トリミングビデオの関連モーメントを検索することを目的としている。
本稿では,文脈理解度を高めたクエリデバイアスモデルであるQD-VMRを提案する。
論文 参考訳(メタデータ) (2024-08-23T10:56:42Z) - GMMFormer v2: An Uncertainty-aware Framework for Partially Relevant Video Retrieval [60.70901959953688]
本稿では,PRVRのための不確実性認識フレームワークであるGMMFormer v2を提案する。
クリップモデリングでは,新しい時間的統合モジュールを用いた強力なベースラインGMMFormerを改良する。
そこで本研究では,テキスト・クリップの微調整に最適なマッチング損失を提案する。
論文 参考訳(メタデータ) (2024-05-22T16:55:31Z) - Answering from Sure to Uncertain: Uncertainty-Aware Curriculum Learning
for Video Question Answering [63.12469700986452]
不確実性を考慮したカリキュラム学習(CL)の概念を導入する。
ここで不確実性は、困難を動的に調整するための指針となる。
実際に、我々は、ビデオQAモデルを我々のフレームワークにシームレスに統合し、包括的な実験を行う。
論文 参考訳(メタデータ) (2024-01-03T02:29:34Z) - Towards Video Anomaly Retrieval from Video Anomaly Detection: New
Benchmarks and Model [70.97446870672069]
ビデオ異常検出(VAD)はその潜在的な応用により注目されている。
Video Anomaly Retrieval (VAR)は、関連のある動画をモダリティによって実用的に検索することを目的としている。
一般的な異常データセットの上に構築されたUCFCrime-ARとXD-Violenceの2つのベンチマークを示す。
論文 参考訳(メタデータ) (2023-07-24T06:22:37Z) - Query-Dependent Video Representation for Moment Retrieval and Highlight
Detection [8.74967598360817]
MR/HDの主な目的は、あるテキストクエリに対して、モーメントをローカライズし、クリップワイドアコーディネートレベル、すなわち、サリエンシスコアを推定することである。
最近のトランスフォーマーベースのモデルは、与えられたクエリの情報を完全に活用していない。
本稿ではMR/HDに適した検出変換器であるQuery-Dependent DETR(QD-DETR)を紹介する。
論文 参考訳(メタデータ) (2023-03-24T09:32:50Z) - Mitigating Representation Bias in Action Recognition: Algorithms and
Benchmarks [76.35271072704384]
ディープラーニングモデルは、稀なシーンやオブジェクトを持つビデオに適用すると、パフォーマンスが悪くなります。
この問題にはアルゴリズムとデータセットの2つの異なる角度から対処する。
偏りのある表現は、他のデータセットやタスクに転送するとより一般化できることを示す。
論文 参考訳(メタデータ) (2022-09-20T00:30:35Z) - Deconfounded Video Moment Retrieval with Causal Intervention [80.90604360072831]
本研究は,ビデオ中の特定のモーメントをテキストクエリに従ってローカライズすることを目的とした,ビデオモーメント検索(VMR)の課題に取り組む。
既存の手法は主に複雑な相互モーダル相互作用によるクエリとモーメントのマッチング関係をモデル化する。
本稿では,クエリとビデオコンテンツが予測に与える影響を捉えるために,構造因果モデルを構築する因果性に着想を得たVMRフレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-03T01:33:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。