論文の概要: Mitigating Semantic Collapse in Partially Relevant Video Retrieval
- arxiv url: http://arxiv.org/abs/2510.27432v1
- Date: Fri, 31 Oct 2025 12:39:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 17:52:16.099886
- Title: Mitigating Semantic Collapse in Partially Relevant Video Retrieval
- Title(参考訳): 部分関連ビデオ検索における意味的崩壊の軽減
- Authors: WonJun Moon, MinSeok Jung, Gilhan Park, Tae-Young Kim, Cheol-Ho Cho, Woojin Jun, Jae-Pil Heo,
- Abstract要約: 関連のあるビデオ検索は、コンテンツの一部だけがテキストクエリにマッチするビデオを探す。
既存の方法は、すべての注釈付きテキストビデオ対を正のものとして扱い、その他の全てを負のものとして扱う。
本稿では,テキストとビデオの埋め込み空間において,意味的崩壊(semantic collapse)と呼ばれる,上記の問題に対処する。
- 参考スコア(独自算出の注目度): 41.715994314208025
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Partially Relevant Video Retrieval (PRVR) seeks videos where only part of the content matches a text query. Existing methods treat every annotated text-video pair as a positive and all others as negatives, ignoring the rich semantic variation both within a single video and across different videos. Consequently, embeddings of both queries and their corresponding video-clip segments for distinct events within the same video collapse together, while embeddings of semantically similar queries and segments from different videos are driven apart. This limits retrieval performance when videos contain multiple, diverse events. This paper addresses the aforementioned problems, termed as semantic collapse, in both the text and video embedding spaces. We first introduce Text Correlation Preservation Learning, which preserves the semantic relationships encoded by the foundation model across text queries. To address collapse in video embeddings, we propose Cross-Branch Video Alignment (CBVA), a contrastive alignment method that disentangles hierarchical video representations across temporal scales. Subsequently, we introduce order-preserving token merging and adaptive CBVA to enhance alignment by producing video segments that are internally coherent yet mutually distinctive. Extensive experiments on PRVR benchmarks demonstrate that our framework effectively prevents semantic collapse and substantially improves retrieval accuracy.
- Abstract(参考訳): 部分関連ビデオ検索(PRVR)は、コンテンツの一部だけがテキストクエリにマッチするビデオを求める。
既存の方法は、注釈付きテキストとビデオのペアを肯定的に扱い、他のすべてを否定として扱い、単一のビデオと異なるビデオの両方において、リッチなセマンティックなバリエーションを無視します。
その結果、同一ビデオ内の異なるイベントに対する両方のクエリと対応するビデオクリップセグメントの埋め込みが一緒に崩壊し、異なるビデオからのセグメンテーションとセグメンテーションの埋め込みが分離される。
これにより、複数の多様なイベントを含むビデオの検索性能が制限される。
本稿では,テキストとビデオの埋め込み空間において,意味的崩壊(semantic collapse)と呼ばれる,上記の問題に対処する。
最初にテキスト相関保存学習を導入し,テキストクエリ間で基礎モデルによって符号化された意味的関係を保存する。
ビデオ埋め込みの崩壊に対処するため,時間的スケールにまたがる階層的映像表現を分離するコントラスト的アライメント手法であるCBVA(Cross-Branch Video Alignment)を提案する。
その後、順序保存トークンのマージと適応CBVAを導入し、内部的に整合性はあるが相互に独特なビデオセグメントを作成することでアライメントを強化する。
PRVRベンチマークの大規模な実験により,本フレームワークは意味的崩壊を効果的に防止し,検索精度を大幅に向上することが示された。
関連論文リスト
- Ambiguity-Restrained Text-Video Representation Learning for Partially Relevant Video Retrieval [0.0]
部分関連ビデオ検索(PRVR)は、特定のセグメントが所定のテキストクエリに関連するビデオを取得することを目的としている。
テキストとビデオの内容のあいまいさは、その概念的スコープに基づいて指摘する。
この曖昧さをモデル学習プロセスに組み込んだフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-09T06:44:45Z) - Video-ColBERT: Contextualized Late Interaction for Text-to-Video Retrieval [90.72791786676753]
Video-ColBERTは、クエリとビデオ間の微粒な類似性評価のためのシンプルで効率的なメカニズムを導入している。
このインタラクションとトレーニングのパラダイムは、ビデオコンテンツをエンコードするための、強い個人的かつ互換性のある表現につながることが分かっています。
これらの表現は、他のバイエンコーダ法と比較して、一般的なテキスト・ビデオ検索ベンチマークのパフォーマンスが向上する。
論文 参考訳(メタデータ) (2025-03-24T17:51:29Z) - Text-Video Retrieval via Variational Multi-Modal Hypergraph Networks [25.96897989272303]
テキストビデオ検索の主な障害は、クエリのテキストの性質とビデオコンテンツの視覚的豊かさとのセマンティックなギャップである。
本稿では,クエリチャンクを抽出して,特定の検索単位を記述するチャンクレベルのテキストビデオマッチングを提案する。
クェリの単語とビデオのフレーム間のn-ary相関モデルとしてチャンクレベルのマッチングを定式化する。
論文 参考訳(メタデータ) (2024-01-06T09:38:55Z) - GMMFormer: Gaussian-Mixture-Model Based Transformer for Efficient
Partially Relevant Video Retrieval [59.47258928867802]
テキストクエリーが与えられた場合、部分関連ビデオ検索(PRVR)はデータベースに関連する瞬間を含むビデオを探し出そうとする。
本稿では,GMMFormerを提案する。GMMFormerはガウス・ミクチャーモデルに基づくトランスフォーマーで,クリップ表現を暗黙的にモデル化する。
3つの大規模ビデオデータセットの実験は、GMMFormerの優位性と効率を実証している。
論文 参考訳(メタデータ) (2023-10-08T15:04:50Z) - VADER: Video Alignment Differencing and Retrieval [70.88247176534426]
VADERは、堅牢なビジュアル記述子と、チャンクされたビデオコンテンツに対するスケーラブルな検索を使用して、部分的なビデオフラグメントを候補ビデオにマッチし、調整する。
時空間コンパレータモジュールは、コンテンツ間の操作の領域を識別する。
論文 参考訳(メタデータ) (2023-03-23T11:50:44Z) - Weakly Supervised Video Representation Learning with Unaligned Text for
Sequential Videos [39.42509966219001]
本稿では,時間レベルのテキスト・ビデオの正確なアライメントが提供されないような逐次的ビデオ理解について検討する。
我々は、ビデオ表現のためのフレームレベルの特徴を集約するためにトランスフォーマーを使用し、事前訓練されたテキストエンコーダを使用して、各アクションとビデオ全体に対応するテキストをエンコードする。
ビデオシーケンス検証とテキスト・ツー・ビデオマッチングの実験により,本手法がベースラインをはるかに上回ることを示す。
論文 参考訳(メタデータ) (2023-03-22T08:13:25Z) - Video Corpus Moment Retrieval with Contrastive Learning [56.249924768243375]
ビデオコーパスモーメント検索(VCMR)は、与えられたテキストクエリに意味的に対応する時間モーメントを取得することです。
VCMRのためのコントラシブラーニング(ReLoCLNet)を用いた検索・ローカリゼーションネットワークを提案する。
実験の結果、ReLoCLNetは効率のためにテキストとビデオを個別にエンコードし、その検索精度はクロスモーダル相互作用学習を採用するベースラインと匹敵する。
論文 参考訳(メタデータ) (2021-05-13T12:54:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。