論文の概要: Queries Are Not Alone: Clustering Text Embeddings for Video Search
- arxiv url: http://arxiv.org/abs/2510.07720v1
- Date: Thu, 09 Oct 2025 02:56:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.826685
- Title: Queries Are Not Alone: Clustering Text Embeddings for Video Search
- Title(参考訳): ビデオ検索のためのテキスト埋め込みのクラスタリング
- Authors: Peyang Liu, Xi Wang, Ziqiang Cui, Wei Ye,
- Abstract要約: 本稿では,テキストクエリをクラスタリングしてより広いセマンティックスコープをキャプチャすることで,ビデオ検索を強化する新しいフレームワークであるVideo-Text Cluster(VTC)を紹介する。
本稿では,関連するクエリをグループ化するユニークなクラスタリング機構を提案し,各クエリの複数の解釈とニュアンスについて検討する。
また、ビデオコンテンツに基づいてクラスタを調整するVTC-Attention(VTC-Atttention)を導入し、検索プロセスが最も関連性の高いテキスト機能を強調することを保証する。
- 参考スコア(独自算出の注目度): 10.695503567368732
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid proliferation of video content across various platforms has highlighted the urgent need for advanced video retrieval systems. Traditional methods, which primarily depend on directly matching textual queries with video metadata, often fail to bridge the semantic gap between text descriptions and the multifaceted nature of video content. This paper introduces a novel framework, the Video-Text Cluster (VTC), which enhances video retrieval by clustering text queries to capture a broader semantic scope. We propose a unique clustering mechanism that groups related queries, enabling our system to consider multiple interpretations and nuances of each query. This clustering is further refined by our innovative Sweeper module, which identifies and mitigates noise within these clusters. Additionally, we introduce the Video-Text Cluster-Attention (VTC-Att) mechanism, which dynamically adjusts focus within the clusters based on the video content, ensuring that the retrieval process emphasizes the most relevant textual features. Further experiments have demonstrated that our proposed model surpasses existing state-of-the-art models on five public datasets.
- Abstract(参考訳): 様々なプラットフォームにまたがるビデオコンテンツの急速な普及は、高度なビデオ検索システムに対する緊急の必要性を浮き彫りにした。
従来の方法は、主にテキストクエリとビデオメタデータを直接マッチングすることに依存しているが、しばしば、テキスト記述とビデオコンテンツの多面的性質の間の意味的ギャップを埋めることに失敗する。
本稿では,テキストクエリをクラスタリングしてより広いセマンティックスコープをキャプチャすることで,ビデオ検索を強化する新しいフレームワークであるVideo-Text Cluster(VTC)を紹介する。
本稿では,関連するクエリをグループ化するユニークなクラスタリング機構を提案し,各クエリの複数の解釈とニュアンスについて検討する。
このクラスタリングは、これらのクラスタ内のノイズを特定し緩和する革新的なSweeperモジュールによってさらに洗練されています。
さらに、ビデオコンテンツに基づいて、クラスタ内のフォーカスを動的に調整し、検索プロセスが最も関連性の高いテキスト機能を強調するVTC-Att(Video-Text Cluster-Attention)機構を導入する。
さらに,提案モデルが5つの公開データセット上で既存の最先端モデルを上回ることを示した。
関連論文リスト
- Beyond Simple Edits: Composed Video Retrieval with Dense Modifications [96.46069692338645]
多様なビデオセグメントにまたがる細粒度および構成されたアクションをキャプチャする新しいデータセットを提案する。
Dense-WebVid-CoVRは、1.6万のサンプルからできており、修正テキストは既存のものより約7倍多い。
我々は,Cross-Attention (CA) 融合により視覚情報とテキスト情報を統合した新しいモデルを開発した。
論文 参考訳(メタデータ) (2025-08-19T17:59:39Z) - VideoRAG: Retrieval-Augmented Generation over Video Corpus [57.68536380621672]
VideoRAGは、クエリによる関連性に基づいて、動的にビデオを取得するフレームワークである。
VideoRAGは近年のLVLM(Large Video Language Models)を利用している。
我々は,ビデオRAGの有効性を実験的に検証し,関連するベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-01-10T11:17:15Z) - Towards Open-Vocabulary Video Semantic Segmentation [40.58291642595943]
オープン語彙ビデオセマンティック(OV-VSS: Open Vocabulary Video Semantic)タスクを導入する。
OV-VSSの性能を向上させるため,空間時間融合モジュールを統合したロバストベースラインOV2VSSを提案する。
我々のアプローチには、ビデオコンテキスト内のテキスト情報を解釈する能力を強化するビデオテキストエンコーディングも含まれている。
論文 参考訳(メタデータ) (2024-12-12T14:53:16Z) - Bridging Information Asymmetry in Text-video Retrieval: A Data-centric Approach [56.610806615527885]
テキストビデオ検索(TVR)における重要な課題は、ビデオとテキスト間の情報非対称性である。
本稿では,このギャップを埋めるために,テキスト表現を豊かにすることで,映像コンテンツの豊かさに合わせたデータ中心のフレームワークを提案する。
本稿では,最も関連性が高く多様なクエリを識別し,計算コストを低減し,精度を向上するクエリ選択機構を提案する。
論文 参考訳(メタデータ) (2024-08-14T01:24:09Z) - Text-Video Retrieval via Variational Multi-Modal Hypergraph Networks [25.96897989272303]
テキストビデオ検索の主な障害は、クエリのテキストの性質とビデオコンテンツの視覚的豊かさとのセマンティックなギャップである。
本稿では,クエリチャンクを抽出して,特定の検索単位を記述するチャンクレベルのテキストビデオマッチングを提案する。
クェリの単語とビデオのフレーム間のn-ary相関モデルとしてチャンクレベルのマッチングを定式化する。
論文 参考訳(メタデータ) (2024-01-06T09:38:55Z) - A Hierarchical Multi-Modal Encoder for Moment Localization in Video
Corpus [31.387948069111893]
テキストクエリにセマンティックにマッチする長いビデオにおいて、短いセグメントを識別する方法を示す。
この問題に対処するために、粗いクリップレベルと微調整フレームレベルの両方でビデオをエンコードするHierArchical Multi-Modal EncodeR (HAMMER)を提案する。
我々は、ActivityNet CaptionsとTVRデータセット上のビデオコーパスにおけるモーメントローカライゼーションのモデルを評価するために、広範囲にわたる実験を行った。
論文 参考訳(メタデータ) (2020-11-18T02:42:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。