論文の概要: Towards Universal Video Retrieval: Generalizing Video Embedding via Synthesized Multimodal Pyramid Curriculum
- arxiv url: http://arxiv.org/abs/2510.27571v1
- Date: Fri, 31 Oct 2025 15:54:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 17:52:16.160578
- Title: Towards Universal Video Retrieval: Generalizing Video Embedding via Synthesized Multimodal Pyramid Curriculum
- Title(参考訳): ユニバーサルビデオ検索に向けて:合成多モードピラミッドによるビデオ埋め込みの一般化
- Authors: Zhuoning Guo, Mingxin Li, Yanzhao Zhang, Dingkun Long, Pengjun Xie, Xiaowen Chu,
- Abstract要約: 評価・データ・モデリングの共同設計に基づくフレームワークを導入する。
まず,ユニバーサルビデオ検索ベンチマーク(Universal Video Retrieval Benchmark, UVRB)を確立する。
第二に、UVRBの診断によってガイドされたスケーラブルなワークフローを導入し、1億5500万の高品質なペアを生成します。
第3に,汎用ビデオ埋め込み(GVE)をトレーニングするカリキュラムであるModality Pyramidを考案した。
- 参考スコア(独自算出の注目度): 36.360760591731484
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The prevailing video retrieval paradigm is structurally misaligned, as narrow benchmarks incentivize correspondingly limited data and single-task training. Therefore, universal capability is suppressed due to the absence of a diagnostic evaluation that defines and demands multi-dimensional generalization. To break this cycle, we introduce a framework built on the co-design of evaluation, data, and modeling. First, we establish the Universal Video Retrieval Benchmark (UVRB), a suite of 16 datasets designed not only to measure performance but also to diagnose critical capability gaps across tasks and domains. Second, guided by UVRB's diagnostics, we introduce a scalable synthesis workflow that generates 1.55 million high-quality pairs to populate the semantic space required for universality. Finally, we devise the Modality Pyramid, a curriculum that trains our General Video Embedder (GVE) by explicitly leveraging the latent interconnections within our diverse data. Extensive experiments show GVE achieves state-of-the-art zero-shot generalization on UVRB. In particular, our analysis reveals that popular benchmarks are poor predictors of general ability and that partially relevant retrieval is a dominant but overlooked scenario. Overall, our co-designed framework provides a practical path to escape the limited scope and advance toward truly universal video retrieval.
- Abstract(参考訳): 制限されたデータとシングルタスクのトレーニングに対して、狭いベンチマークがインセンティブを与えるため、一般的なビデオ検索パラダイムは構造的に不一致である。
したがって、多次元の一般化を定義し、要求する診断評価がないため、普遍的な能力が抑制される。
このサイクルを破るために、評価、データ、モデリングの共設計に基づくフレームワークを導入する。
まず、UVRB(Universal Video Retrieval Benchmark)という16のデータセットのスイートを構築し、パフォーマンスを測定するだけでなく、タスクやドメイン間の重要な能力ギャップを診断する。
第二に、UVRBの診断によって導かれるスケーラブルな合成ワークフローを導入し、このワークフローは155万の高品質なペアを生成し、普遍性に必要な意味空間を蓄積する。
最後に、私たちはModality Pyramidを考案しました。これは、多種多様なデータ内の潜伏する相互接続を明示的に活用することで、一般ビデオ埋め込み(GVE)を訓練するカリキュラムです。
大規模な実験により、GVEはUVRB上で最先端のゼロショットの一般化を実現している。
特に,我々の分析では,人気ベンチマークが一般能力の予測に乏しく,部分的に関連性のある検索が主流だが見落とされがちなシナリオであることが判明した。
全体として、我々の共同設計したフレームワークは、限られた範囲を脱出し、真に普遍的なビデオ検索へと進むための実践的な道筋を提供する。
関連論文リスト
- COME: Dual Structure-Semantic Learning with Collaborative MoE for Universal Lesion Detection Across Heterogeneous Ultrasound Datasets [25.82307075214309]
異種ソース特化専門家(COME)のユニバーサルコラボレーションミックスを提案する。
COMEは、普遍的な表現空間を創り出し、ソース固有の専門家と協力して差別的特徴を抽出する、二重構造セマンティックな共有専門家を確立する。
この設計は、データセット間のエクスペリエンス分布を活用し、小さなバッチや目に見えないデータシナリオに普遍的なUSプリエントを提供することで、堅牢な一般化を可能にする。
論文 参考訳(メタデータ) (2025-08-13T15:43:20Z) - Team of One: Cracking Complex Video QA with Model Synergy [24.75732964829523]
本稿では,複雑な実世界のシナリオにおける推論深度と堅牢性を高める,オープンエンドなビデオ質問応答のための新しいフレームワークを提案する。
既存のビデオラージマルチモーダルモデル (Video-LMM) では、文脈的理解の制限、時間的モデリングの弱さ、曖昧さや構成的クエリへの一般化の低さがしばしば見られる。
論文 参考訳(メタデータ) (2025-07-18T11:12:44Z) - HumanVideo-MME: Benchmarking MLLMs for Human-Centric Video Understanding [120.84817886550765]
MLLM(Multimodal Large Language Models)は、画像とビデオの両方を含む視覚的理解タスクにおいて、大きな進歩を見せている。
既存の人間中心のベンチマークは、主にビデオ生成の品質と行動認識を強調し、人間中心のシナリオに必要な知覚と認知の能力を見落としている。
我々は,人間中心のビデオ理解におけるMLLMのより総合的な評価を提供するために,厳格にキュレートされたベンチマークを提案する。
論文 参考訳(メタデータ) (2025-07-07T11:52:24Z) - Multimodal Alignment with Cross-Attentive GRUs for Fine-Grained Video Understanding [0.0]
本稿では,GRUベースのシーケンスエンコーダとモーダル間アテンション機構を用いて,映像,画像,テキストを融合するフレームワークを提案する。
以上の結果から, 核融合戦略は単調なベースラインを著しく上回っていることが示唆された。
論文 参考訳(メタデータ) (2025-07-04T12:35:52Z) - VACT: A Video Automatic Causal Testing System and a Benchmark [55.53300306960048]
VACTは、現実世界のシナリオにおけるVGMの因果的理解をモデル化、評価、測定するための**自動**フレームワークである。
マルチレベル因果評価指標を導入し、VGMの因果性能を詳細に分析する。
論文 参考訳(メタデータ) (2025-03-08T10:54:42Z) - XTrack: Multimodal Training Boosts RGB-X Video Object Trackers [88.72203975896558]
マルチモーダルセンシングから得られる知識を効果的に共有することが重要である。
異なるモダリティにまたがる類似のサンプルは、他のものよりも多くの知識を共有できる。
提案手法は,現在のSOTAよりも平均+3%精度が向上したRGB-Xトラッカーである。
論文 参考訳(メタデータ) (2024-05-28T03:00:58Z) - BIRB: A Generalization Benchmark for Information Retrieval in
Bioacoustics [7.68184437595058]
本稿では,受動的に記録されたデータセットから鳥の発声を検索する複雑なベンチマークであるBIRBを提案する。
本稿では,表現学習と最寄りのセントロイド探索を用いたタスクコレクションのベースラインシステムを提案する。
論文 参考訳(メタデータ) (2023-12-12T17:06:39Z) - Generalizable Person Search on Open-world User-Generated Video Content [93.72028298712118]
人物の検索は、大量の露骨なシーン画像から個人を検索する、困難な作業である。
既存の人検索アプリケーションは、ほとんどトレーニングされ、同じシナリオにデプロイされます。
本稿では,任意のシナリオにおける下流タスクを容易にするために,特徴レベルとデータレベルの両方の一般化可能なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-16T04:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。