論文の概要: DataCube: A Video Retrieval Platform via Natural Language Semantic Profiling
- arxiv url: http://arxiv.org/abs/2602.16231v1
- Date: Wed, 18 Feb 2026 07:12:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.537367
- Title: DataCube: A Video Retrieval Platform via Natural Language Semantic Profiling
- Title(参考訳): DataCube: 自然言語セマンティックプロファイリングによるビデオ検索プラットフォーム
- Authors: Yiming Ju, Hanyu Zhao, Quanyue Ma, Donglin Hao, Chengwei Wu, Ming Li, Songjing Wang, Tengfei Pan,
- Abstract要約: DataCubeは、自動ビデオ処理、多次元プロファイリング、クエリ駆動検索のためのインテリジェントなプラットフォームである。
ユーザーは、トレーニング、分析、評価のために巨大なリポジトリから、効率的にカスタマイズされたビデオサブセットを構築することができる。
- 参考スコア(独自算出の注目度): 10.480376118163063
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale video repositories are increasingly available for modern video understanding and generation tasks. However, transforming raw videos into high-quality, task-specific datasets remains costly and inefficient. We present DataCube, an intelligent platform for automatic video processing, multi-dimensional profiling, and query-driven retrieval. DataCube constructs structured semantic representations of video clips and supports hybrid retrieval with neural re-ranking and deep semantic matching. Through an interactive web interface, users can efficiently construct customized video subsets from massive repositories for training, analysis, and evaluation, and build searchable systems over their own private video collections. The system is publicly accessible at https://datacube.baai.ac.cn/. Demo Video: https://baai-data-cube.ks3-cn-beijing.ksyuncs.com/custom/Adobe%20Express%20-%202%E6%9C%8818%E6%97%A5 %20%281%29%281%29%20%281%29.mp4
- Abstract(参考訳): 大規模なビデオレポジトリは、現代のビデオの理解と生成タスクにますます役立っている。
しかし、生のビデオを高品質なタスク固有のデータセットに変換することは、コストがかかり非効率である。
本稿では,自動ビデオ処理,多次元プロファイリング,クエリ駆動検索のためのインテリジェントプラットフォームDataCubeを提案する。
DataCubeはビデオクリップの構造化セマンティック表現を構築し、ニューラルリグレードとディープセマンティックマッチングによるハイブリッド検索をサポートする。
インタラクティブなWebインターフェースにより、ユーザは、トレーニング、分析、評価のために巨大なリポジトリからカスタマイズされたビデオサブセットを効率的に構築し、自身のプライベートビデオコレクション上に検索可能なシステムを構築することができる。
このシステムはhttps://datacube.baai.ac.cn/.comで公開されている。
デモビデオ:https://baai-data-cube.ks3-cn-beijing.com/custom/Adobe%20Express%20-%202%E6%9C%8818%E6%97%A5%20%281 %29%281%29%20%281%29.mp4
関連論文リスト
- VideoWeave: A Data-Centric Approach for Efficient Video Understanding [54.5804686337209]
我々は、合成長文学習サンプルを構築して、データ効率を改善するためのシンプルで効果的な方法であるVideoWeaveを提案する。
VideoWeaveは、利用可能なビデオテキストペアを再編成して、固定計算内で時間的多様性を拡大する。
我々の結果は、アーキテクチャを変更するのではなく、トレーニングデータを再編成することで、ビデオ言語モデルをトレーニングするためのシンプルでスケーラブルなパスを提供できることを強調している。
論文 参考訳(メタデータ) (2026-01-09T20:55:26Z) - ViMix-14M: A Curated Multi-Source Video-Text Dataset with Long-Form, High-Quality Captions and Crawl-Free Access [16.89068730775312]
ViMix-14Mは、約1400万対のマルチソースビデオテキストデータセットである。
ViMix-14Mは、様々なオープンビデオソースをマージして構築され、その後にデ複製と品質フィルタリングが統合されている。
マルチモーダル検索,テキスト・ツー・ビデオ生成,ビデオ質問応答タスクによるデータセットの評価を行った。
論文 参考訳(メタデータ) (2025-11-23T10:19:56Z) - VideoLucy: Deep Memory Backtracking for Long Video Understanding [102.37736560263649]
我々は、長いビデオ理解のためのディープメモリバックトラックフレームワークであるVideoLucyを提案する。
粗いものから細かいものへの人間の再コンパイルプロセスにインスパイアされたVideoLucyは、階層的なメモリ構造で、段階的に粒度が細かい。
VideoLucyは、複数の長いビデオ理解ベンチマークで最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2025-10-14T11:59:19Z) - Whats in a Video: Factorized Autoregressive Decoding for Online Dense Video Captioning [71.94122309290537]
ビデオの高密度キャプションを生成するための,効率的なオンライン手法を提案する。
我々のモデルは、新しい自己回帰因子化復号化アーキテクチャを使用している。
提案手法は,オフライン手法とオンライン手法の両方と比較して優れた性能を示し,計算コストを20%削減する。
論文 参考訳(メタデータ) (2024-11-22T02:46:44Z) - Hybrid Contrastive Quantization for Efficient Cross-View Video Retrieval [55.088635195893325]
クロスビュービデオ検索のための最初の量子化表現学習法,すなわちHybrid Contrastive Quantization(HCQ)を提案する。
HCQは、粗粒度と微粒度の両方を変換器で学習し、テキストやビデオの補完的な理解を提供する。
3つのWebビデオベンチマークデータセットの実験により、HCQは最先端の非圧縮検索手法と競合する性能を示す。
論文 参考訳(メタデータ) (2022-02-07T18:04:10Z) - VPN: Video Provenance Network for Robust Content Attribution [72.12494245048504]
VPN - オンラインで共有されているビデオから出典情報を復元するコンテンツ属性手法を提案する。
完全長あるいは切り離されたビデオクエリを用いて,このようなビデオのマッチングに頑健な検索埋め込みを学習する。
一度ビデオクリップの信頼できるデータベースにマッチすると、そのクリップの出所に関する関連情報がユーザに提示される。
論文 参考訳(メタデータ) (2021-09-21T09:07:05Z) - Self-supervised Video Retrieval Transformer Network [10.456881328982586]
SVRTNは,ラベルのないデータから映像表現を学習するための自己教師あり学習法である。
トランスフォーマー構造を利用してフレームレベルの機能をクリップレベルに集約し、ストレージスペースと検索の複雑さを減らす。
クリップフレーム間の相互作用から相補的および識別的な情報を学び、フレームの置換や、より柔軟な検索方法をサポートする不変性を欠くことができる。
論文 参考訳(メタデータ) (2021-04-16T09:43:45Z) - Automatic Curation of Large-Scale Datasets for Audio-Visual
Representation Learning [62.47593143542552]
本稿では,自動データセットキュレーションのためのサブセット最適化手法について述べる。
本研究では,高視聴覚対応の映像を抽出し,自己監視モデルが自動的に構築されているにもかかわらず,既存のスケールのビデオデータセットと類似したダウンストリームパフォーマンスを達成できることを実証した。
論文 参考訳(メタデータ) (2021-01-26T14:27:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。