論文の概要: VDCook:DIY video data cook your MLLMs
- arxiv url: http://arxiv.org/abs/2603.05539v1
- Date: Wed, 04 Mar 2026 10:39:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:44.178474
- Title: VDCook:DIY video data cook your MLLMs
- Title(参考訳): VDCook:DIYビデオデータでMLLMを作る
- Authors: Chengwei Wu,
- Abstract要約: VDCookは、研究者と垂直ドメインチームのための自己進化型のビデオデータオペレーティングシステムである。
完全な証明とメタデータを備えたドメイン内のデータパッケージと再現可能なノートブックを生成する。
- 参考スコア(独自算出の注目度): 3.170179753848826
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce VDCook: a self-evolving video data operating system, a configurable video data construction platform for researchers and vertical domain teams. Users initiate data requests via natural language queries and adjustable parameters (scale, retrieval-synthesis ratio, quality threshold). The system automatically performs query optimization, concurrently running real video retrieval and controlled synthesis modules. It ultimately generates in-domain data packages with complete provenance and metadata, along with reproducible Notebooks. Unlike traditional static, one-time-built datasets, VDCook enables continuous updates and domain expansion through its automated data ingestion mechanism based on MCP (Model Context Protocol)\cite{mcp2024anthropic}, transforming datasets into dynamically evolving open ecosystems. The system also provides multi-dimensional metadata annotation (scene segmentation, motion scoring, OCR ratio, automatic captioning, etc.), laying the foundation for flexible subsequent data `cooking' and indexing\cite{vlogger}. This platform aims to significantly lower the barrier to constructing specialized video training datasets through infrastructure-level solutions, while supporting community contributions and a governance-enabled data expansion paradigm. \textbf{Project demo:} https://screenapp.io/app/v/WP0SvffgsH
- Abstract(参考訳): 本稿では、VDCookについて紹介する: 自己進化型ビデオデータオペレーティングシステム、研究者と垂直ドメインチームのための構成可能なビデオデータ構築プラットフォーム。
ユーザは自然言語クエリと調整可能なパラメータ(スケール、検索合成比、品質閾値)を通じてデータリクエストを開始する。
システムはクエリ最適化を自動的に実行し、実際のビデオ検索と制御された合成モジュールを同時に実行する。
最終的に、再現可能なノートブックとともに、完全な証明とメタデータを備えたドメイン内のデータパッケージを生成する。
従来の静的なワンタイムビルドデータセットとは異なり、VDCookはMPP(Model Context Protocol)\cite{mcp2024anthropic})に基づいた自動データ取り込みメカニズムを通じて、継続的更新とドメイン拡張を可能にし、データセットを動的に進化するオープンエコシステムに変換する。
また、多次元メタデータアノテーション(シーンセグメンテーション、モーションスコアリング、OCR比、自動キャプションなど)も提供し、その後のデータ‘cooking’やindexing\cite{vlogger}の基盤となる。
このプラットフォームは、インフラストラクチャレベルのソリューションを通じて、特別なビデオトレーニングデータセットを構築するための障壁を大幅に減らし、コミュニティのコントリビューションとガバナンス可能なデータ拡張パラダイムをサポートすることを目的としている。
https://screenapp.io/app/v/WP0SvffgsH
関連論文リスト
- VideoMolmo: Spatio-Temporal Grounding Meets Pointing [66.19964563104385]
VideoMolmoは、ビデオシーケンスのきめ細かいポインティングに適したモデルだ。
新しい仮面融合はSAM2を双方向の点伝播に用いている。
The generalization of VideoMolmo, we introduced VPoMolS-temporal, a challenge out-of-distribution benchmark across two real-world scenarios。
論文 参考訳(メタデータ) (2025-06-05T17:59:29Z) - Scalable Video-to-Dataset Generation for Cross-Platform Mobile Agents [57.59830804627066]
実世界のモバイルOSナビゲーションをキャプチャする20Kの指導ビデオから,313Kの注釈付きフレームの大規模データセットであるMONDAYを紹介した。
MONDAYを事前学習フェーズに含むモデルは、堅牢なクロスプラットフォームの一般化機能を示す。
公開されているビデオコンテンツを利用して、包括的なタスクデータセットを作成する自動化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-19T02:39:03Z) - Data-Juicer 2.0: Cloud-Scale Adaptive Data Processing for and with Foundation Models [83.65386456026441]
Data-Juicer 2.0は、テキスト、画像、ビデオ、オーディオのモダリティにまたがる100以上のデータ処理オペレータがバックアップするデータ処理システムである。
データ分析、合成、アノテーション、基礎モデルのポストトレーニングなど、より重要なタスクをサポートする。
このシステムは公開されており、さまざまな研究分野やAlibaba Cloud PAIのような現実世界の製品で広く採用されている。
論文 参考訳(メタデータ) (2024-12-23T08:29:57Z) - DreamFrame: Enhancing Video Understanding via Automatically Generated QA and Style-Consistent Keyframes [11.2645921649719]
最近の視覚言語モデル(LVLM)は、主にオンラインプラットフォームから抽出された様々なスクレイピングによって微調整されている。
現在のLVLMは主に、広範囲で汎用的な設定で既存のデータセットでトレーニングされているが、特定のダウンストリームシナリオに適応することは依然として難しい。
そこで我々はDreamFrameという3段階のフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-03T07:43:39Z) - OmniDataComposer: A Unified Data Structure for Multimodal Data Fusion
and Infinite Data Generation [8.149870655785955]
OmniDataComposerは、マルチモーダルデータ融合と無制限データ生成のための革新的なアプローチである。
6400以上のオブジェクトを識別でき、視覚情報のスペクトルを大幅に広げる。
多様なモダリティを網羅し、モダリティ間の相互強化を促進し、モダリティ間のデータ修正を容易にする。
論文 参考訳(メタデータ) (2023-08-08T08:30:16Z) - Automatic Curation of Large-Scale Datasets for Audio-Visual
Representation Learning [62.47593143542552]
本稿では,自動データセットキュレーションのためのサブセット最適化手法について述べる。
本研究では,高視聴覚対応の映像を抽出し,自己監視モデルが自動的に構築されているにもかかわらず,既存のスケールのビデオデータセットと類似したダウンストリームパフォーマンスを達成できることを実証した。
論文 参考訳(メタデータ) (2021-01-26T14:27:47Z) - Understanding Road Layout from Videos as a Whole [82.30800791500869]
我々はこれをトップビューの道路属性予測問題として定式化し、その目的は各フレームの属性を正確かつ一貫して予測することである。
我々は、ビデオにおけるカメラモーションの活用と、長期ビデオ情報の導入という3つの新しい側面を生かした。
論文 参考訳(メタデータ) (2020-07-02T00:59:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。