論文の概要: Automated Video Segmentation Machine Learning Pipeline
- arxiv url: http://arxiv.org/abs/2507.07242v1
- Date: Wed, 09 Jul 2025 19:27:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.184665
- Title: Automated Video Segmentation Machine Learning Pipeline
- Title(参考訳): 自動ビデオセグメンテーション機械学習パイプライン
- Authors: Johannes Merz, Lucien Fostier,
- Abstract要約: 本稿では、時間的に一貫したインスタンスマスクを生成する自動ビデオセグメンテーションパイプラインを提案する。
1)テキストプロンプトによるフレキシブルなオブジェクト検出、(2)フレームごとのイメージセグメンテーションの洗練、(3)時間的安定性を確保するための堅牢なビデオトラッキング。
- 参考スコア(独自算出の注目度): 1.3198143828338367
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual effects (VFX) production often struggles with slow, resource-intensive mask generation. This paper presents an automated video segmentation pipeline that creates temporally consistent instance masks. It employs machine learning for: (1) flexible object detection via text prompts, (2) refined per-frame image segmentation and (3) robust video tracking to ensure temporal stability. Deployed using containerization and leveraging a structured output format, the pipeline was quickly adopted by our artists. It significantly reduces manual effort, speeds up the creation of preliminary composites, and provides comprehensive segmentation data, thereby enhancing overall VFX production efficiency.
- Abstract(参考訳): 視覚効果(VFX)は、しばしば遅いリソース集約マスク生成に苦しむ。
本稿では、時間的に一貫したインスタンスマスクを生成する自動ビデオセグメンテーションパイプラインを提案する。
1)テキストプロンプトによるフレキシブルなオブジェクト検出、(2)フレームごとのイメージセグメンテーションの洗練、(3)時間的安定性を確保するための堅牢なビデオトラッキング。
コンテナ化を使用してデプロイされ、構造化された出力フォーマットを活用するパイプラインは、私たちのアーティストたちによってすぐに採用されました。
手作業を大幅に削減し、予備的なコンポジットの作成を高速化し、包括的なセグメンテーションデータを提供し、VFX全体の生産効率を向上する。
関連論文リスト
- MaskFlow: Discrete Flows For Flexible and Efficient Long Video Generation [25.721829124345106]
本稿では,個別表現とフローマッチングを組み合わせた統合ビデオ生成フレームワークMaskFlowを紹介する。
トレーニング中にフレームレベルのマスキング戦略を活用することで、以前に生成したアンマスクフレーム上のMaskFlow条件を使用して、トレーニングシーケンスの10倍以上の長さのビデオを生成する。
我々は,FaceForensics (FFS) とDeepmind Lab (DMLab) のデータセットにおける手法の品質を検証するとともに,最先端のアプローチと競合するFrechet Video Distance (FVD) を報告する。
論文 参考訳(メタデータ) (2025-02-16T18:59:11Z) - VFX Creator: Animated Visual Effect Generation with Controllable Diffusion Transformer [56.81599836980222]
本稿では,ユーザフレンドリーなテキスト記述と静的参照画像から動的エフェクトを生成する,画像アニメーションとしてのVFX生成のための新しいパラダイムを提案する。
i) VFXは15の多様なエフェクトカテゴリにまたがる最初の高品質なVFXビデオデータセットで、テキストによる記述と時間制御のためのスタートエンドタイムスタンプと、(ii) Video Diffusion Transformerをベースとした制御可能なVFX生成フレームワークであるVFX Creatorである。
論文 参考訳(メタデータ) (2025-02-09T18:12:25Z) - Video Set Distillation: Information Diversification and Temporal Densification [68.85010825225528]
Video textbfsetsは2次元の冗長性を持つ: サンプル内およびサンプル間冗長性。
我々は,まず,サンプル内およびサンプル間冗長性に対処して,最適化された映像データを合成するビデオセット蒸留について検討する。
論文 参考訳(メタデータ) (2024-11-28T05:37:54Z) - MotionAura: Generating High-Quality and Motion Consistent Videos using Discrete Diffusion [3.7270979204213446]
ビデオ処理の課題に対処するための4つの重要なコントリビューションを提示する。
まず,3次元逆ベクトル量子化バリエンコエンコオートコーダを紹介する。
次に,テキスト・ビデオ生成フレームワークであるMotionAuraを紹介する。
第3に,スペクトル変換器を用いたデノナイジングネットワークを提案する。
第4に,Sketch Guided Videopaintingのダウンストリームタスクを導入する。
論文 参考訳(メタデータ) (2024-10-10T07:07:56Z) - Masked Contrastive Pre-Training for Efficient Video-Text Retrieval [37.05164804180039]
我々は、シンプルだが効果的なビデオ言語事前学習(VidLP)フレームワーク、Masked Contrastive Video-Language Pretraining(MAC)を提案する。
我々のMACは、VidLPモデルにおける映像表現の空間的および時間的冗長性を低減することを目的としている。
これらの設計を結合することで、FLOP(60%オフ)の削減、事前トレーニング(3倍)の高速化、性能向上など、効率的なエンドツーエンドの事前トレーニングが可能になる。
論文 参考訳(メタデータ) (2022-12-02T05:44:23Z) - Video Mask Transfiner for High-Quality Video Instance Segmentation [102.50936366583106]
Video Mask Transfiner (VMT) は、高効率なビデオトランス構造により、微細な高解像度機能を利用することができる。
当社のVMTアーキテクチャに基づいて,反復的トレーニングと自己補正による自動アノテーション改善アプローチを設計する。
我々はVMTとHQ-YTVISの最新の最先端手法、Youtube-VIS、OVIS、BDD100K MOTSを比較した。
論文 参考訳(メタデータ) (2022-07-28T11:13:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。