論文の概要: DVOS: Self-Supervised Dense-Pattern Video Object Segmentation
- arxiv url: http://arxiv.org/abs/2406.05131v1
- Date: Fri, 7 Jun 2024 17:58:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-10 13:02:56.857882
- Title: DVOS: Self-Supervised Dense-Pattern Video Object Segmentation
- Title(参考訳): DVOS:セルフスーパービジョンのDense-Patternビデオオブジェクトセグメンテーション
- Authors: Keyhan Najafian, Farhad Maleki, Ian Stavness, Lingling Jin,
- Abstract要約: Dense Video Object (DVOS) のシナリオでは、各ビデオフレームは数百もの小さな、密度が高く、部分的に隠されたオブジェクトを含んでいる。
マルチタスク学習による拡散に基づくDVOSの半時間的アプローチを提案する。
提案手法の有用性と有効性を示すために, ハンドヘルドビデオとドローンキャプチャビデオの小麦頭部分割のためのDVOSモデルを開発した。
- 参考スコア(独自算出の注目度): 6.092973123903838
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video object segmentation approaches primarily rely on large-scale pixel-accurate human-annotated datasets for model development. In Dense Video Object Segmentation (DVOS) scenarios, each video frame encompasses hundreds of small, dense, and partially occluded objects. Accordingly, the labor-intensive manual annotation of even a single frame often takes hours, which hinders the development of DVOS for many applications. Furthermore, in videos with dense patterns, following a large number of objects that move in different directions poses additional challenges. To address these challenges, we proposed a semi-self-supervised spatiotemporal approach for DVOS utilizing a diffusion-based method through multi-task learning. Emulating real videos' optical flow and simulating their motion, we developed a methodology to synthesize computationally annotated videos that can be used for training DVOS models; The model performance was further improved by utilizing weakly labeled (computationally generated but imprecise) data. To demonstrate the utility and efficacy of the proposed approach, we developed DVOS models for wheat head segmentation of handheld and drone-captured videos, capturing wheat crops in fields of different locations across various growth stages, spanning from heading to maturity. Despite using only a few manually annotated video frames, the proposed approach yielded high-performing models, achieving a Dice score of 0.82 when tested on a drone-captured external test set. While we showed the efficacy of the proposed approach for wheat head segmentation, its application can be extended to other crops or DVOS in other domains, such as crowd analysis or microscopic image analysis.
- Abstract(参考訳): ビデオオブジェクトのセグメンテーションアプローチは、主にモデル開発のために、大規模なピクセル精度の人間アノテーション付きデータセットに依存している。
Dense Video Object Segmentation (DVOS) のシナリオでは、各ビデオフレームは数百もの小さな、密度が高く、部分的に隠されたオブジェクトを含んでいる。
したがって、単一のフレームであっても労働集約的な手動アノテーションは時間を要することが多く、多くのアプリケーションにおいてDVOSの開発を妨げている。
さらに、密集したパターンを持つビデオでは、異なる方向に移動する多数のオブジェクトに従えば、さらなる課題が生じる。
これらの課題に対処するために,多タスク学習による拡散法を利用したDVOSのための半自己教師付き時空間アプローチを提案する。
実ビデオの光学的流れをシミュレーションし,その動きをシミュレートし,DVOSモデルのトレーニングに使用できる計算アノテートビデオの合成手法を開発した。
提案手法の有用性と有効性を示すため,本手法では,成長段階の異なる畑の小麦の収穫量を,方向から成熟度にまたがる,ハンドヘルドビデオとドローンキャプチャビデオの小麦頭部分割のためのDVOSモデルを開発した。
手動でアノテートしたビデオフレームはわずかだが、提案されたアプローチでは高い性能のモデルが得られ、ドローンが捕獲した外部テストセットでテストした場合、Diceスコアは0.82に達した。
提案手法の有効性を示したが, 群集分析や顕微鏡画像解析など他の領域の作物やDVOSにも適用可能である。
関連論文リスト
- WildVidFit: Video Virtual Try-On in the Wild via Image-Based Controlled Diffusion Models [132.77237314239025]
ビデオ仮想トライオンは、衣料品のアイデンティティを維持し、ソースビデオにおける人のポーズと身体の形に適応する現実的なシーケンスを生成することを目的としている。
従来の画像ベースの手法は、ワープとブレンディングに依存しており、複雑な人間の動きや閉塞に苦しむ。
衣料品の説明や人間の動きを条件とした映像生成のプロセスとして,映像試行を再認識する。
私たちのソリューションであるWildVidFitは、画像ベースで制御された拡散モデルを用いて、一段階の合理化を図っている。
論文 参考訳(メタデータ) (2024-07-15T11:21:03Z) - Appearance-based Refinement for Object-Centric Motion Segmentation [95.80420062679104]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では, 正確な流量予測マスクを模範として, 簡単な選択機構を用いる。
パフォーマンスは、DAVIS、YouTubeVOS、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Neural Video Depth Stabilizer [74.04508918791637]
ビデオ深度推定は時間的に一貫した深度を推定することを目的としている。
いくつかの方法は、幾何学的制約と再射影制約を用いて、テスト時間中に単一画像深度モデルを微調整することで、時間的整合性を達成する。
本稿では,不整合深度推定を安定化し,余分な労力を伴わずに異なる単一画像深度モデルに適用可能なプラグアンドプレイフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-17T17:57:01Z) - FODVid: Flow-guided Object Discovery in Videos [12.792602427704395]
我々は、個々の複雑さに過度に適合しないように、一般化可能なソリューションを構築することに注力する。
教師なしの環境でビデオオブジェクト(VOS)を解決するために,セグメント出力の導出に基づく新しいパイプライン(FODVid)を提案する。
論文 参考訳(メタデータ) (2023-07-10T07:55:42Z) - Learn the Force We Can: Enabling Sparse Motion Control in Multi-Object
Video Generation [26.292052071093945]
単一のフレームとスパース動作入力からビデオを生成する教師なしの手法を提案する。
我々の訓練されたモデルは、目に見えない現実的なオブジェクト間相互作用を生成できる。
ヨダは、制御性と映像品質の両面において、先行するアートビデオ生成の状況と同等かそれ以上であることを示す。
論文 参考訳(メタデータ) (2023-06-06T19:50:02Z) - VIDM: Video Implicit Diffusion Models [75.90225524502759]
拡散モデルは、高品質で多様な画像の集合を合成するための強力な生成方法として登場した。
本研究では,移動の効果を暗黙の条件でモデル化する拡散モデルに基づく映像生成手法を提案する。
我々は,空間トランケーションのサンプリング,ロバストネスペナルティ,位置群正規化などの複数の戦略を提案することにより,生成されたビデオの品質を向上させる。
論文 参考訳(メタデータ) (2022-12-01T02:58:46Z) - DeepMultiCap: Performance Capture of Multiple Characters Using Sparse
Multiview Cameras [63.186486240525554]
deep multicapは、スパースマルチビューカメラを用いたマルチパーソンパフォーマンスキャプチャのための新しい手法である。
本手法では,事前走査型テンプレートモデルを用いることなく,時間変化した表面の詳細をキャプチャできる。
論文 参考訳(メタデータ) (2021-05-01T14:32:13Z) - Coherent Loss: A Generic Framework for Stable Video Segmentation [103.78087255807482]
ビデオセグメンテーションの結果の視覚的品質を,ジッタリングアーティファクトがいかに劣化させるかを検討する。
本稿では,ニューラルネットワークの性能向上を目的とした汎用フレームワークを備えたコヒーレントロスを提案する。
論文 参考訳(メタデータ) (2020-10-25T10:48:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。