論文の概要: A Semi-Self-Supervised Approach for Dense-Pattern Video Object Segmentation
- arxiv url: http://arxiv.org/abs/2406.05131v2
- Date: Wed, 16 Apr 2025 15:37:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-17 18:06:20.755991
- Title: A Semi-Self-Supervised Approach for Dense-Pattern Video Object Segmentation
- Title(参考訳): 半自己監督によるDense-Patternビデオオブジェクトセグメンテーション
- Authors: Keyhan Najafian, Farhad Maleki, Lingling Jin, Ian Stavness,
- Abstract要約: 本稿では,多タスク学習による拡散法を用いて,高密度VOS(DVOS)に対する半自己教師型アプローチを提案する。
本手法は, ブースステージから小麦熟成, ハーベスト熟成まで多種多様なビデオから, 小麦頭部分画のDVOS法を評価した。
本手法はコムギの頭部区分けで評価されるが,群集分析や微視的画像解析など他の作物や領域にも適用可能である。
- 参考スコア(独自算出の注目度): 6.092973123903838
- License:
- Abstract: Video object segmentation (VOS) -- predicting pixel-level regions for objects within each frame of a video -- is particularly challenging in agricultural scenarios, where videos of crops include hundreds of small, dense, and occluded objects (stems, leaves, flowers, pods) that sway and move unpredictably in the wind. Supervised training is the state-of-the-art for VOS, but it requires large, pixel-accurate, human-annotated videos, which are costly to produce for videos with many densely packed objects in each frame. To address these challenges, we proposed a semi-self-supervised spatiotemporal approach for dense-VOS (DVOS) using a diffusion-based method through multi-task (reconstruction and segmentation) learning. We train the model first with synthetic data that mimics the camera and object motion of real videos and then with pseudo-labeled videos. We evaluate our DVOS method for wheat head segmentation from a diverse set of videos (handheld, drone-captured, different field locations, and different growth stages -- spanning from Boot-stage to Wheat-mature and Harvest-ready). Despite using only a few manually annotated video frames, the proposed approach yielded a high-performing model, achieving a Dice score of 0.79 when tested on a drone-captured external test set. While our method was evaluated on wheat head segmentation, it can be extended to other crops and domains, such as crowd analysis or microscopic image analysis.
- Abstract(参考訳): ビデオオブジェクトセグメンテーション(VOS) -- ビデオの各フレーム内のオブジェクトのピクセルレベルの領域を予測する -- は、数百もの小さな、密度の高い、隠蔽されたオブジェクト(茎、葉、花、ポッド)を含む作物の動画が風に揺れ、予測不能に動く、農業シナリオにおいて特に難しい。
監督されたトレーニングは、VOSの最先端技術だが、大きな、ピクセル精度の高い、人間による注釈付きビデオを必要とする。
これらの課題に対処するために,多タスク学習(再構成とセグメンテーション)による拡散法を用いて,高密度VOS(DVOS)のための半自己教師付き時空間アプローチを提案した。
まず、実際のビデオのカメラとオブジェクトの動きを模倣した合成データを、擬似ラベル付きビデオで訓練する。
私たちは、さまざまなビデオ(ハンドヘルド、ドローンキャプチャー、異なるフィールドロケーション、異なる成長ステージ)から小麦の頭部セグメンテーションのためのDVOS法を評価しました。
手動でアノテートしたビデオフレームはわずかだが、提案手法では高い性能のモデルが得られ、ドローンが捕獲した外部テストセットでテストした場合、Diceスコアは0.79に達した。
本手法はコムギの頭部区分けで評価されるが,群集分析や微視的画像解析など他の作物や領域にも適用可能である。
関連論文リスト
- Video Depth Anything: Consistent Depth Estimation for Super-Long Videos [60.857723250653976]
超長ビデオにおける高品質で一貫した深度推定のためのビデオ深度推定法を提案する。
我々のモデルは、Depth Anything V2と同様、ビデオ深度とラベルなし画像の合同データセットに基づいて訓練されている。
提案手法は,ゼロショット映像深度推定における新しい最先端技術である。
論文 参考訳(メタデータ) (2025-01-21T18:53:30Z) - WildVidFit: Video Virtual Try-On in the Wild via Image-Based Controlled Diffusion Models [132.77237314239025]
ビデオ仮想トライオンは、衣料品のアイデンティティを維持し、ソースビデオにおける人のポーズと身体の形に適応する現実的なシーケンスを生成することを目的としている。
従来の画像ベースの手法は、ワープとブレンディングに依存しており、複雑な人間の動きや閉塞に苦しむ。
衣料品の説明や人間の動きを条件とした映像生成のプロセスとして,映像試行を再認識する。
私たちのソリューションであるWildVidFitは、画像ベースで制御された拡散モデルを用いて、一段階の合理化を図っている。
論文 参考訳(メタデータ) (2024-07-15T11:21:03Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - FODVid: Flow-guided Object Discovery in Videos [12.792602427704395]
我々は、個々の複雑さに過度に適合しないように、一般化可能なソリューションを構築することに注力する。
教師なしの環境でビデオオブジェクト(VOS)を解決するために,セグメント出力の導出に基づく新しいパイプライン(FODVid)を提案する。
論文 参考訳(メタデータ) (2023-07-10T07:55:42Z) - Learn the Force We Can: Enabling Sparse Motion Control in Multi-Object
Video Generation [26.292052071093945]
単一のフレームとスパース動作入力からビデオを生成する教師なしの手法を提案する。
我々の訓練されたモデルは、目に見えない現実的なオブジェクト間相互作用を生成できる。
ヨダは、制御性と映像品質の両面において、先行するアートビデオ生成の状況と同等かそれ以上であることを示す。
論文 参考訳(メタデータ) (2023-06-06T19:50:02Z) - VIDM: Video Implicit Diffusion Models [75.90225524502759]
拡散モデルは、高品質で多様な画像の集合を合成するための強力な生成方法として登場した。
本研究では,移動の効果を暗黙の条件でモデル化する拡散モデルに基づく映像生成手法を提案する。
我々は,空間トランケーションのサンプリング,ロバストネスペナルティ,位置群正規化などの複数の戦略を提案することにより,生成されたビデオの品質を向上させる。
論文 参考訳(メタデータ) (2022-12-01T02:58:46Z) - DeepMultiCap: Performance Capture of Multiple Characters Using Sparse
Multiview Cameras [63.186486240525554]
deep multicapは、スパースマルチビューカメラを用いたマルチパーソンパフォーマンスキャプチャのための新しい手法である。
本手法では,事前走査型テンプレートモデルを用いることなく,時間変化した表面の詳細をキャプチャできる。
論文 参考訳(メタデータ) (2021-05-01T14:32:13Z) - Coherent Loss: A Generic Framework for Stable Video Segmentation [103.78087255807482]
ビデオセグメンテーションの結果の視覚的品質を,ジッタリングアーティファクトがいかに劣化させるかを検討する。
本稿では,ニューラルネットワークの性能向上を目的とした汎用フレームワークを備えたコヒーレントロスを提案する。
論文 参考訳(メタデータ) (2020-10-25T10:48:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。