論文の概要: Unsupervised motion segmentation in one go: Smooth long-term model over
a video
- arxiv url: http://arxiv.org/abs/2310.01040v2
- Date: Sun, 28 Jan 2024 01:15:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-30 21:43:26.476642
- Title: Unsupervised motion segmentation in one go: Smooth long-term model over
a video
- Title(参考訳): one goで教師なしのモーションセグメンテーション:ビデオ上のスムーズな長期モデル
- Authors: Etienne Meunier and Patrick Bouthemy
- Abstract要約: 完全教師なし方式で動作させる新しい長期的モデルを提案する。
連続する光学フロー(OF)フィールドの体積を入力として、ビデオ上に一連のコヒーレントな動きのセグメントを出力する。
定量的な結果を得た4つのVOSベンチマーク実験について報告する。
- 参考スコア(独自算出の注目度): 6.853165736531941
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Human beings have the ability to continuously analyze a video and immediately
extract the main motion components. Motion segmentation methods based on deep
learning often proceed frame by frame. We want to go beyond this paradigm, and
perform the motion segmentation in series of flow fields of any length, up to
the complete video sequence. It will be a prominent added value for downstream
computer vision tasks, and could provide a pretext criterion for unsupervised
video representation learning. In this perspective, we propose a novel
long-term spatio-temporal model operating in a totally unsupervised way. It
takes as input the volume of consecutive optical flow (OF) fields, and delivers
a volume of segments of coherent motion over the video. More specifically, we
have designed a transformer-based network, where we leverage a mathematically
well-founded framework, the Evidence Lower Bound (ELBO), to infer the loss
function. The loss function combines a flow reconstruction term involving
spatio-temporal parametric motion models combining, in a novel way, polynomial
(quadratic) motion models for the $(x,y)$-spatial dimensions and B-splines for
the time dimension of the video sequence, and a regularization term enforcing
temporal consistency on the masks. We report experiments on four VOS benchmarks
with convincing quantitative results. We also highlight through visual results
the key contributions on temporal consistency brought by our method.
- Abstract(参考訳): 人間は継続的にビデオを分析し、すぐに主要な動き成分を抽出する能力を持つ。
深層学習に基づく動作分割法はしばしばフレーム単位で進行する。
このパラダイムを超えて、あらゆる長さの一連の流れ場において、完全なビデオシーケンスまで、モーションセグメンテーションを実行したいと考えています。
これは下流のコンピュータビジョンタスクにとって顕著な付加価値であり、教師なしのビデオ表現学習のためのプリテキスト基準を提供する。
そこで本研究では,非教師的手法による長期時空間モデルを提案する。
連続する光学フロー(OF)フィールドの体積を入力として、ビデオ上に一連のコヒーレントな動きのセグメントを出力する。
具体的には、数学的に確立されたフレームワークであるELBO(Evidence Lower Bound)を利用して損失関数を推論するトランスフォーマーベースのネットワークを設計した。
損失関数は、新たな方法で、ビデオシーケンスの時間次元に対する$(x,y)$-spatial dimensionとb-splinesの多項式(二次)運動モデルと、マスクの時間的一貫性を強制する正規化項とを含む、時空間的パラメトリック運動モデルを含むフロー再構成項とを結合する。
我々は4つのvosベンチマークを定量的に評価する実験を行った。
また,この手法がもたらす時間的整合性に対する重要な貢献について,視覚的結果を通して強調する。
関連論文リスト
- Appearance-based Refinement for Object-Centric Motion Segmentation [95.80420062679104]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では, 正確な流量予測マスクを模範として, 簡単な選択機構を用いる。
パフォーマンスは、DAVIS、YouTubeVOS、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Efficient Long-Short Temporal Attention Network for Unsupervised Video
Object Segmentation [23.645412918420906]
Unsupervised Video Object (VOS) は、事前知識のないビデオにおいて、一次前景オブジェクトの輪郭を識別することを目的としている。
従来の手法では空間的文脈を完全には用いておらず、リアルタイムにこの課題に取り組むことができない。
これにより,教師なしVOSタスクを包括的視点から,効率的な長短テンポラルアテンションネットワーク(LSTA)を開発することができる。
論文 参考訳(メタデータ) (2023-09-21T01:09:46Z) - FODVid: Flow-guided Object Discovery in Videos [12.792602427704395]
我々は、個々の複雑さに過度に適合しないように、一般化可能なソリューションを構築することに注力する。
教師なしの環境でビデオオブジェクト(VOS)を解決するために,セグメント出力の導出に基づく新しいパイプライン(FODVid)を提案する。
論文 参考訳(メタデータ) (2023-07-10T07:55:42Z) - You Can Ground Earlier than See: An Effective and Efficient Pipeline for
Temporal Sentence Grounding in Compressed Videos [56.676761067861236]
ビデオがトリミングされていない場合、時間的文のグラウンド化は、文問合せに従って目的のモーメントを意味的に見つけることを目的としている。
それまでの優れた作品は、かなり成功したが、それらはデコードされたフレームから抽出されたハイレベルな視覚的特徴にのみ焦点を当てている。
本稿では,圧縮された映像を直接視覚入力として利用する,圧縮された領域のTSGを提案する。
論文 参考訳(メタデータ) (2023-03-14T12:53:27Z) - Learning Trajectory-Aware Transformer for Video Super-Resolution [50.49396123016185]
ビデオ超解像は、高解像度(HR)フレームを低解像度(LR)フレームから復元することを目的としている。
既存のアプローチは通常、隣接する限られたフレームからビデオフレームを並べて集約する。
ビデオ超解像用トランスフォーマー(TTVSR)を提案する。
論文 参考訳(メタデータ) (2022-04-08T03:37:39Z) - Implicit Motion Handling for Video Camouflaged Object Detection [60.98467179649398]
本稿では,新しいビデオカモフラージュオブジェクト検出(VCOD)フレームワークを提案する。
短期的および長期的整合性を利用して、ビデオフレームからカモフラージュされたオブジェクトを検出する。
論文 参考訳(メタデータ) (2022-03-14T17:55:41Z) - Exploring Motion and Appearance Information for Temporal Sentence
Grounding [52.01687915910648]
本研究では、時間的文のグラウンド化を解決するために、MARN(Motion-Appearance Reasoning Network)を提案する。
動作誘導と外見誘導のオブジェクト関係を学習するために,動作分岐と外見分岐を別々に開発する。
提案するMARNは,従来の最先端手法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2022-01-03T02:44:18Z) - Dynamic View Synthesis from Dynamic Monocular Video [69.80425724448344]
動的シーンの単眼映像を与えられた任意の視点と任意の入力時間ステップでビューを生成するアルゴリズムを提案する。
カジュアルな映像からの動的ビュー合成の定量的および定性的な結果を示す。
論文 参考訳(メタデータ) (2021-05-13T17:59:50Z) - Coarse-Fine Networks for Temporal Activity Detection in Videos [45.03545172714305]
Co-Fine Networks」は、時間分解の異なる抽象化の恩恵を受け、長期的な動きのためのより良いビデオ表現を学ぶ2流アーキテクチャです。
提案手法は,計算量とメモリフットプリントを大幅に削減して,公開データセットにおける動作検出の最先端を上回ることができることを示す。
論文 参考訳(メタデータ) (2021-03-01T20:48:01Z) - SSTVOS: Sparse Spatiotemporal Transformers for Video Object Segmentation [24.884078497381633]
VOS(Transformer-based approach to video object segmentation)について紹介する。
注意に基づくアプローチによって、モデルが複数のフレームの歴史的特徴を乗り越えることを学ぶことができます。
提案手法は,YouTube-VOS と DAVIS 2017 において,最先端技術と比較してスケーラビリティとロバスト性の向上を図った。
論文 参考訳(メタデータ) (2021-01-21T20:06:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。