論文の概要: Unsupervised motion segmentation in one go: Smooth long-term model over
a video
- arxiv url: http://arxiv.org/abs/2310.01040v2
- Date: Sun, 28 Jan 2024 01:15:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-30 21:43:26.476642
- Title: Unsupervised motion segmentation in one go: Smooth long-term model over
a video
- Title(参考訳): one goで教師なしのモーションセグメンテーション:ビデオ上のスムーズな長期モデル
- Authors: Etienne Meunier and Patrick Bouthemy
- Abstract要約: 完全教師なし方式で動作させる新しい長期的モデルを提案する。
連続する光学フロー(OF)フィールドの体積を入力として、ビデオ上に一連のコヒーレントな動きのセグメントを出力する。
定量的な結果を得た4つのVOSベンチマーク実験について報告する。
- 参考スコア(独自算出の注目度): 6.853165736531941
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Human beings have the ability to continuously analyze a video and immediately
extract the main motion components. Motion segmentation methods based on deep
learning often proceed frame by frame. We want to go beyond this paradigm, and
perform the motion segmentation in series of flow fields of any length, up to
the complete video sequence. It will be a prominent added value for downstream
computer vision tasks, and could provide a pretext criterion for unsupervised
video representation learning. In this perspective, we propose a novel
long-term spatio-temporal model operating in a totally unsupervised way. It
takes as input the volume of consecutive optical flow (OF) fields, and delivers
a volume of segments of coherent motion over the video. More specifically, we
have designed a transformer-based network, where we leverage a mathematically
well-founded framework, the Evidence Lower Bound (ELBO), to infer the loss
function. The loss function combines a flow reconstruction term involving
spatio-temporal parametric motion models combining, in a novel way, polynomial
(quadratic) motion models for the $(x,y)$-spatial dimensions and B-splines for
the time dimension of the video sequence, and a regularization term enforcing
temporal consistency on the masks. We report experiments on four VOS benchmarks
with convincing quantitative results. We also highlight through visual results
the key contributions on temporal consistency brought by our method.
- Abstract(参考訳): 人間は継続的にビデオを分析し、すぐに主要な動き成分を抽出する能力を持つ。
深層学習に基づく動作分割法はしばしばフレーム単位で進行する。
このパラダイムを超えて、あらゆる長さの一連の流れ場において、完全なビデオシーケンスまで、モーションセグメンテーションを実行したいと考えています。
これは下流のコンピュータビジョンタスクにとって顕著な付加価値であり、教師なしのビデオ表現学習のためのプリテキスト基準を提供する。
そこで本研究では,非教師的手法による長期時空間モデルを提案する。
連続する光学フロー(OF)フィールドの体積を入力として、ビデオ上に一連のコヒーレントな動きのセグメントを出力する。
具体的には、数学的に確立されたフレームワークであるELBO(Evidence Lower Bound)を利用して損失関数を推論するトランスフォーマーベースのネットワークを設計した。
損失関数は、新たな方法で、ビデオシーケンスの時間次元に対する$(x,y)$-spatial dimensionとb-splinesの多項式(二次)運動モデルと、マスクの時間的一貫性を強制する正規化項とを含む、時空間的パラメトリック運動モデルを含むフロー再構成項とを結合する。
我々は4つのvosベンチマークを定量的に評価する実験を行った。
また,この手法がもたらす時間的整合性に対する重要な貢献について,視覚的結果を通して強調する。
関連論文リスト
- MCDS-VSS: Moving Camera Dynamic Scene Video Semantic Segmentation by Filtering with Self-Supervised Geometry and Motion [17.50161162624179]
自動運転車は意思決定に信頼性のあるセマンティックな環境認識に依存している。
本稿では,カメラのシーン形状とエゴモーションを自己教師付きで学習する構造化フィルタモデルMCDS-VSSを提案する。
我々のモデルは自動車シーンを、シーン幾何学、エゴモーション、オブジェクトモーションなどの複数の解釈可能な表現に解析する。
論文 参考訳(メタデータ) (2024-05-30T10:33:14Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Revisiting Kernel Temporal Segmentation as an Adaptive Tokenizer for
Long-form Video Understanding [57.917616284917756]
実世界のビデオは、しばしば数分間の長さであり、意味的に一貫した長さのセグメントがある。
長いビデオを処理するための一般的なアプローチは、一定時間の長さの一様にサンプリングされたクリップにショートフォームビデオモデルを適用することである。
このアプローチは、固定長のクリップがしばしば冗長または非形式的であるため、長いビデオの基本的な性質を無視する。
論文 参考訳(メタデータ) (2023-09-20T18:13:32Z) - SceNeRFlow: Time-Consistent Reconstruction of General Dynamic Scenes [75.9110646062442]
我々はSceNeRFlowを提案し、時間的一貫性のある方法で一般的な非剛体シーンを再構築する。
提案手法は,カメラパラメータを入力として,静止カメラからのマルチビューRGBビデオと背景画像を取得する。
実験により,小規模動作のみを扱う先行作業とは異なり,スタジオスケール動作の再構築が可能であることが示された。
論文 参考訳(メタデータ) (2023-08-16T09:50:35Z) - JNMR: Joint Non-linear Motion Regression for Video Frame Interpolation [47.123769305867775]
ビデオフレーム(VFI)は、双方向の歴史的参照から学習可能な動きを歪曲することでフレームを生成することを目的としている。
我々は、フレーム間の複雑な動きをモデル化するために、VFIをJNMR(Joint Non-linear Motion Regression)戦略として再構成する。
その結果, 関節運動の退行性は, 最先端の方法と比較して有意に向上した。
論文 参考訳(メタデータ) (2022-06-09T02:47:29Z) - Implicit Motion Handling for Video Camouflaged Object Detection [60.98467179649398]
本稿では,新しいビデオカモフラージュオブジェクト検出(VCOD)フレームワークを提案する。
短期的および長期的整合性を利用して、ビデオフレームからカモフラージュされたオブジェクトを検出する。
論文 参考訳(メタデータ) (2022-03-14T17:55:41Z) - Dynamic View Synthesis from Dynamic Monocular Video [69.80425724448344]
動的シーンの単眼映像を与えられた任意の視点と任意の入力時間ステップでビューを生成するアルゴリズムを提案する。
カジュアルな映像からの動的ビュー合成の定量的および定性的な結果を示す。
論文 参考訳(メタデータ) (2021-05-13T17:59:50Z) - SSTVOS: Sparse Spatiotemporal Transformers for Video Object Segmentation [24.884078497381633]
VOS(Transformer-based approach to video object segmentation)について紹介する。
注意に基づくアプローチによって、モデルが複数のフレームの歴史的特徴を乗り越えることを学ぶことができます。
提案手法は,YouTube-VOS と DAVIS 2017 において,最先端技術と比較してスケーラビリティとロバスト性の向上を図った。
論文 参考訳(メタデータ) (2021-01-21T20:06:12Z) - Motion-Attentive Transition for Zero-Shot Video Object Segmentation [99.44383412488703]
ゼロショットオブジェクトセグメンテーションのためのモーション・アテンタティブ・トランジション・ネットワーク(MATNet)を提案する。
モーション・アテンティブ・トランジション (MAT) と呼ばれる非対称のアテンションブロックは、2ストリームエンコーダ内に設計されている。
このように、エンコーダは深く相互に作用し、物体の動きと外観の間の密な階層的な相互作用を可能にする。
論文 参考訳(メタデータ) (2020-03-09T16:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。