Fugu-MT 論文翻訳(概要): Appearance-based Refinement for Object-Centric Motion Segmentation

論文の概要: Appearance-based Refinement for Object-Centric Motion Segmentation

arxiv url: http://arxiv.org/abs/2312.11463v1
Date: Mon, 18 Dec 2023 18:59:51 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-20 18:42:37.026388
Title: Appearance-based Refinement for Object-Centric Motion Segmentation
Title（参考訳）: 物体中心運動セグメンテーションのための外観ベースリファインメント
Authors: Junyu Xie, Weidi Xie, Andrew Zisserman
Abstract要約: 本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。提案手法では, 正確な流量予測マスクを模範として, 簡単な選択機構を用いる。パフォーマンスは、DAVIS、YouTubeVOS、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
参考スコア（独自算出の注目度）: 95.80420062679104
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The goal of this paper is to discover, segment, and track independently moving objects in complex visual scenes. Previous approaches have explored the use of optical flow for motion segmentation, leading to imperfect predictions due to partial motion, background distraction, and object articulations and interactions. To address this issue, we introduce an appearance-based refinement method that leverages temporal consistency in video streams to correct inaccurate flow-based proposals. Our approach involves a simple selection mechanism that identifies accurate flow-predicted masks as exemplars, and an object-centric architecture that refines problematic masks based on exemplar information. The model is pre-trained on synthetic data and then adapted to real-world videos in a self-supervised manner, eliminating the need for human annotations. Its performance is evaluated on multiple video segmentation benchmarks, including DAVIS, YouTubeVOS, SegTrackv2, and FBMS-59. We achieve competitive performance on single-object segmentation, while significantly outperforming existing models on the more challenging problem of multi-object segmentation. Finally, we investigate the benefits of using our model as a prompt for a per-frame Segment Anything Model.
Abstract（参考訳）: 本研究の目的は,複雑な視覚シーンにおける独立して動く物体の発見,セグメント化,追跡である。従来のアプローチでは、動きのセグメンテーションに光の流れを用いることが検討されており、部分的な動き、背景の注意散らし、物体の関節と相互作用による不完全な予測につながっている。この問題に対処するために,ビデオストリームの時間的一貫性を活用し,不正確なフローベース提案を補正する外観改善手法を提案する。提案手法は,正確なフロー予測マスクを例示として識別する簡易な選択機構と,問題のあるマスクを例示情報に基づいて洗練するオブジェクト中心アーキテクチャを含む。このモデルは、合成データに基づいて事前訓練され、実際のビデオに自己監督的に適応し、人間のアノテーションを必要としない。パフォーマンスは、davis、youtubevos、segtrackv2、fbms-59を含む複数のビデオセグメンテーションベンチマークで評価される。単一対象セグメンテーションにおける競合性能は高いが,複数対象セグメンテーションの課題では既存モデルよりも優れていた。最後に、フレームごとのセグメンテーションモデルに対するプロンプトとして、我々のモデルを使用することの利点について検討する。

関連論文リスト

Segment Any Motion in Videos [80.72424676419755]
本研究では,長距離軌道運動キューとDINOに基づく意味的特徴を組み合わせた移動物体セグメンテーションを提案する。本モデルでは,動作を優先し,セマンティックサポートを統合しつつ,時空間軌道注意と動き・セマンティック・デカップリング・エンベディングを用いた。
論文参考訳（メタデータ） (2025-03-28T09:34:11Z)
Learning Motion and Temporal Cues for Unsupervised Video Object Segmentation [49.113131249753714]
本稿では,動きと時間的手がかりを同時に活用する,MTNetと呼ばれる効率的なアルゴリズムを提案する。 MTNetは、エンコーダ内の特徴抽出過程において、外観と動作の特徴を効果的にマージすることによって考案される。派生した機能を最適に活用するために、すべての機能レベルのデコーダのカスケードを使用します。
論文参考訳（メタデータ） (2025-01-14T03:15:46Z)
What is Point Supervision Worth in Video Instance Segmentation? [119.71921319637748]
ビデオインスタンスセグメンテーション(VIS)は、ビデオ内のオブジェクトを検出し、セグメンテーションし、追跡することを目的とした、難しいビジョンタスクである。トレーニング中、ビデオフレーム内の各オブジェクトについて、人間のアノテーションを1点に減らし、完全に教師されたモデルに近い高品質なマスク予測を得る。 3つのVISベンチマークに関する総合的な実験は、提案フレームワークの競合性能を示し、完全に教師付きされた手法にほぼ一致する。
論文参考訳（メタデータ） (2024-04-01T17:38:25Z)
LOCATE: Self-supervised Object Discovery via Flow-guided Graph-cut and Bootstrapped Self-training [13.985488693082981]
動作情報と外観情報を利用して高品質な物体分割マスクを生成する自己教師型物体発見手法を提案する。複数の標準ビデオオブジェクトセグメンテーション、画像のサリエンシ検出、オブジェクトセグメンテーションベンチマークにおいて、LOCATEと呼ばれるアプローチの有効性を実証する。
論文参考訳（メタデータ） (2023-08-22T07:27:09Z)
FODVid: Flow-guided Object Discovery in Videos [12.792602427704395]
我々は、個々の複雑さに過度に適合しないように、一般化可能なソリューションを構築することに注力する。教師なしの環境でビデオオブジェクト(VOS)を解決するために,セグメント出力の導出に基づく新しいパイプライン(FODVid)を提案する。
論文参考訳（メタデータ） (2023-07-10T07:55:42Z)
RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文参考訳（メタデータ） (2023-07-03T13:21:58Z)
Efficient Unsupervised Video Object Segmentation Network Based on Motion Guidance [1.5736899098702974]
本稿では,モーションガイダンスに基づく映像オブジェクト分割ネットワークを提案する。モデルは、デュアルストリームネットワーク、モーションガイダンスモジュール、マルチスケールプログレッシブフュージョンモジュールを含む。実験により,提案手法の優れた性能が証明された。
論文参考訳（メタデータ） (2022-11-10T06:13:23Z)
Segmenting Moving Objects via an Object-Centric Layered Representation [100.26138772664811]
深層表現を用いたオブジェクト中心セグメンテーションモデルを提案する。複数のオブジェクトで合成トレーニングデータを生成するスケーラブルなパイプラインを導入する。標準的なビデオセグメンテーションベンチマークでモデルを評価する。
論文参考訳（メタデータ） (2022-07-05T17:59:43Z)
Weakly Supervised Instance Segmentation using Motion Information via Optical Flow [3.0763099528432263]
画像と光の流れから抽出した外観と運動の特徴を利用する2ストリームエンコーダを提案する。提案手法は,最先端手法の平均精度を3.1倍に向上することを示した。
論文参考訳（メタデータ） (2022-02-25T22:41:54Z)
Self-supervised Video Object Segmentation by Motion Grouping [79.13206959575228]
動きの手がかりを利用して物体をセグメンテーションできるコンピュータビジョンシステムを開発した。本稿では,光フローフレームを一次オブジェクトと背景に分割するトランスフォーマーの簡単なバリエーションを紹介する。提案したアーキテクチャを公開ベンチマーク(DAVIS2016, SegTrackv2, FBMS59)で評価する。
論文参考訳（メタデータ） (2021-04-15T17:59:32Z)
Target-Aware Object Discovery and Association for Unsupervised Video Multi-Object Segmentation [79.6596425920849]
本稿では,教師なしビデオマルチオブジェクトセグメンテーションの課題について述べる。より正確で効率的な時間区分のための新しいアプローチを紹介します。 DAVIS$_17$とYouTube-VISに対する提案手法を評価した結果,セグメント化精度と推論速度の両方において最先端の手法より優れていることが示された。
論文参考訳（メタデータ） (2021-04-10T14:39:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。