論文の概要: Improving Unsupervised Video Object Segmentation with Motion-Appearance
Synergy
- arxiv url: http://arxiv.org/abs/2212.08816v1
- Date: Sat, 17 Dec 2022 06:47:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 17:13:24.756644
- Title: Improving Unsupervised Video Object Segmentation with Motion-Appearance
Synergy
- Title(参考訳): 動き-出現相乗効果を用いた教師なし映像オブジェクトセグメンテーションの改善
- Authors: Long Lian, Zhirong Wu, Stella X. Yu
- Abstract要約: IMASは、トレーニングや推論において手動のアノテーションを使わずに、主要オブジェクトをビデオに分割する手法である。
IMASはMotion-Appearance Synergyによる改良されたUVOSを実現する。
人間のアノテーションや手作りハイパーパラム特有のメトリクスで調整された重要なハイパーパラムのチューニングにおいて、その効果を実証する。
- 参考スコア(独自算出の注目度): 52.03068246508119
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present IMAS, a method that segments the primary objects in videos without
manual annotation in training or inference. Previous methods in unsupervised
video object segmentation (UVOS) have demonstrated the effectiveness of motion
as either input or supervision for segmentation. However, motion signals may be
uninformative or even misleading in cases such as deformable objects and
objects with reflections, causing unsatisfactory segmentation.
In contrast, IMAS achieves Improved UVOS with Motion-Appearance Synergy. Our
method has two training stages: 1) a motion-supervised object discovery stage
that deals with motion-appearance conflicts through a learnable residual
pathway; 2) a refinement stage with both low- and high-level appearance
supervision to correct model misconceptions learned from misleading motion
cues.
Additionally, we propose motion-semantic alignment as a model-agnostic
annotation-free hyperparam tuning method. We demonstrate its effectiveness in
tuning critical hyperparams previously tuned with human annotation or
hand-crafted hyperparam-specific metrics.
IMAS greatly improves the segmentation quality on several common UVOS
benchmarks. For example, we surpass previous methods by 8.3% on DAVIS16
benchmark with only standard ResNet and convolutional heads. We intend to
release our code for future research and applications.
- Abstract(参考訳): IMASは、トレーニングや推論において手動のアノテーションを使わずに、主要オブジェクトをビデオに分割する手法である。
教師なしビデオオブジェクトセグメンテーション(UVOS)の従来手法は、セグメンテーションのインプットまたはインスペクションとして動作の有効性を示した。
しかし、運動信号は変形可能な物体や反射のある物体などでは変形的でない、あるいは誤解を招く場合もあり、セグメンテーションが不十分となる。
対照的に、IMASはMotion-Appearance Synergyによる改良UVOSを実現している。
私たちの方法は2つの訓練段階がある。
1) 学習可能な残留経路を通した運動・外観衝突を扱う動作監視対象発見段階
2) 誤解を招く動きの手がかりから学習したモデル誤解を正すために, 低レベルおよび高レベルの外観監督をともなう改良段階を考案した。
さらに,モデル非依存なアノテーションフリーハイパーパラムチューニング手法としてモーション・セマンティクスアライメントを提案する。
人間のアノテーションや手作りハイパーパラム特有のメトリクスで調整された重要なハイパーパラムをチューニングする効果を実証する。
IMASはいくつかのUVOSベンチマークのセグメンテーション品質を大幅に改善する。
例えば、標準のresnetと畳み込みヘッドだけでdavis16ベンチマークで以前のメソッドを8.3%上回った。
将来の研究と応用のためのコードをリリースするつもりです。
関連論文リスト
- MotionMix: Weakly-Supervised Diffusion for Controllable Motion
Generation [19.999239668765885]
MotionMixはノイズと無注釈の両方のモーションシーケンスを利用する弱い教師付き拡散モデルである。
我々のフレームワークは、テキスト・トゥ・モーション、アクション・トゥ・モーション、音楽・トゥ・ダンスのタスクにおける最先端のパフォーマンスを一貫して達成する。
論文 参考訳(メタデータ) (2024-01-20T04:58:06Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Event-Free Moving Object Segmentation from Moving Ego Vehicle [88.33470650615162]
動的シーンにおけるオブジェクトセグメンテーション(MOS)の移動は、自律運転において重要で困難だが、未調査の研究テーマである。
ほとんどのセグメンテーション法は、光学フローマップから得られるモーションキューを利用する。
我々は,光学的フローに頼らずにリッチなモーションキューを提供する,より優れた映像理解のためのイベントカメラを活用することを提案する。
論文 参考訳(メタデータ) (2023-04-28T23:43:10Z) - Tsanet: Temporal and Scale Alignment for Unsupervised Video Object
Segmentation [21.19216164433897]
Unsupervised Video Object (UVOS) は、手動による指示なしに、ビデオ内の顕著なオブジェクトをセグメンテーションする難しいタスクを指す。
上記の2つのアプローチの限界に対処できるUVOSの新しいフレームワークを提案する。
DAVIS 2016 と FBMS という公開ベンチマークデータセットを用いて,本手法の有効性を実証した実験結果を示す。
論文 参考訳(メタデータ) (2023-03-08T04:59:43Z) - Segmenting Moving Objects via an Object-Centric Layered Representation [100.26138772664811]
深層表現を用いたオブジェクト中心セグメンテーションモデルを提案する。
複数のオブジェクトで合成トレーニングデータを生成するスケーラブルなパイプラインを導入する。
標準的なビデオセグメンテーションベンチマークでモデルを評価する。
論文 参考訳(メタデータ) (2022-07-05T17:59:43Z) - Deep Motion Prior for Weakly-Supervised Temporal Action Localization [35.25323276744999]
Weakly-Supervised Temporal Action Localization (WSTAL) は、ビデオレベルのラベルだけで、未トリミングビデオ内のアクションをローカライズすることを目的としている。
現在、最先端のWSTALメソッドのほとんどは、Multi-Instance Learning (MIL)パイプラインに従っています。
既存の手法では,1)動作情報の不十分な使用,2)広汎なクロスエントロピートレーニング損失の相容れない2つの重要な欠点が指摘されている。
論文 参考訳(メタデータ) (2021-08-12T08:51:36Z) - Self-supervised Video Object Segmentation by Motion Grouping [79.13206959575228]
動きの手がかりを利用して物体をセグメンテーションできるコンピュータビジョンシステムを開発した。
本稿では,光フローフレームを一次オブジェクトと背景に分割するトランスフォーマーの簡単なバリエーションを紹介する。
提案したアーキテクチャを公開ベンチマーク(DAVIS2016, SegTrackv2, FBMS59)で評価する。
論文 参考訳(メタデータ) (2021-04-15T17:59:32Z) - Track, Check, Repeat: An EM Approach to Unsupervised Tracking [20.19397660306534]
本研究では, 移動物体を3Dで検出・追跡する非監視手法を, RGB-D動画で提案する。
重度データ拡張により,外観に基づく2次元および3次元検出器のアンサンブルを学習する。
CATERとKITTIの挑戦的なビデオを使用して、既存の監視されていないオブジェクト発見と追跡方法と比較します。
論文 参考訳(メタデータ) (2021-04-07T22:51:39Z) - Learning to Segment Rigid Motions from Two Frames [72.14906744113125]
本研究では, 運動場から独立物体の動きを復元する幾何学的解析により, モジュラーネットワークを提案する。
2つの連続フレームを入力とし、背景のセグメンテーションマスクと複数の剛体移動オブジェクトを予測し、3次元の剛体変換によってパラメータ化する。
本手法はkittiおよびsintelにおける剛体運動セグメンテーションの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-11T04:20:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。