論文の概要: Coherent Loss: A Generic Framework for Stable Video Segmentation
- arxiv url: http://arxiv.org/abs/2010.13085v1
- Date: Sun, 25 Oct 2020 10:48:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 04:49:35.183839
- Title: Coherent Loss: A Generic Framework for Stable Video Segmentation
- Title(参考訳): Coherent Loss: 安定したビデオセグメンテーションのためのジェネリックフレームワーク
- Authors: Mingyang Qian, Yi Fu, Xiao Tan, Yingying Li, Jinqing Qi, Huchuan Lu,
Shilei Wen, Errui Ding
- Abstract要約: ビデオセグメンテーションの結果の視覚的品質を,ジッタリングアーティファクトがいかに劣化させるかを検討する。
本稿では,ニューラルネットワークの性能向上を目的とした汎用フレームワークを備えたコヒーレントロスを提案する。
- 参考スコア(独自算出の注目度): 103.78087255807482
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video segmentation approaches are of great importance for numerous vision
tasks especially in video manipulation for entertainment. Due to the challenges
associated with acquiring high-quality per-frame segmentation annotations and
large video datasets with different environments at scale, learning approaches
shows overall higher accuracy on test dataset but lack strict temporal
constraints to self-correct jittering artifacts in most practical applications.
We investigate how this jittering artifact degrades the visual quality of video
segmentation results and proposed a metric of temporal stability to numerically
evaluate it. In particular, we propose a Coherent Loss with a generic framework
to enhance the performance of a neural network against jittering artifacts,
which combines with high accuracy and high consistency. Equipped with our
method, existing video object/semantic segmentation approaches achieve a
significant improvement in term of more satisfactory visual quality on video
human dataset, which we provide for further research in this field, and also on
DAVIS and Cityscape.
- Abstract(参考訳): ビデオセグメンテーションのアプローチは、多くの視覚課題、特にエンタテインメントのためのビデオ操作において非常に重要である。
高品質なフレーム単位のセグメンテーションアノテーションと、異なる環境の大規模ビデオデータセットを取得することに伴う課題から、学習アプローチは、テストデータセットの全体的な精度を示しているが、ほとんどの実用的なアプリケーションにおいて、自己修正されたジッターアーティファクトに対する厳格な時間的制約を欠いている。
このジッタリングアーチファクトが映像セグメンテーション結果の視覚品質を劣化させる方法について検討し,それを数値的に評価するための時間安定性の指標を提案した。
特に,高い精度と高い一貫性を兼ね備えた,ジッタリングアーティファクトに対するニューラルネットワークの性能向上を目的とした汎用フレームワークによるコヒーレント損失を提案する。
本手法を応用して,既存の映像オブジェクト/セマンティックセグメンテーション手法により,映像人間のデータセットの視覚的品質が向上し,DAVISやCityscapeのさらなる研究が期待できる。
関連論文リスト
- Appearance-based Refinement for Object-Centric Motion Segmentation [95.80420062679104]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では, 正確な流量予測マスクを模範として, 簡単な選択機構を用いる。
パフォーマンスは、DAVIS、YouTubeVOS、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - M3T: Multi-Scale Memory Matching for Video Object Segmentation and
Tracking [36.87237664751979]
本稿では,上記の課題を体系的に解析し,対処することを目的とした,DETR方式のエンコーダデコーダアーキテクチャを提案する。
具体的には、映像をクリップに分割し、タイムコードメモリを用いてコンテキストを伝播することにより、長いビデオのオンライン推論を可能にする。
本稿では、短いクリップ長と学習時間符号化によるメモリ長が、最先端(SoTA)の性能を達成する上で重要な設計選択であることを示す。
論文 参考訳(メタデータ) (2023-12-13T21:02:03Z) - Video Dynamics Prior: An Internal Learning Approach for Robust Video
Enhancements [83.5820690348833]
外部トレーニングデータコーパスを必要としない低レベルの視覚タスクのためのフレームワークを提案する。
提案手法は,コヒーレンス・時間的テストの重み付けと統計内部統計を利用して,破損したシーケンスを最適化することでニューラルモジュールを学習する。
論文 参考訳(メタデータ) (2023-12-13T01:57:11Z) - Adaptive graph convolutional networks for weakly supervised anomaly
detection in videos [42.3118758940767]
本稿では,映像セグメント間のコンテキスト関係をモデル化するために,弱教師付き適応グラフ畳み込みネットワーク(WAGCN)を提案する。
各セグメントの異常確率スコアを生成する際に、他のビデオセグメントが現在のセグメントに与える影響を十分に検討する。
論文 参考訳(メタデータ) (2022-02-14T06:31:34Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - Temporally stable video segmentation without video annotations [6.184270985214255]
静止画像分割モデルを教師なしの方法でビデオに適応させる手法を提案する。
整合性尺度がヒトの判断とよく相関していることを検証する。
生成したセグメンテーションビデオの精度の低下を最小限に抑えて改善を観察する。
論文 参考訳(メタデータ) (2021-10-17T18:59:11Z) - The DEVIL is in the Details: A Diagnostic Evaluation Benchmark for Video
Inpainting [43.90848669491335]
2つのコントリビューションからなるDEVIL(Video Inpainting on Landscapes)ベンチマークの診断評価を提案する。
私たちの挑戦的なベンチマークは、ビデオインペインティングメソッドをより洞察に富んだ分析を可能にし、この分野の診断ツールとして役立ちます。
論文 参考訳(メタデータ) (2021-05-11T20:13:53Z) - Composable Augmentation Encoding for Video Representation Learning [94.2358972764708]
自己教師型ビデオ表現学習におけるコントラスト手法に着目した。
対照的な学習における一般的なパラダイムは、同じインスタンスで異なるデータビューをサンプリングし、異なるデータインスタンスを負として、ポジティブペアを構築することである。
そこで我々は,拡張パラメータの列を明示的に提供する,拡張対応型コントラスト学習フレームワークを提案する。
提案手法は,特定の空間的あるいは時間的拡張に関する情報をエンコードすると同時に,多数のビデオベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-04-01T16:48:53Z) - Temporal Context Aggregation for Video Retrieval with Contrastive
Learning [81.12514007044456]
フレームレベルの特徴間の時間的長距離情報を組み込んだビデオ表現学習フレームワークTCAを提案する。
提案手法は,映像レベルの特徴を持つ最先端の手法に対して,FIVR-200Kでは17% mAPの大幅な性能上の優位性を示す。
論文 参考訳(メタデータ) (2020-08-04T05:24:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。