Fugu-MT 論文翻訳(概要): Coherent Loss: A Generic Framework for Stable Video Segmentation

論文の概要: Coherent Loss: A Generic Framework for Stable Video Segmentation

arxiv url: http://arxiv.org/abs/2010.13085v1
Date: Sun, 25 Oct 2020 10:48:28 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-03 04:49:35.183839
Title: Coherent Loss: A Generic Framework for Stable Video Segmentation
Title（参考訳）: Coherent Loss: 安定したビデオセグメンテーションのためのジェネリックフレームワーク
Authors: Mingyang Qian, Yi Fu, Xiao Tan, Yingying Li, Jinqing Qi, Huchuan Lu, Shilei Wen, Errui Ding
Abstract要約: ビデオセグメンテーションの結果の視覚的品質を,ジッタリングアーティファクトがいかに劣化させるかを検討する。本稿では,ニューラルネットワークの性能向上を目的とした汎用フレームワークを備えたコヒーレントロスを提案する。
参考スコア（独自算出の注目度）: 103.78087255807482
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Video segmentation approaches are of great importance for numerous vision tasks especially in video manipulation for entertainment. Due to the challenges associated with acquiring high-quality per-frame segmentation annotations and large video datasets with different environments at scale, learning approaches shows overall higher accuracy on test dataset but lack strict temporal constraints to self-correct jittering artifacts in most practical applications. We investigate how this jittering artifact degrades the visual quality of video segmentation results and proposed a metric of temporal stability to numerically evaluate it. In particular, we propose a Coherent Loss with a generic framework to enhance the performance of a neural network against jittering artifacts, which combines with high accuracy and high consistency. Equipped with our method, existing video object/semantic segmentation approaches achieve a significant improvement in term of more satisfactory visual quality on video human dataset, which we provide for further research in this field, and also on DAVIS and Cityscape.
Abstract（参考訳）: ビデオセグメンテーションのアプローチは、多くの視覚課題、特にエンタテインメントのためのビデオ操作において非常に重要である。高品質なフレーム単位のセグメンテーションアノテーションと、異なる環境の大規模ビデオデータセットを取得することに伴う課題から、学習アプローチは、テストデータセットの全体的な精度を示しているが、ほとんどの実用的なアプリケーションにおいて、自己修正されたジッターアーティファクトに対する厳格な時間的制約を欠いている。このジッタリングアーチファクトが映像セグメンテーション結果の視覚品質を劣化させる方法について検討し,それを数値的に評価するための時間安定性の指標を提案した。特に,高い精度と高い一貫性を兼ね備えた,ジッタリングアーティファクトに対するニューラルネットワークの性能向上を目的とした汎用フレームワークによるコヒーレント損失を提案する。本手法を応用して,既存の映像オブジェクト/セマンティックセグメンテーション手法により,映像人間のデータセットの視覚的品質が向上し,DAVISやCityscapeのさらなる研究が期待できる。

関連論文リスト

BrokenVideos: A Benchmark Dataset for Fine-Grained Artifact Localization in AI-Generated Videos [63.03271511550633]
BrokenVideosは、3,254のAI生成ビデオのベンチマークデータセットで、微妙に注釈付けされたピクセルレベルのマスクが視覚的腐敗の領域を強調している。実験の結果,BrokenVideosにおける人工物検出モデルの訓練状況とマルチモーダル大言語モデル(MLLM)が,破壊領域のローカライズ能力を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2025-06-25T03:30:04Z)
Video Decomposition Prior: A Methodology to Decompose Videos into Layers [74.36790196133505]
本稿では,プロのビデオ編集の実践からインスピレーションを得た,VDP以前の新しいビデオ分解手法を提案する。 VDPフレームワークは、ビデオシーケンスを複数のRGBレイヤと関連する不透明度レベルに分解する。ビデオオブジェクトのセグメンテーション、デハジング、リライティングといったタスクに対処する。
論文参考訳（メタデータ） (2024-12-06T10:35:45Z)
SALOVA: Segment-Augmented Long Video Assistant for Targeted Retrieval and Routing in Long-Form Video Analysis [52.050036778325094]
本稿では,SALOVA: Segment-Augmented Video Assistantを紹介する。 87.8Kビデオの高品質なコレクションをセグメントレベルで高密度にキャプションし、シーンの連続性を捕捉し、リッチなコンテキストを維持する。本フレームワークは,クエリに応答して,関連ビデオセグメントの正確な識別と検索を可能にすることで,現在のビデオLMMの限界を緩和する。
論文参考訳（メタデータ） (2024-11-25T08:04:47Z)
Video DataFlywheel: Resolving the Impossible Data Trinity in Video-Language Understanding [61.89781979702939]
本研究では,事前学習データセットにおけるデータ量,多様性,品質の「不可能トリニティ」を定量的に明らかにする。近年の取り組みは、合成アノテーションによって低品質で妥協された大規模で多様なASRデータセットを改良することを目指している。我々は,ビデオアノテーションを改良されたノイズコントロール手法で反復的に洗練するVideo DataFlywheelフレームワークを紹介する。
論文参考訳（メタデータ） (2024-09-29T03:33:35Z)
Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文参考訳（メタデータ） (2023-12-18T18:59:51Z)
Adaptive graph convolutional networks for weakly supervised anomaly detection in videos [42.3118758940767]
本稿では,映像セグメント間のコンテキスト関係をモデル化するために,弱教師付き適応グラフ畳み込みネットワーク(WAGCN)を提案する。各セグメントの異常確率スコアを生成する際に、他のビデオセグメントが現在のセグメントに与える影響を十分に検討する。
論文参考訳（メタデータ） (2022-02-14T06:31:34Z)
Video Salient Object Detection via Contrastive Features and Attention Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文参考訳（メタデータ） (2021-11-03T17:40:32Z)
Temporally stable video segmentation without video annotations [6.184270985214255]
静止画像分割モデルを教師なしの方法でビデオに適応させる手法を提案する。整合性尺度がヒトの判断とよく相関していることを検証する。生成したセグメンテーションビデオの精度の低下を最小限に抑えて改善を観察する。
論文参考訳（メタデータ） (2021-10-17T18:59:11Z)
The DEVIL is in the Details: A Diagnostic Evaluation Benchmark for Video Inpainting [43.90848669491335]
2つのコントリビューションからなるDEVIL(Video Inpainting on Landscapes)ベンチマークの診断評価を提案する。私たちの挑戦的なベンチマークは、ビデオインペインティングメソッドをより洞察に富んだ分析を可能にし、この分野の診断ツールとして役立ちます。
論文参考訳（メタデータ） (2021-05-11T20:13:53Z)
High Fidelity Interactive Video Segmentation Using Tensor Decomposition Boundary Loss Convolutional Tessellations and Context Aware Skip Connections [0.0]
対話型ビデオセグメンテーションタスクのための高忠実度ディープラーニングアルゴリズム(HyperSeg)を提供する。我々のモデルは、ダウンサンプリングやプールの手順を使わずに、すべての画像特徴を高解像度で処理し、レンダリングする。私たちの作業は、VFXパイプラインや医療画像の規律など、幅広いアプリケーション領域で使用することができます。
論文参考訳（メタデータ） (2020-11-23T18:21:42Z)
Temporal Context Aggregation for Video Retrieval with Contrastive Learning [81.12514007044456]
フレームレベルの特徴間の時間的長距離情報を組み込んだビデオ表現学習フレームワークTCAを提案する。提案手法は,映像レベルの特徴を持つ最先端の手法に対して,FIVR-200Kでは17% mAPの大幅な性能上の優位性を示す。
論文参考訳（メタデータ） (2020-08-04T05:24:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。