論文の概要: High Fidelity Interactive Video Segmentation Using Tensor Decomposition
Boundary Loss Convolutional Tessellations and Context Aware Skip Connections
- arxiv url: http://arxiv.org/abs/2011.11602v1
- Date: Mon, 23 Nov 2020 18:21:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-22 01:53:21.598560
- Title: High Fidelity Interactive Video Segmentation Using Tensor Decomposition
Boundary Loss Convolutional Tessellations and Context Aware Skip Connections
- Title(参考訳): テンソル分解境界損失畳み込みとコンテキスト対応スキップ接続を用いた高忠実度インタラクティブビデオセグメンテーション
- Authors: Anthony D. Rhodes, Manan Goel
- Abstract要約: 対話型ビデオセグメンテーションタスクのための高忠実度ディープラーニングアルゴリズム(HyperSeg)を提供する。
我々のモデルは、ダウンサンプリングやプールの手順を使わずに、すべての画像特徴を高解像度で処理し、レンダリングする。
私たちの作業は、VFXパイプラインや医療画像の規律など、幅広いアプリケーション領域で使用することができます。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We provide a high fidelity deep learning algorithm (HyperSeg) for interactive
video segmentation tasks using a convolutional network with context-aware skip
connections, and compressed, hypercolumn image features combined with a
convolutional tessellation procedure. In order to maintain high output
fidelity, our model crucially processes and renders all image features in high
resolution, without utilizing downsampling or pooling procedures. We maintain
this consistent, high grade fidelity efficiently in our model chiefly through
two means: (1) We use a statistically-principled tensor decomposition procedure
to modulate the number of hypercolumn features and (2) We render these features
in their native resolution using a convolutional tessellation technique. For
improved pixel level segmentation results, we introduce a boundary loss
function; for improved temporal coherence in video data, we include temporal
image information in our model. Through experiments, we demonstrate the
improved accuracy of our model against baseline models for interactive
segmentation tasks using high resolution video data. We also introduce a
benchmark video segmentation dataset, the VFX Segmentation Dataset, which
contains over 27,046 high resolution video frames, including greenscreen and
various composited scenes with corresponding, hand crafted, pixel level
segmentations. Our work presents an extension to improvement to state of the
art segmentation fidelity with high resolution data and can be used across a
broad range of application domains, including VFX pipelines and medical imaging
disciplines.
- Abstract(参考訳): コンテキスト認識によるスキップ接続を伴う畳み込みネットワークを用いた対話型ビデオセグメンテーションタスクのための高忠実度ディープラーニングアルゴリズム(hyperseg)と畳み込みテッセレーション手順を組み合わせた圧縮ハイパーカラム画像特徴を提供する。
高出力忠実性を維持するため,本モデルでは,ダウンサンプリングやプール処理を使わずに,すべての画像特徴を高解像度で処理し,レンダリングする。
提案手法は,(1)高カラム特徴量を調整するために統計的に導いたテンソル分解法を用い,(2)畳み込み型テッセルレーション法を用いて,これらの特徴をそれらのネイティブ解像度に描画する。
画素レベルの分割結果の改善のために境界損失関数を導入し,映像データの時間的コヒーレンスを改善するため,モデルに時間的画像情報を含める。
実験により,高分解能映像データを用いた対話型セグメンテーションタスクにおけるベースラインモデルに対するモデルの精度向上を実証する。
ベンチマークビデオセグメンテーションデータセットであるVFXセグメンテーションデータセットも導入した。これは27,046以上の高解像度ビデオフレームを含み、グリーンスクリーンや様々な複合シーンが対応する手作りのピクセルレベルのセグメンテーションを含む。
本研究は,高分解能データによるアートセグメンテーションの忠実性向上への拡張を示し,vfxパイプラインや医用イメージング分野など,幅広いアプリケーションドメインで利用可能である。
関連論文リスト
- Vchitect-2.0: Parallel Transformer for Scaling Up Video Diffusion Models [89.79067761383855]
Vchitect-2.0は、大規模テキスト・ビデオ生成のためにビデオ拡散モデルをスケールアップするために設計された並列トランスフォーマーアーキテクチャである。
新たなマルチモーダル拡散ブロックを導入することで,テキスト記述と生成されたビデオフレームの整合性を実現する。
メモリと計算のボトルネックを克服するために,メモリ効率のトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-14T21:53:11Z) - Elevating Flow-Guided Video Inpainting with Reference Generation [50.03502211226332]
ビデオインパインティング(VI)は、フレーム間で観測可能なコンテンツを効果的に伝播させながら、オリジナルビデオに存在しない新しいコンテンツを同時に生成する必要がある課題である。
本稿では,より進んだ画素伝搬アルゴリズムと組み合わせて,参照生成のための大規模な生成モデルを活用する,堅牢で実用的なVIフレームワークを提案する。
提案手法は,オブジェクト削除のためのフレームレベルの品質を著しく向上するだけでなく,ユーザが提供するテキストプロンプトに基づいて,欠落した領域の新たなコンテンツを合成する。
論文 参考訳(メタデータ) (2024-12-12T06:13:00Z) - Transforming Static Images Using Generative Models for Video Salient Object Detection [15.701293552584863]
本研究では,画像成分間の文脈的関係を理解しつつ,静止画像の現実的な変換を画像間拡散モデルで生成できることを示す。
この能力により、モデルは、シーン要素の独立な動きを反映しながらセマンティックな整合性を保ちながら、可塑性光フローを生成することができる。
我々のアプローチは、すべての公開ベンチマークデータセットで最先端のパフォーマンスを実現し、既存のアプローチよりも優れています。
論文 参考訳(メタデータ) (2024-11-21T09:41:33Z) - Exploring Intra- and Inter-Video Relation for Surgical Semantic Scene
Segmentation [58.74791043631219]
セグメンテーション性能を高めるために,映像内および映像間関係を補完する新しいフレームワークSTswinCLを提案する。
本研究では,EndoVis18 ChallengeとCaDISデータセットを含む2つの公開手術ビデオベンチマークに対するアプローチを広く検証する。
実験により,従来の最先端手法を一貫して超越した提案手法の有望な性能を示す。
論文 参考訳(メタデータ) (2022-03-29T05:52:23Z) - ARVo: Learning All-Range Volumetric Correspondence for Video Deblurring [92.40655035360729]
ビデオデブラリングモデルは連続フレームを利用して、カメラの揺動や物体の動きからぼやけを取り除く。
特徴空間におけるボケフレーム間の空間的対応を学習する新しい暗黙的手法を提案する。
提案手法は,新たに収集したビデオデブレーション用ハイフレームレート(1000fps)データセットとともに,広く採用されているDVDデータセット上で評価される。
論文 参考訳(メタデータ) (2021-03-07T04:33:13Z) - Adaptive Compact Attention For Few-shot Video-to-video Translation [13.535988102579918]
本稿では,複数の参照画像からコンテキスト特徴を効率的に抽出する適応型コンパクトアテンション機構を提案する。
我々の中心となる考え方は、すべての参照画像からより高レベルな表現としてコンパクトな基底集合を抽出することである。
提案手法を大規模トーキングヘッドビデオデータセットと人間のダンスデータセットで広範囲に評価した。
論文 参考訳(メタデータ) (2020-11-30T11:19:12Z) - Coherent Loss: A Generic Framework for Stable Video Segmentation [103.78087255807482]
ビデオセグメンテーションの結果の視覚的品質を,ジッタリングアーティファクトがいかに劣化させるかを検討する。
本稿では,ニューラルネットワークの性能向上を目的とした汎用フレームワークを備えたコヒーレントロスを提案する。
論文 参考訳(メタデータ) (2020-10-25T10:48:28Z) - Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。
ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。
提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文 参考訳(メタデータ) (2020-03-15T11:04:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。