論文の概要: High Fidelity Interactive Video Segmentation Using Tensor Decomposition
Boundary Loss Convolutional Tessellations and Context Aware Skip Connections
- arxiv url: http://arxiv.org/abs/2011.11602v1
- Date: Mon, 23 Nov 2020 18:21:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-22 01:53:21.598560
- Title: High Fidelity Interactive Video Segmentation Using Tensor Decomposition
Boundary Loss Convolutional Tessellations and Context Aware Skip Connections
- Title(参考訳): テンソル分解境界損失畳み込みとコンテキスト対応スキップ接続を用いた高忠実度インタラクティブビデオセグメンテーション
- Authors: Anthony D. Rhodes, Manan Goel
- Abstract要約: 対話型ビデオセグメンテーションタスクのための高忠実度ディープラーニングアルゴリズム(HyperSeg)を提供する。
我々のモデルは、ダウンサンプリングやプールの手順を使わずに、すべての画像特徴を高解像度で処理し、レンダリングする。
私たちの作業は、VFXパイプラインや医療画像の規律など、幅広いアプリケーション領域で使用することができます。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We provide a high fidelity deep learning algorithm (HyperSeg) for interactive
video segmentation tasks using a convolutional network with context-aware skip
connections, and compressed, hypercolumn image features combined with a
convolutional tessellation procedure. In order to maintain high output
fidelity, our model crucially processes and renders all image features in high
resolution, without utilizing downsampling or pooling procedures. We maintain
this consistent, high grade fidelity efficiently in our model chiefly through
two means: (1) We use a statistically-principled tensor decomposition procedure
to modulate the number of hypercolumn features and (2) We render these features
in their native resolution using a convolutional tessellation technique. For
improved pixel level segmentation results, we introduce a boundary loss
function; for improved temporal coherence in video data, we include temporal
image information in our model. Through experiments, we demonstrate the
improved accuracy of our model against baseline models for interactive
segmentation tasks using high resolution video data. We also introduce a
benchmark video segmentation dataset, the VFX Segmentation Dataset, which
contains over 27,046 high resolution video frames, including greenscreen and
various composited scenes with corresponding, hand crafted, pixel level
segmentations. Our work presents an extension to improvement to state of the
art segmentation fidelity with high resolution data and can be used across a
broad range of application domains, including VFX pipelines and medical imaging
disciplines.
- Abstract(参考訳): コンテキスト認識によるスキップ接続を伴う畳み込みネットワークを用いた対話型ビデオセグメンテーションタスクのための高忠実度ディープラーニングアルゴリズム(hyperseg)と畳み込みテッセレーション手順を組み合わせた圧縮ハイパーカラム画像特徴を提供する。
高出力忠実性を維持するため,本モデルでは,ダウンサンプリングやプール処理を使わずに,すべての画像特徴を高解像度で処理し,レンダリングする。
提案手法は,(1)高カラム特徴量を調整するために統計的に導いたテンソル分解法を用い,(2)畳み込み型テッセルレーション法を用いて,これらの特徴をそれらのネイティブ解像度に描画する。
画素レベルの分割結果の改善のために境界損失関数を導入し,映像データの時間的コヒーレンスを改善するため,モデルに時間的画像情報を含める。
実験により,高分解能映像データを用いた対話型セグメンテーションタスクにおけるベースラインモデルに対するモデルの精度向上を実証する。
ベンチマークビデオセグメンテーションデータセットであるVFXセグメンテーションデータセットも導入した。これは27,046以上の高解像度ビデオフレームを含み、グリーンスクリーンや様々な複合シーンが対応する手作りのピクセルレベルのセグメンテーションを含む。
本研究は,高分解能データによるアートセグメンテーションの忠実性向上への拡張を示し,vfxパイプラインや医用イメージング分野など,幅広いアプリケーションドメインで利用可能である。
関連論文リスト
- Transforming Static Images Using Generative Models for Video Salient Object Detection [15.701293552584863]
本研究では,画像成分間の文脈的関係を理解しつつ,静止画像の現実的な変換を画像間拡散モデルで生成できることを示す。
この能力により、モデルは、シーン要素の独立な動きを反映しながらセマンティックな整合性を保ちながら、可塑性光フローを生成することができる。
我々のアプローチは、すべての公開ベンチマークデータセットで最先端のパフォーマンスを実現し、既存のアプローチよりも優れています。
論文 参考訳(メタデータ) (2024-11-21T09:41:33Z) - I2VGen-XL: High-Quality Image-to-Video Synthesis via Cascaded Diffusion
Models [54.99771394322512]
ビデオ合成は拡散モデルの急速な発展の恩恵を受け、近年顕著な進歩を遂げている。
意味的正確性、明快さ、連続性-時間的連続性という観点ではまだ遭遇に挑戦する。
これら2つの要素を分離することでモデル性能を向上させるカスケードI2VGen-XL手法を提案する。
I2VGen-XLは、生成したビデオの意味的精度、詳細の連続性、明快さを同時に向上させることができる。
論文 参考訳(メタデータ) (2023-11-07T17:16:06Z) - Video Captioning with Aggregated Features Based on Dual Graphs and Gated
Fusion [6.096411752534632]
ビデオキャプションモデルの応用は、正確な自然言語を用いて動画の内容を翻訳することを目的としている。
既存の方法は、しばしばビデオコンテンツの十分な特徴表現を生成するのに失敗する。
二重グラフとゲート融合に基づくビデオキャプションモデルを提案する。
論文 参考訳(メタデータ) (2023-08-13T05:18:08Z) - Exploring Intra- and Inter-Video Relation for Surgical Semantic Scene
Segmentation [58.74791043631219]
セグメンテーション性能を高めるために,映像内および映像間関係を補完する新しいフレームワークSTswinCLを提案する。
本研究では,EndoVis18 ChallengeとCaDISデータセットを含む2つの公開手術ビデオベンチマークに対するアプローチを広く検証する。
実験により,従来の最先端手法を一貫して超越した提案手法の有望な性能を示す。
論文 参考訳(メタデータ) (2022-03-29T05:52:23Z) - ARVo: Learning All-Range Volumetric Correspondence for Video Deblurring [92.40655035360729]
ビデオデブラリングモデルは連続フレームを利用して、カメラの揺動や物体の動きからぼやけを取り除く。
特徴空間におけるボケフレーム間の空間的対応を学習する新しい暗黙的手法を提案する。
提案手法は,新たに収集したビデオデブレーション用ハイフレームレート(1000fps)データセットとともに,広く採用されているDVDデータセット上で評価される。
論文 参考訳(メタデータ) (2021-03-07T04:33:13Z) - Adaptive Compact Attention For Few-shot Video-to-video Translation [13.535988102579918]
本稿では,複数の参照画像からコンテキスト特徴を効率的に抽出する適応型コンパクトアテンション機構を提案する。
我々の中心となる考え方は、すべての参照画像からより高レベルな表現としてコンパクトな基底集合を抽出することである。
提案手法を大規模トーキングヘッドビデオデータセットと人間のダンスデータセットで広範囲に評価した。
論文 参考訳(メタデータ) (2020-11-30T11:19:12Z) - Coherent Loss: A Generic Framework for Stable Video Segmentation [103.78087255807482]
ビデオセグメンテーションの結果の視覚的品質を,ジッタリングアーティファクトがいかに劣化させるかを検討する。
本稿では,ニューラルネットワークの性能向上を目的とした汎用フレームワークを備えたコヒーレントロスを提案する。
論文 参考訳(メタデータ) (2020-10-25T10:48:28Z) - Enhanced Quadratic Video Interpolation [56.54662568085176]
より複雑なシーンや動きパターンを扱うために,拡張された2次ビデオ(EQVI)モデルを提案する。
さらなる性能向上のために,学習可能な拡張プロセスと見なせる新しいマルチスケール核融合ネットワーク(MS-Fusion)を考案した。
提案されたEQVIモデルは、AIM 2020 Video Temporal Super-Resolution Challengeで優勝した。
論文 参考訳(メタデータ) (2020-09-10T02:31:50Z) - Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。
ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。
提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文 参考訳(メタデータ) (2020-03-15T11:04:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。