Fugu-MT 論文翻訳(概要): High Fidelity Interactive Video Segmentation Using Tensor Decomposition Boundary Loss Convolutional Tessellations and Context Aware Skip Connections

論文の概要: High Fidelity Interactive Video Segmentation Using Tensor Decomposition Boundary Loss Convolutional Tessellations and Context Aware Skip Connections

arxiv url: http://arxiv.org/abs/2011.11602v1
Date: Mon, 23 Nov 2020 18:21:42 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-22 01:53:21.598560
Title: High Fidelity Interactive Video Segmentation Using Tensor Decomposition Boundary Loss Convolutional Tessellations and Context Aware Skip Connections
Title（参考訳）: テンソル分解境界損失畳み込みとコンテキスト対応スキップ接続を用いた高忠実度インタラクティブビデオセグメンテーション
Authors: Anthony D. Rhodes, Manan Goel
Abstract要約: 対話型ビデオセグメンテーションタスクのための高忠実度ディープラーニングアルゴリズム(HyperSeg)を提供する。我々のモデルは、ダウンサンプリングやプールの手順を使わずに、すべての画像特徴を高解像度で処理し、レンダリングする。私たちの作業は、VFXパイプラインや医療画像の規律など、幅広いアプリケーション領域で使用することができます。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We provide a high fidelity deep learning algorithm (HyperSeg) for interactive video segmentation tasks using a convolutional network with context-aware skip connections, and compressed, hypercolumn image features combined with a convolutional tessellation procedure. In order to maintain high output fidelity, our model crucially processes and renders all image features in high resolution, without utilizing downsampling or pooling procedures. We maintain this consistent, high grade fidelity efficiently in our model chiefly through two means: (1) We use a statistically-principled tensor decomposition procedure to modulate the number of hypercolumn features and (2) We render these features in their native resolution using a convolutional tessellation technique. For improved pixel level segmentation results, we introduce a boundary loss function; for improved temporal coherence in video data, we include temporal image information in our model. Through experiments, we demonstrate the improved accuracy of our model against baseline models for interactive segmentation tasks using high resolution video data. We also introduce a benchmark video segmentation dataset, the VFX Segmentation Dataset, which contains over 27,046 high resolution video frames, including greenscreen and various composited scenes with corresponding, hand crafted, pixel level segmentations. Our work presents an extension to improvement to state of the art segmentation fidelity with high resolution data and can be used across a broad range of application domains, including VFX pipelines and medical imaging disciplines.
Abstract（参考訳）: コンテキスト認識によるスキップ接続を伴う畳み込みネットワークを用いた対話型ビデオセグメンテーションタスクのための高忠実度ディープラーニングアルゴリズム(hyperseg)と畳み込みテッセレーション手順を組み合わせた圧縮ハイパーカラム画像特徴を提供する。高出力忠実性を維持するため,本モデルでは,ダウンサンプリングやプール処理を使わずに,すべての画像特徴を高解像度で処理し,レンダリングする。提案手法は,(1)高カラム特徴量を調整するために統計的に導いたテンソル分解法を用い,(2)畳み込み型テッセルレーション法を用いて,これらの特徴をそれらのネイティブ解像度に描画する。画素レベルの分割結果の改善のために境界損失関数を導入し,映像データの時間的コヒーレンスを改善するため,モデルに時間的画像情報を含める。実験により,高分解能映像データを用いた対話型セグメンテーションタスクにおけるベースラインモデルに対するモデルの精度向上を実証する。ベンチマークビデオセグメンテーションデータセットであるVFXセグメンテーションデータセットも導入した。これは27,046以上の高解像度ビデオフレームを含み、グリーンスクリーンや様々な複合シーンが対応する手作りのピクセルレベルのセグメンテーションを含む。本研究は,高分解能データによるアートセグメンテーションの忠実性向上への拡張を示し,vfxパイプラインや医用イメージング分野など,幅広いアプリケーションドメインで利用可能である。

関連論文リスト

VideoPainter: Any-length Video Inpainting and Editing with Plug-and-Play Context Control [47.34885131252508]
ビデオのインペイントは、腐敗したビデオコンテンツを復元することを目的としている。マスク付きビデオを処理するための新しいデュアルストリームパラダイムVideoPainterを提案する。また,任意の長さの映像を描ける新しいターゲット領域ID再サンプリング手法も導入する。
論文参考訳（メタデータ） (2025-03-07T17:59:46Z)
Vchitect-2.0: Parallel Transformer for Scaling Up Video Diffusion Models [89.79067761383855]
Vchitect-2.0は、大規模テキスト・ビデオ生成のためにビデオ拡散モデルをスケールアップするために設計された並列トランスフォーマーアーキテクチャである。新たなマルチモーダル拡散ブロックを導入することで,テキスト記述と生成されたビデオフレームの整合性を実現する。メモリと計算のボトルネックを克服するために,メモリ効率のトレーニングフレームワークを提案する。
論文参考訳（メタデータ） (2025-01-14T21:53:11Z)
Elevating Flow-Guided Video Inpainting with Reference Generation [50.03502211226332]
ビデオインパインティング(VI)は、フレーム間で観測可能なコンテンツを効果的に伝播させながら、オリジナルビデオに存在しない新しいコンテンツを同時に生成する必要がある課題である。本稿では,より進んだ画素伝搬アルゴリズムと組み合わせて,参照生成のための大規模な生成モデルを活用する,堅牢で実用的なVIフレームワークを提案する。提案手法は,オブジェクト削除のためのフレームレベルの品質を著しく向上するだけでなく,ユーザが提供するテキストプロンプトに基づいて,欠落した領域の新たなコンテンツを合成する。
論文参考訳（メタデータ） (2024-12-12T06:13:00Z)
Video Set Distillation: Information Diversification and Temporal Densification [68.85010825225528]
Video textbfsetsは2次元の冗長性を持つ: サンプル内およびサンプル間冗長性。我々は,まず,サンプル内およびサンプル間冗長性に対処して,最適化された映像データを合成するビデオセット蒸留について検討する。
論文参考訳（メタデータ） (2024-11-28T05:37:54Z)
Transforming Static Images Using Generative Models for Video Salient Object Detection [15.701293552584863]
本研究では,画像成分間の文脈的関係を理解しつつ,静止画像の現実的な変換を画像間拡散モデルで生成できることを示す。この能力により、モデルは、シーン要素の独立な動きを反映しながらセマンティックな整合性を保ちながら、可塑性光フローを生成することができる。我々のアプローチは、すべての公開ベンチマークデータセットで最先端のパフォーマンスを実現し、既存のアプローチよりも優れています。
論文参考訳（メタデータ） (2024-11-21T09:41:33Z)
I2VGen-XL: High-Quality Image-to-Video Synthesis via Cascaded Diffusion Models [54.99771394322512]
ビデオ合成は拡散モデルの急速な発展の恩恵を受け、近年顕著な進歩を遂げている。意味的正確性、明快さ、連続性-時間的連続性という観点ではまだ遭遇に挑戦する。これら2つの要素を分離することでモデル性能を向上させるカスケードI2VGen-XL手法を提案する。 I2VGen-XLは、生成したビデオの意味的精度、詳細の連続性、明快さを同時に向上させることができる。
論文参考訳（メタデータ） (2023-11-07T17:16:06Z)
Joint Modeling of Feature, Correspondence, and a Compressed Memory for Video Object Segmentation [47.7036344302777]
現在のオブジェクトビデオ参照メソッドは、抽出-then-matchingのパイプラインに従う。本稿では,共同機能モデリング,対応,圧縮メモリのための統合VOSフレームワークであるJointFormerを提案する。
論文参考訳（メタデータ） (2023-08-25T17:30:08Z)
Video Captioning with Aggregated Features Based on Dual Graphs and Gated Fusion [6.096411752534632]
ビデオキャプションモデルの応用は、正確な自然言語を用いて動画の内容を翻訳することを目的としている。既存の方法は、しばしばビデオコンテンツの十分な特徴表現を生成するのに失敗する。二重グラフとゲート融合に基づくビデオキャプションモデルを提案する。
論文参考訳（メタデータ） (2023-08-13T05:18:08Z)
Exploring Intra- and Inter-Video Relation for Surgical Semantic Scene Segmentation [58.74791043631219]
セグメンテーション性能を高めるために,映像内および映像間関係を補完する新しいフレームワークSTswinCLを提案する。本研究では,EndoVis18 ChallengeとCaDISデータセットを含む2つの公開手術ビデオベンチマークに対するアプローチを広く検証する。実験により,従来の最先端手法を一貫して超越した提案手法の有望な性能を示す。
論文参考訳（メタデータ） (2022-03-29T05:52:23Z)
ARVo: Learning All-Range Volumetric Correspondence for Video Deblurring [92.40655035360729]
ビデオデブラリングモデルは連続フレームを利用して、カメラの揺動や物体の動きからぼやけを取り除く。特徴空間におけるボケフレーム間の空間的対応を学習する新しい暗黙的手法を提案する。提案手法は,新たに収集したビデオデブレーション用ハイフレームレート(1000fps)データセットとともに,広く採用されているDVDデータセット上で評価される。
論文参考訳（メタデータ） (2021-03-07T04:33:13Z)
Adaptive Compact Attention For Few-shot Video-to-video Translation [13.535988102579918]
本稿では,複数の参照画像からコンテキスト特徴を効率的に抽出する適応型コンパクトアテンション機構を提案する。我々の中心となる考え方は、すべての参照画像からより高レベルな表現としてコンパクトな基底集合を抽出することである。提案手法を大規模トーキングヘッドビデオデータセットと人間のダンスデータセットで広範囲に評価した。
論文参考訳（メタデータ） (2020-11-30T11:19:12Z)
Coherent Loss: A Generic Framework for Stable Video Segmentation [103.78087255807482]
ビデオセグメンテーションの結果の視覚的品質を,ジッタリングアーティファクトがいかに劣化させるかを検討する。本稿では,ニューラルネットワークの性能向上を目的とした汎用フレームワークを備えたコヒーレントロスを提案する。
論文参考訳（メタデータ） (2020-10-25T10:48:28Z)
Enhanced Quadratic Video Interpolation [56.54662568085176]
より複雑なシーンや動きパターンを扱うために,拡張された2次ビデオ(EQVI)モデルを提案する。さらなる性能向上のために,学習可能な拡張プロセスと見なせる新しいマルチスケール核融合ネットワーク(MS-Fusion)を考案した。提案されたEQVIモデルは、AIM 2020 Video Temporal Super-Resolution Challengeで優勝した。
論文参考訳（メタデータ） (2020-09-10T02:31:50Z)
Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文参考訳（メタデータ） (2020-03-15T11:04:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。