論文の概要: Coarse to Fine Multi-Resolution Temporal Convolutional Network
- arxiv url: http://arxiv.org/abs/2105.10859v1
- Date: Sun, 23 May 2021 06:07:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-26 12:02:09.711147
- Title: Coarse to Fine Multi-Resolution Temporal Convolutional Network
- Title(参考訳): 粗大から微細なマルチレゾリューション時相畳み込みネットワーク
- Authors: Dipika Singhania, Rahul Rahaman, Angela Yao
- Abstract要約: 本稿では,シークエンス断片化問題に対処する新しいテンポラルエンコーダデコーダを提案する。
デコーダは、複数の時間分解能の暗黙のアンサンブルを持つ粗い微細構造に従う。
実験により、我々のスタンドアローンアーキテクチャは、新しい機能拡張戦略と新しい損失と共に、3つの時間的ビデオセグメンテーションベンチマークで最先端のパフォーマンスを達成していることが示された。
- 参考スコア(独自算出の注目度): 25.08516972520265
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Temporal convolutional networks (TCNs) are a commonly used architecture for
temporal video segmentation. TCNs however, tend to suffer from
over-segmentation errors and require additional refinement modules to ensure
smoothness and temporal coherency. In this work, we propose a novel temporal
encoder-decoder to tackle the problem of sequence fragmentation. In particular,
the decoder follows a coarse-to-fine structure with an implicit ensemble of
multiple temporal resolutions. The ensembling produces smoother segmentations
that are more accurate and better-calibrated, bypassing the need for additional
refinement modules. In addition, we enhance our training with a
multi-resolution feature-augmentation strategy to promote robustness to varying
temporal resolutions. Finally, to support our architecture and encourage
further sequence coherency, we propose an action loss that penalizes
misclassifications at the video level. Experiments show that our stand-alone
architecture, together with our novel feature-augmentation strategy and new
loss, outperforms the state-of-the-art on three temporal video segmentation
benchmarks.
- Abstract(参考訳): 時間的畳み込みネットワーク(TCN)は、時間的ビデオセグメンテーションのための一般的なアーキテクチャである。
しかし、TCNは過分割エラーに悩まされ、スムーズさと時間的一貫性を確保するために追加の改良モジュールを必要とする。
本研究では,シーケンスフラグメンテーション問題に取り組むための,新しい時間エンコーダ・デコーダを提案する。
特にデコーダは、複数の時間分解能の暗黙のアンサンブルを持つ粗い微細構造に従う。
センセーブリングはより正確でより正確なセグメンテーションを生成し、追加のリファインメントモジュールの必要性を回避します。
さらに,様々な時間分解能に対するロバスト性を促進するため,マルチレゾリューション機能拡張戦略によりトレーニングを強化した。
最後に、我々のアーキテクチャをサポートし、さらにシーケンスコヒーレンシーを促進するために、ビデオレベルでの誤分類を罰するアクション損失を提案する。
実験によると、我々のスタンドアロンアーキテクチャは、新しい特徴提示戦略と新しい損失と共に、3つのテンポラルビデオセグメンテーションベンチマークの最先端を上回っている。
関連論文リスト
- Low-Light Video Enhancement via Spatial-Temporal Consistent Illumination and Reflection Decomposition [68.6707284662443]
低照度ビデオエンハンスメント(LLVE)は、激しい視認性とノイズに悩まされる動的および静的なシーンの復元を目指している。
1つの重要な側面は、時間空間照明と外観強化バージョンに特化した一貫性の制約を定式化することである。
本稿では,レチネックスを基盤とした革新的なビデオ分解戦略について述べる。
論文 参考訳(メタデータ) (2024-05-24T15:56:40Z) - Differentiable Resolution Compression and Alignment for Efficient Video
Classification and Retrieval [16.497758750494537]
本稿では,高解像度圧縮・アライメント機構を備えた効率的な映像表現ネットワークを提案する。
我々は、相性および非相性フレーム特徴を符号化するために、微分可能なコンテキスト対応圧縮モジュールを利用する。
我々は,異なる解像度のフレーム特徴間のグローバル時間相関を捉えるために,新しい解像度変換器層を導入する。
論文 参考訳(メタデータ) (2023-09-15T05:31:53Z) - Cross-Consistent Deep Unfolding Network for Adaptive All-In-One Video
Restoration [78.14941737723501]
オールインワンVRのためのクロスコンセントディープ・アンフォールディング・ネットワーク(CDUN)を提案する。
2つのカスケード手順を編成することにより、CDUNは様々な劣化に対する適応的な処理を達成する。
さらに、より隣接するフレームからの情報を活用するために、ウィンドウベースのフレーム間融合戦略を導入する。
論文 参考訳(メタデータ) (2023-09-04T14:18:00Z) - Continuous Space-Time Video Super-Resolution Utilizing Long-Range
Temporal Information [48.20843501171717]
本稿では,任意のフレームレートと空間解像度に変換可能な連続ST-VSR(CSTVSR)手法を提案する。
本稿では,提案アルゴリズムの柔軟性が向上し,各種データセットの性能が向上することを示す。
論文 参考訳(メタデータ) (2023-02-26T08:02:39Z) - Temporal Consistency Learning of inter-frames for Video Super-Resolution [38.26035126565062]
ビデオ超解像(VSR)は、低解像度(LR)参照フレームと複数の隣接フレームから高解像度(HR)フレームを再構成することを目的としたタスクである。
既存の手法は一般に情報伝達とフレームアライメントを探求し、VSRの性能を向上させる。
本稿では,再建されたビデオの一貫性を高めるため,VSRのための時間一貫性学習ネットワーク(TCNet)を提案する。
論文 参考訳(メタデータ) (2022-11-03T08:23:57Z) - Distortion-Aware Network Pruning and Feature Reuse for Real-time Video
Segmentation [49.17930380106643]
本稿では,リアルタイム視覚タスクのスキップ接続によるアーキテクチャの高速化を目的とした新しいフレームワークを提案する。
具体的には、各フレームの到着時に、前のフレームから特徴を変換し、特定の空間的ビンで再利用する。
次に、現在のフレームの領域におけるバックボーンネットワークの部分計算を行い、現在のフレームと前のフレームの時間差をキャプチャする。
論文 参考訳(メタデータ) (2022-06-20T07:20:02Z) - Revisiting Temporal Alignment for Video Restoration [39.05100686559188]
長時間の時間的アライメントは、ビデオ復元作業には不可欠だが、難しい。
本稿では, 段階的な修正手法を応用した, 新規で汎用的な反復的アライメントモジュールを提案する。
本モデルは,映像復元タスクの多種多様なベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2021-11-30T11:08:52Z) - An Efficient Recurrent Adversarial Framework for Unsupervised Real-Time
Video Enhancement [132.60976158877608]
対比ビデオの例から直接学習する効率的な対比ビデオ強化フレームワークを提案する。
特に,空間的情報と時間的情報の暗黙的統合のための局所的モジュールとグローバルモジュールからなる新しい再帰的セルを導入する。
提案する設計では,フレーム間の情報伝達を効率的に行うことができ,複雑なネットワークの必要性を低減できる。
論文 参考訳(メタデータ) (2020-12-24T00:03:29Z) - iSeeBetter: Spatio-temporal video super-resolution using recurrent
generative back-projection networks [0.0]
ビデオ超解像(VSR)に対する新しいGANに基づく構造時間的アプローチiSeeBetterを提案する。
iSeeBetterは、リカレントバックプロジェクションネットワークをジェネレータとして使用して、現在のフレームと隣接するフレームから時空間情報を抽出する。
以上の結果から,iSeeBetterはVSRの忠実度に優れ,最先端の性能に勝ることを示した。
論文 参考訳(メタデータ) (2020-06-13T01:36:30Z) - Temporally Distributed Networks for Fast Video Semantic Segmentation [64.5330491940425]
TDNetは、高速かつ正確なビデオセマンティックセグメンテーションのために設計された時間分散ネットワークである。
我々は,深層CNNの特定の高層層から抽出した特徴を,より浅いサブネットワークから抽出した特徴の合成により近似することができることを観察した。
Cityscapes, CamVid, NYUD-v2 の実験により,本手法が高速かつ低レイテンシで最先端の精度を実現することを示す。
論文 参考訳(メタデータ) (2020-04-03T22:43:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。