論文の概要: Streaming Multiscale Deep Equilibrium Models
- arxiv url: http://arxiv.org/abs/2204.13492v1
- Date: Thu, 28 Apr 2022 13:35:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-29 13:51:54.985905
- Title: Streaming Multiscale Deep Equilibrium Models
- Title(参考訳): ストリーミング多スケール深層平衡モデル
- Authors: Can Ufuk Ertenli, Emre Akbas, Ramazan Gokberk Cinbis
- Abstract要約: StreamDEQは、最小フレーム当たりの計算量でビデオのフレームワイズ表現を推測する手法である。
固定点問題を解くことによって画像の表現を推論する,最近出現した暗黙層モデルを活用する。
StreamDEQは数フレームでほぼ最適表現を復元でき、ビデオ期間を通して最新の表現を維持できることを示す。
- 参考スコア(独自算出の注目度): 14.115875224773985
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present StreamDEQ, a method that infers frame-wise representations on
videos with minimal per-frame computation. In contrast to conventional methods
where compute time grows at least linearly with the network depth, we aim to
update the representations in a continuous manner. For this purpose, we
leverage the recently emerging implicit layer model which infers the
representation of an image by solving a fixed-point problem. Our main insight
is to leverage the slowly changing nature of videos and use the previous frame
representation as an initial condition on each frame. This scheme effectively
recycles the recent inference computations and greatly reduces the needed
processing time. Through extensive experimental analysis, we show that
StreamDEQ is able to recover near-optimal representations in a few frames time,
and maintain an up-to-date representation throughout the video duration. Our
experiments on video semantic segmentation and video object detection show that
StreamDEQ achieves on par accuracy with the baseline (standard MDEQ) while
being more than $3\times$ faster. The project page is available at:
https://ufukertenli.github.io/streamdeq/
- Abstract(参考訳): 本稿では,最小フレーム当たりの計算量で動画のフレームワイズ表現を推論するStreamDEQを提案する。
計算時間が少なくともネットワーク深度と線形に増加する従来の手法とは対照的に,我々は連続的に表現を更新することを目指している。
この目的のために,最近出現した暗黙層モデルを利用して,固定点問題を解くことで画像の表現を推定する。
私たちの主な洞察は、ビデオのゆっくりと変化する性質を活用し、以前のフレーム表現を各フレームの初期条件として使用することです。
このスキームは、最近の推論計算を効果的にリサイクルし、必要な処理時間を大幅に削減する。
広範にわたる実験分析により,StreamDEQは数フレームでほぼ最適表現を復元し,ビデオ期間を通じて最新の表現を維持可能であることを示す。
ビデオセマンティックセグメンテーションとビデオオブジェクト検出の実験により、StreamDEQはベースライン(標準MDEQ)と同等の精度で達成でき、しかも3ドル以上高速であることが示された。
プロジェクトページはhttps://ufukertenli.github.io/streamdeq/。
関連論文リスト
- SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。
時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。
10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文 参考訳(メタデータ) (2024-07-22T08:04:09Z) - DynPoint: Dynamic Neural Point For View Synthesis [45.44096876841621]
我々は、制約のないモノクロビデオのための新しいビューの迅速な合成を容易にするアルゴリズムであるDynPointを提案する。
DynPointは、情報集約を実現するために、隣接するフレーム間の明示的な3D対応を予測することに集中している。
本手法は,ビデオコンテンツの正規表現を学習することなく,長時間の動画処理において強い堅牢性を示す。
論文 参考訳(メタデータ) (2023-10-29T12:55:53Z) - ResQ: Residual Quantization for Video Perception [18.491197847596283]
本稿では,Residual Quantization(Residual Quantization)と呼ばれるビデオネットワークのための新しい量子化手法を提案する。
ビデオの変化量に比例してビット幅を動的に調整するために、我々のモデルを拡張します。
論文 参考訳(メタデータ) (2023-08-18T12:41:10Z) - ReBotNet: Fast Real-time Video Enhancement [59.08038313427057]
ほとんどの復元ネットワークは遅く、高い計算ボトルネックがあり、リアルタイムビデオ拡張には使用できない。
本研究では,ライブビデオ通話やビデオストリームなどの実用的なユースケースをリアルタイムに拡張するための,効率的かつ高速なフレームワークを設計する。
提案手法を評価するために,実世界のビデオ通話とストリーミングのシナリオを示す2つの新しいデータセットをエミュレートし,ReBotNetがより少ない計算,メモリ要求の低減,より高速な推論時間で既存手法より優れていることを示す。
論文 参考訳(メタデータ) (2023-03-23T17:58:05Z) - Distortion-Aware Network Pruning and Feature Reuse for Real-time Video
Segmentation [49.17930380106643]
本稿では,リアルタイム視覚タスクのスキップ接続によるアーキテクチャの高速化を目的とした新しいフレームワークを提案する。
具体的には、各フレームの到着時に、前のフレームから特徴を変換し、特定の空間的ビンで再利用する。
次に、現在のフレームの領域におけるバックボーンネットワークの部分計算を行い、現在のフレームと前のフレームの時間差をキャプチャする。
論文 参考訳(メタデータ) (2022-06-20T07:20:02Z) - Efficient Video Segmentation Models with Per-frame Inference [117.97423110566963]
推論のオーバーヘッドを導入することなく、時間的一貫性を改善することに注力する。
本稿では,時間的一貫性の喪失やオンライン/オフラインの知識蒸留手法など,ビデオシーケンスから学ぶためのいくつかの手法を提案する。
論文 参考訳(メタデータ) (2022-02-24T23:51:36Z) - Coarse-Fine Networks for Temporal Activity Detection in Videos [45.03545172714305]
Co-Fine Networks」は、時間分解の異なる抽象化の恩恵を受け、長期的な動きのためのより良いビデオ表現を学ぶ2流アーキテクチャです。
提案手法は,計算量とメモリフットプリントを大幅に削減して,公開データセットにおける動作検出の最先端を上回ることができることを示す。
論文 参考訳(メタデータ) (2021-03-01T20:48:01Z) - Temporally Distributed Networks for Fast Video Semantic Segmentation [64.5330491940425]
TDNetは、高速かつ正確なビデオセマンティックセグメンテーションのために設計された時間分散ネットワークである。
我々は,深層CNNの特定の高層層から抽出した特徴を,より浅いサブネットワークから抽出した特徴の合成により近似することができることを観察した。
Cityscapes, CamVid, NYUD-v2 の実験により,本手法が高速かつ低レイテンシで最先端の精度を実現することを示す。
論文 参考訳(メタデータ) (2020-04-03T22:43:32Z) - Efficient Semantic Video Segmentation with Per-frame Inference [117.97423110566963]
本研究では,フレームごとの効率的なセマンティックビデオセグメンテーションを推論プロセス中に処理する。
そこで我々は,コンパクトモデルと大規模モデルのパフォーマンスギャップを狭めるために,新しい知識蒸留法を設計した。
論文 参考訳(メタデータ) (2020-02-26T12:24:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。