論文の概要: ANVIL: Accelerator-Native Video Interpolation via Codec Motion Vector Priors
- arxiv url: http://arxiv.org/abs/2603.26835v3
- Date: Wed, 01 Apr 2026 02:09:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:31.5982
- Title: ANVIL: Accelerator-Native Video Interpolation via Codec Motion Vector Priors
- Title(参考訳): ANVIL: コーデックモーションベクトルによるアクセラレータ-負ビデオ補間
- Authors: Shibo Liu,
- Abstract要約: モバイルニューラルプロセッシングユニット(NPU)上のリアルタイム30から60fpsのビデオフレームは、それぞれ33.3ms以内の合成フレームを必要とする。
主流のフローベースビデオフレームはモバイルNPU上の3つの構造的配置障壁に直面していることを示す。
ANVILは、H.264/AVCデコーダからのモーションベクトルを事前の入力フレームに再利用することで、これらの障壁に対処する。
Snapdragon 8 Gen 3デバイスでは、ANVIL 12.8 ms 1080pの推論を8ビット整数精度で行う。
- 参考スコア(独自算出の注目度): 3.1812226135012462
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-time 30-to-60 fps video frame interpolation on mobile neural processing units (NPUs) requires each synthesized frame within 33.3 ms. We show that mainstream flow-based video frame interpolation faces three structural deployment barriers on mobile NPUs: spatial sampling operators exceed the frame budget or lack hardware support, iterative flow refinement collapses under 8-bit integer post-training quantization, and memory-bound operators dominate the inference graph. ANVIL addresses these barriers by reusing motion vectors from the H.264/AVC decoder to prealign input frames, removing learned optical flow, spatial sampling, and iterative accumulation from the accelerator graph. The remaining residual is refined by a convolution-dominated network composed almost entirely of compute-bound operators. On a Snapdragon 8 Gen 3 device, ANVIL achieves 12.8 ms 1080p inference at 8-bit integer precision; an open-source Android player sustains 28.4 ms median end-to-end latency over 30-minute continuous playback. Per-operator causal analysis identifies quantized accumulation on recurrent flow states as a key mechanism behind integer quantization failure in iterative methods. The current design targets H.264/AVC playback with decoder-exposed motion vectors.
- Abstract(参考訳): 実時間30-60fpsのビデオフレーム補間は,33.3ms以内の合成フレームを必要とする。我々は,主流のフローベースビデオフレーム補間が,移動NPU上の3つの構造的配置障壁に直面していることを示す。
ANVILはこれらの障壁に対処するため、H.264/AVCデコーダからの運動ベクトルを予め調整された入力フレームに再利用し、学習された光学フロー、空間サンプリング、アクセルグラフからの反復的な蓄積を取り除く。
残りの残余は、ほとんど完全に計算バウンド演算子で構成される畳み込み支配ネットワークによって洗練される。
Snapdragon 8 Gen 3 デバイスでは、ANVIL は 8ビット整数精度で 12.8 ms 1080p の推論を実現している。
Per-oper causal analysis は、反復法における整数量子化失敗の鍵となるメカニズムとして、繰り返し流れの状態における量子化蓄積を同定する。
現在の設計では、H.264/AVC再生をデコーダで出力されたモーションベクトルでターゲットとしている。
関連論文リスト
- SHIELD8-UAV: Sequential 8-bit Hardware Implementation of a Precision-Aware 1D-F-CNN for Low-Energy UAV Acoustic Detection and Temporal Tracking [4.962717354668883]
ShiELD8-UAV (ShielD8-UAV) は、高精度1D機能駆動CNNアクセラレータのシーケンシャルな8ビットハードウェア実装である。
この設計は共有マルチ精度データパス上で層単位で実行し、複製された処理要素を不要にする。
その結果、逐次実行と高精度量子化とシリアライズ対応プルーニングを組み合わせることで、実用的な低エネルギーエッジ推論が可能となった。
論文 参考訳(メタデータ) (2026-03-01T12:09:15Z) - Neural-HAR: A Dimension-Gated CNN Accelerator for Real-Time Radar Human Activity Recognition [5.400353553418959]
本稿では,資源制約のあるプラットフォーム上でのリアルタイムレーダHARに適した次元ゲート型CNNアクセラレータを提案する。
GateCNNの精度は86.4%で、パラメータは2.7kで、推論あたり0.28M FLOPはCNN-BiGRUに匹敵する。
Xilinx Zynq-7000 Z-7007SのFPGAプロトタイプは、LUTベースのROMと分散RAMのみを使用した107.5$mu$sレイテンシと15mWのダイナミックパワーを実現しました。
論文 参考訳(メタデータ) (2025-10-26T17:42:28Z) - Speedy MASt3R [68.47052557089631]
MASt3Rは、DUSt3Rを活用して高速な相互マッチング方式を導入することで、画像マッチングを3Dタスクとして再定義する。
高速MASt3Rは、精度を犠牲にすることなく、推論時間(画像ペアあたり198msから91ms)を54%削減する。
この進歩により、リアルタイムな3D理解が可能になり、複合現実ナビゲーションや大規模3Dシーン再構築といったアプリケーションに恩恵をもたらす。
論文 参考訳(メタデータ) (2025-03-13T03:56:22Z) - Multiscale Motion-Aware and Spatial-Temporal-Channel Contextual Coding
Network for Learned Video Compression [24.228981098990726]
動画圧縮ネットワーク(MASTC-VC)を提案する。
提案するMASTC-VCは,3つの公開ベンチマークデータセット上での従来の最先端(SOTA)手法よりも優れている。
提案手法は,PSNRのH.265/HEVC(HM-16.20)に対して平均10.15%のBDレートを,MS-SSIMのH.266/VVC(VTM-13.2)に対して平均23.93%のBDレートを節約する。
論文 参考訳(メタデータ) (2023-10-19T13:32:38Z) - Dynamic Frame Interpolation in Wavelet Domain [57.25341639095404]
ビデオフレームは、より流動的な視覚体験のためにフレームレートを上げることができる、重要な低レベルな計算ビジョンタスクである。
既存の手法は、高度なモーションモデルと合成ネットワークを利用することで大きな成功を収めた。
WaveletVFIは、同様の精度を維持しながら最大40%の計算を削減できるため、他の最先端技術に対してより効率的に処理できる。
論文 参考訳(メタデータ) (2023-09-07T06:41:15Z) - Distortion-Aware Network Pruning and Feature Reuse for Real-time Video
Segmentation [49.17930380106643]
本稿では,リアルタイム視覚タスクのスキップ接続によるアーキテクチャの高速化を目的とした新しいフレームワークを提案する。
具体的には、各フレームの到着時に、前のフレームから特徴を変換し、特定の空間的ビンで再利用する。
次に、現在のフレームの領域におけるバックボーンネットワークの部分計算を行い、現在のフレームと前のフレームの時間差をキャプチャする。
論文 参考訳(メタデータ) (2022-06-20T07:20:02Z) - Borrowing from yourself: Faster future video segmentation with partial
channel update [0.0]
本稿では,時間依存型チャネルマスキングを用いた畳み込み層を用いて,将来的な映像セグメンテーション予測の課題に取り組むことを提案する。
このテクニックは、各タイミングでフィーチャーマップの選ばれたサブセットだけを更新し、同時に計算とレイテンシを削減します。
この手法をいくつかの高速アーキテクチャに適用し、将来の予測サブタスクに対する利点を実験的に検証する。
論文 参考訳(メタデータ) (2022-02-11T16:37:53Z) - Fast Motion Understanding with Spatiotemporal Neural Networks and
Dynamic Vision Sensors [99.94079901071163]
本稿では,高速な動きを推論するための動的視覚センサ(DVS)システムを提案する。
ロボットが15m/s以上の速度で接近する小さな物体に反応するケースを考察する。
我々は,23.4m/sで24.73degの誤差を$theta$,18.4mmの平均離散半径予測誤差,衝突予測誤差に対する25.03%の中央値で移動した玩具ダートについて,本システムの結果を強調した。
論文 参考訳(メタデータ) (2020-11-18T17:55:07Z) - Motion-Attentive Transition for Zero-Shot Video Object Segmentation [99.44383412488703]
ゼロショットオブジェクトセグメンテーションのためのモーション・アテンタティブ・トランジション・ネットワーク(MATNet)を提案する。
モーション・アテンティブ・トランジション (MAT) と呼ばれる非対称のアテンションブロックは、2ストリームエンコーダ内に設計されている。
このように、エンコーダは深く相互に作用し、物体の動きと外観の間の密な階層的な相互作用を可能にする。
論文 参考訳(メタデータ) (2020-03-09T16:58:42Z) - Efficient Video Semantic Segmentation with Labels Propagation and
Refinement [138.55845680523908]
本稿では,ハイブリッドGPU/CPUを用いた高精細ビデオのリアルタイムセマンティックセマンティックセマンティック化の問題に取り組む。
i) CPU上では、非常に高速な光フロー法であり、ビデオの時間的側面を利用して、あるフレームから次のフレームへ意味情報を伝達するために使用される。
高解像度フレーム(2048 x 1024)を持つ一般的なCityscapesデータセットでは、単一のGPUとCPU上で80から1000Hzの動作ポイントが提案されている。
論文 参考訳(メタデータ) (2019-12-26T11:45:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。