論文の概要: ANVIL: Accelerator-Native Video Interpolation via Codec Motion Vector Priors
- arxiv url: http://arxiv.org/abs/2603.26835v1
- Date: Fri, 27 Mar 2026 05:32:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.655484
- Title: ANVIL: Accelerator-Native Video Interpolation via Codec Motion Vector Priors
- Title(参考訳): ANVIL: コーデックモーションベクトルによるアクセラレータ-負ビデオ補間
- Authors: Shibo Liu,
- Abstract要約: ANVILはSnapdragon 8 Gen 3デバイス上で8ビット整数精度で12.8ms 1080pのネットワーク推論を実現する。
オープンソースのAndroidプレーヤーは、30分間の連続再生中に54,623回以上、補間フレームペア毎に28.4ミリ秒のエンド・ツー・エンドのレイテンシを持続する。
- 参考スコア(独自算出の注目度): 3.1812226135012462
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mobile displays refresh at 90-120 Hz, yet most video is encoded at 24-30 frames per second; real-time frame-rate doubling requires each synthesized frame within 33.3 ms on mobile neural processing units. We show that mainstream flow-based video frame interpolation faces three structural deployment barriers on mobile accelerators: spatial sampling operators exceed the frame budget or lack hardware support, iterative flow refinement collapses under 8-bit post-training quantization, and memory-bound operators dominate the inference graph. ANVIL addresses these barriers by reusing motion vectors already computed by the H.264 decoder to prealign input frames, removing learned optical flow, spatial sampling, and iterative accumulation from the accelerator graph. The remaining residual is refined by a convolution-dominated network whose inference graph is composed almost entirely of compute-bound operators. On a Snapdragon 8 Gen 3 device, ANVIL achieves 12.8 ms 1080p network inference in 8-bit integer precision; an open-source Android player sustains 28.4 ms median end-to-end latency per interpolated frame pair over 54,623 consecutively logged samples during 30-minute continuous playback. Per-operator causal analysis identifies quantized accumulation on recurrent flow states as a key mechanism behind integer quantization failure in iterative methods. The current design targets H.264 playback scenarios with decoder-exposed motion vectors.
- Abstract(参考訳): モバイルディスプレイは90-120Hzでリフレッシュされるが、ほとんどのビデオは毎秒24-30フレームでエンコードされている。
本研究では,移動型加速器における主流のフローベースビデオフレーム補間において,空間サンプリング演算子がフレーム予算を超過するか,ハードウェアサポートを欠いているか,8ビット後量子化の下で繰り返しフロー改善が崩壊し,メモリバウンド演算子が推論グラフを支配しているか,という3つの構造的配置障壁に直面していることを示す。
ANVILはこれらの障壁に対処するため、H.264デコーダによって既に計算された動きベクトルを予め設定された入力フレームに再利用し、学習された光学フロー、空間サンプリング、アクセルグラフからの反復的な蓄積を取り除く。
残りの残余は、ほとんど完全に計算バウンド作用素からなる推論グラフを持つ畳み込み支配ネットワークによって洗練される。
Snapdragon 8 Gen 3 デバイスでは、ANVIL は 8ビット整数精度で 12.8 ms 1080p のネットワーク推論を実現している。
Per-oper causal analysis は、反復法における整数量子化失敗の鍵となるメカニズムとして、繰り返し流れの状態における量子化蓄積を同定する。
現在の設計では、デコーダで出力されたモーションベクトルでH.264の再生シナリオをターゲットにしている。
関連論文リスト
- SHIELD8-UAV: Sequential 8-bit Hardware Implementation of a Precision-Aware 1D-F-CNN for Low-Energy UAV Acoustic Detection and Temporal Tracking [4.962717354668883]
ShiELD8-UAV (ShielD8-UAV) は、高精度1D機能駆動CNNアクセラレータのシーケンシャルな8ビットハードウェア実装である。
この設計は共有マルチ精度データパス上で層単位で実行し、複製された処理要素を不要にする。
その結果、逐次実行と高精度量子化とシリアライズ対応プルーニングを組み合わせることで、実用的な低エネルギーエッジ推論が可能となった。
論文 参考訳(メタデータ) (2026-03-01T12:09:15Z) - Neural-HAR: A Dimension-Gated CNN Accelerator for Real-Time Radar Human Activity Recognition [5.400353553418959]
本稿では,資源制約のあるプラットフォーム上でのリアルタイムレーダHARに適した次元ゲート型CNNアクセラレータを提案する。
GateCNNの精度は86.4%で、パラメータは2.7kで、推論あたり0.28M FLOPはCNN-BiGRUに匹敵する。
Xilinx Zynq-7000 Z-7007SのFPGAプロトタイプは、LUTベースのROMと分散RAMのみを使用した107.5$mu$sレイテンシと15mWのダイナミックパワーを実現しました。
論文 参考訳(メタデータ) (2025-10-26T17:42:28Z) - Speedy MASt3R [68.47052557089631]
MASt3Rは、DUSt3Rを活用して高速な相互マッチング方式を導入することで、画像マッチングを3Dタスクとして再定義する。
高速MASt3Rは、精度を犠牲にすることなく、推論時間(画像ペアあたり198msから91ms)を54%削減する。
この進歩により、リアルタイムな3D理解が可能になり、複合現実ナビゲーションや大規模3Dシーン再構築といったアプリケーションに恩恵をもたらす。
論文 参考訳(メタデータ) (2025-03-13T03:56:22Z) - Multiscale Motion-Aware and Spatial-Temporal-Channel Contextual Coding
Network for Learned Video Compression [24.228981098990726]
動画圧縮ネットワーク(MASTC-VC)を提案する。
提案するMASTC-VCは,3つの公開ベンチマークデータセット上での従来の最先端(SOTA)手法よりも優れている。
提案手法は,PSNRのH.265/HEVC(HM-16.20)に対して平均10.15%のBDレートを,MS-SSIMのH.266/VVC(VTM-13.2)に対して平均23.93%のBDレートを節約する。
論文 参考訳(メタデータ) (2023-10-19T13:32:38Z) - Dynamic Frame Interpolation in Wavelet Domain [57.25341639095404]
ビデオフレームは、より流動的な視覚体験のためにフレームレートを上げることができる、重要な低レベルな計算ビジョンタスクである。
既存の手法は、高度なモーションモデルと合成ネットワークを利用することで大きな成功を収めた。
WaveletVFIは、同様の精度を維持しながら最大40%の計算を削減できるため、他の最先端技術に対してより効率的に処理できる。
論文 参考訳(メタデータ) (2023-09-07T06:41:15Z) - Distortion-Aware Network Pruning and Feature Reuse for Real-time Video
Segmentation [49.17930380106643]
本稿では,リアルタイム視覚タスクのスキップ接続によるアーキテクチャの高速化を目的とした新しいフレームワークを提案する。
具体的には、各フレームの到着時に、前のフレームから特徴を変換し、特定の空間的ビンで再利用する。
次に、現在のフレームの領域におけるバックボーンネットワークの部分計算を行い、現在のフレームと前のフレームの時間差をキャプチャする。
論文 参考訳(メタデータ) (2022-06-20T07:20:02Z) - Borrowing from yourself: Faster future video segmentation with partial
channel update [0.0]
本稿では,時間依存型チャネルマスキングを用いた畳み込み層を用いて,将来的な映像セグメンテーション予測の課題に取り組むことを提案する。
このテクニックは、各タイミングでフィーチャーマップの選ばれたサブセットだけを更新し、同時に計算とレイテンシを削減します。
この手法をいくつかの高速アーキテクチャに適用し、将来の予測サブタスクに対する利点を実験的に検証する。
論文 参考訳(メタデータ) (2022-02-11T16:37:53Z) - Fast Motion Understanding with Spatiotemporal Neural Networks and
Dynamic Vision Sensors [99.94079901071163]
本稿では,高速な動きを推論するための動的視覚センサ(DVS)システムを提案する。
ロボットが15m/s以上の速度で接近する小さな物体に反応するケースを考察する。
我々は,23.4m/sで24.73degの誤差を$theta$,18.4mmの平均離散半径予測誤差,衝突予測誤差に対する25.03%の中央値で移動した玩具ダートについて,本システムの結果を強調した。
論文 参考訳(メタデータ) (2020-11-18T17:55:07Z) - Motion-Attentive Transition for Zero-Shot Video Object Segmentation [99.44383412488703]
ゼロショットオブジェクトセグメンテーションのためのモーション・アテンタティブ・トランジション・ネットワーク(MATNet)を提案する。
モーション・アテンティブ・トランジション (MAT) と呼ばれる非対称のアテンションブロックは、2ストリームエンコーダ内に設計されている。
このように、エンコーダは深く相互に作用し、物体の動きと外観の間の密な階層的な相互作用を可能にする。
論文 参考訳(メタデータ) (2020-03-09T16:58:42Z) - Efficient Video Semantic Segmentation with Labels Propagation and
Refinement [138.55845680523908]
本稿では,ハイブリッドGPU/CPUを用いた高精細ビデオのリアルタイムセマンティックセマンティックセマンティック化の問題に取り組む。
i) CPU上では、非常に高速な光フロー法であり、ビデオの時間的側面を利用して、あるフレームから次のフレームへ意味情報を伝達するために使用される。
高解像度フレーム(2048 x 1024)を持つ一般的なCityscapesデータセットでは、単一のGPUとCPU上で80から1000Hzの動作ポイントが提案されている。
論文 参考訳(メタデータ) (2019-12-26T11:45:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。