論文の概要: ReTiDe: Real-Time Denoising for Energy-Efficient Motion Picture Processing with FPGAs
- arxiv url: http://arxiv.org/abs/2510.03812v1
- Date: Sat, 04 Oct 2025 13:43:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.269916
- Title: ReTiDe: Real-Time Denoising for Energy-Efficient Motion Picture Processing with FPGAs
- Title(参考訳): ReTiDe:FPGAを用いたエネルギー効率の良い動画処理のためのリアルタイムデノイング
- Authors: Changhong Li, Clément Bled, Rosa Fernandez, Shreejith Shanker,
- Abstract要約: 本稿では,データ中心FPGAの推論を行うハードウェアアクセラレーションデノケーションシステムReTiDeについて述べる。
コンパクトな畳み込みモデルをINT8に量子化し、AMDディープラーニングプロセッサユニット(DPU)ベースのFPGAにコンパイルする。
クライアントサーバの統合は、CPU/GPUからネットワークFPGAサービスにオフロードされるが、既存のホスト(例えばNUKE)から呼び出し可能でありながら、アーティストツールを中断することはない。
- 参考スコア(独自算出の注目度): 0.39146761527401425
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Denoising is a core operation in modern video pipelines. In codecs, in-loop filters suppress sensor noise and quantisation artefacts to improve rate-distortion performance; in cinema post-production, denoisers are used for restoration, grain management, and plate clean-up. However, state-of-the-art deep denoisers are computationally intensive and, at scale, are typically deployed on GPUs, incurring high power and cost for real-time, high-resolution streams. This paper presents Real-Time Denoise (ReTiDe), a hardware-accelerated denoising system that serves inference on data-centre Field Programmable Gate Arrays (FPGAs). A compact convolutional model is quantised (post-training quantisation plus quantisation-aware fine-tuning) to INT8 and compiled for AMD Deep Learning Processor Unit (DPU)-based FPGAs. A client-server integration offloads computation from the host CPU/GPU to a networked FPGA service, while remaining callable from existing workflows, e.g., NUKE, without disrupting artist tooling. On representative benchmarks, ReTiDe delivers 37.71$\times$ Giga Operations Per Second (GOPS) throughput and 5.29$\times$ higher energy efficiency than prior FPGA denoising accelerators, with negligible degradation in Peak Signal-to-Noise Ratio (PSNR)/Structural Similarity Index (SSIM). These results indicate that specialised accelerators can provide practical, scalable denoising for both encoding pipelines and post-production, reducing energy per frame without sacrificing quality or workflow compatibility. Code is available at https://github.com/RCSL-TCD/ReTiDe.
- Abstract(参考訳): 最新のビデオパイプラインでは、デノイングが中心的な操作である。
コーデックでは、インループフィルタはセンサノイズや量子化アーチファクトを抑圧し、速度歪曲性能を向上させる。
しかし、最先端のDeep Denoiserは計算集約的で、大規模では一般的にGPUにデプロイされ、リアルタイムの高解像度ストリームに対して高い電力とコストが発生する。
本稿では,データ中心のField Programmable Gate Array(FPGA)を推論するハードウェアアクセラレーションシステムReTiDeを提案する。
コンパクトな畳み込みモデルをINT8に量子化し、AMDディープラーニングプロセッサユニット(DPU)ベースのFPGAにコンパイルする。
クライアントサーバの統合は、ホストCPU/GPUからネットワークFPGAサービスへの計算をオフロードするが、既存のワークフロー(例えばNUKE)から呼び出し可能でありながら、アーティストツールを中断することはない。
代表的なベンチマークでは、ReTiDeは37.71$\times$ Giga Operations Per Second (GOPS)スループットと5.29$\times$高エネルギー効率を実現しており、Peak Signal-to-Noise Ratio (PSNR)/Structural similarity Index (SSIM)では無視できる劣化がある。
これらの結果は、特別なアクセラレーターがパイプラインのエンコーディングとポストプロダクションの両方に実用的でスケーラブルなデノベーションを提供し、品質やワークフローの互換性を犠牲にすることなく、フレーム当たりのエネルギーを削減できることを示唆している。
コードはhttps://github.com/RCSL-TCD/ReTiDeで入手できる。
関連論文リスト
- Spiralformer: Low Latency Encoder for Streaming Speech Recognition with Circular Layer Skipping and Early Exiting [70.75913449565203]
Transformerベースのエンコーダはブロック処理に広く使われている。
本稿では,ブロック処理に適した新しいエンコーダSpralformerを提案する。
実験の結果,Librispeechにおける平均トークン放出遅延は21.6%減少した。
論文 参考訳(メタデータ) (2025-10-01T14:56:45Z) - Compressing Recurrent Neural Networks for FPGA-accelerated Implementation in Fluorescence Lifetime Imaging [3.502427552446068]
ディープラーニングモデルはリアルタイム推論を可能にするが、複雑なアーキテクチャと大規模な行列演算のために計算的に要求される。
これにより、フィールドプログラマブルゲートアレイ(FPGA)ベースのカメラハードウェアの直接実装に不適なDLモデルが得られる。
本研究では,FLI時系列データ処理に適したリカレントニューラルネットワーク(RNN)の圧縮に着目し,資源制約付きFPGAボードへの展開を実現する。
論文 参考訳(メタデータ) (2024-10-01T17:23:26Z) - Enhancing Dropout-based Bayesian Neural Networks with Multi-Exit on FPGA [20.629635991749808]
本稿では,フィールドプログラマブルゲートアレイ(FPGA)ベースのアクセラレータを効率よく生成するアルゴリズムとハードウェアの共同設計フレームワークを提案する。
アルゴリズムレベルでは、計算とメモリのオーバーヘッドを低減した、新しいマルチエグジット・ドロップアウトベースのベイズNNを提案する。
ハードウェアレベルでは,提案する効率的なベイズNNのためのFPGAベースのアクセラレータを生成するための変換フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-20T17:08:42Z) - Check-Agnosia based Post-Processor for Message-Passing Decoding of Quantum LDPC Codes [3.4602940992970908]
ハードウェアフレンドリーな方向性を持つ新しい後処理アルゴリズムを導入し、最先端技術と競合する誤り訂正性能を提供する。
FPGA基板上では,1マイクロ秒に近いレイテンシ値が得られることを示すとともに,ASIC実装においてより低いレイテンシ値が得られることを示す。
論文 参考訳(メタデータ) (2023-10-23T14:51:22Z) - FPGA Resource-aware Structured Pruning for Real-Time Neural Networks [3.294652922898631]
プルーニングはニューラルネットワークをスパースし、乗算とメモリの数を減らします。
資源対応テンソル構造を持つクナップサック問題として定式化することで,ハードウェア中心のプルーニングの定式化を提案する。
提案手法は, DSP使用率の55%から92%, BRAM使用率の81%の削減を実現する。
論文 参考訳(メタデータ) (2023-08-09T18:14:54Z) - LL-GNN: Low Latency Graph Neural Networks on FPGAs for High Energy
Physics [45.666822327616046]
本研究は,粒子検出器のための低グラフニューラルネットワーク(LL-GNN)設計のための新しい再構成可能なアーキテクチャを提案する。
LL-GNNの設計は、洗練されたアルゴリズムが実験データを効率的に処理できるようにすることで、次世代のトリガーシステムを進化させる。
論文 参考訳(メタデータ) (2022-09-28T12:55:35Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - EdgeBERT: Sentence-Level Energy Optimizations for Latency-Aware
Multi-Task NLP Inference [82.1584439276834]
BERTのようなトランスフォーマーベースの言語モデルでは、自然言語処理(NLP)タスクの精度が大幅に向上する。
We present EdgeBERT, a in-deepth algorithm- hardware co-design for latency-aware energy optimization for multi-task NLP。
論文 参考訳(メタデータ) (2020-11-28T19:21:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。