論文の概要: GRACE: Designing Generative Face Video Codec via Agile Hardware-Centric Workflow
- arxiv url: http://arxiv.org/abs/2511.09272v1
- Date: Thu, 13 Nov 2025 01:43:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 22:34:54.494515
- Title: GRACE: Designing Generative Face Video Codec via Agile Hardware-Centric Workflow
- Title(参考訳): GRACE: アジャイルハードウェア中心ワークフローによる生成顔ビデオコーデックの設計
- Authors: Rui Wan, Qi Zheng, Ruoyu Zhang, Bu Chen, Jiaming Liu, Min Li, Minge Jing, Jinjia Zhou, Yibo Fan,
- Abstract要約: アニメーションベースの生成コーデック(AGC)は,対話型ビデオ圧縮のパラダイムとして発展しつつある。
リソースと電力制約のあるエッジデバイスに複雑なデコーダをデプロイすることは、課題を提示する。
本稿では、エッジコンピューティングビデオサービスのための新しいフィールドプログラマブルゲートアレイ(FPGA)指向のAGC配置方式を提案する。
- 参考スコア(独自算出の注目度): 30.600571989643626
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Animation-based Generative Codec (AGC) is an emerging paradigm for talking-face video compression. However, deploying its intricate decoder on resource and power-constrained edge devices presents challenges due to numerous parameters, the inflexibility to adapt to dynamically evolving algorithms, and the high power consumption induced by extensive computations and data transmission. This paper for the first time proposes a novel field programmable gate arrays (FPGAs)-oriented AGC deployment scheme for edge-computing video services. Initially, we analyze the AGC algorithm and employ network compression methods including post-training static quantization and layer fusion techniques. Subsequently, we design an overlapped accelerator utilizing the co-processor paradigm to perform computations through software-hardware co-design. The hardware processing unit comprises engines such as convolution, grid sampling, upsample, etc. Parallelization optimization strategies like double-buffered pipelines and loop unrolling are employed to fully exploit the resources of FPGA. Ultimately, we establish an AGC FPGA prototype on the PYNQ-Z1 platform using the proposed scheme, achieving \textbf{24.9$\times$} and \textbf{4.1$\times$} higher energy efficiency against commercial Central Processing Unit (CPU) and Graphic Processing Unit (GPU), respectively. Specifically, only \textbf{11.7} microjoules ($\upmu$J) are required for one pixel reconstructed by this FPGA system.
- Abstract(参考訳): Animation-based Generative Codec (AGC)は、ビデオ圧縮のための新しいパラダイムである。
しかし、リソースや電力制約のあるエッジデバイスに複雑なデコーダをデプロイすることは、多くのパラメータ、動的に進化するアルゴリズムに適応する柔軟性、広範囲な計算やデータ転送によって引き起こされる高消費電力といった課題を生んでいる。
本稿では,エッジコンピューティングビデオサービスのための新しいフィールドプログラマブルゲートアレイ(FPGA)指向のAGC配置方式を提案する。
当初、AGCアルゴリズムを解析し、学習後の静的量子化や層融合技術を含むネットワーク圧縮手法を用いる。
その後、ソフトウェア・ハードウェア共同設計による計算を行うために、コプロセッサパラダイムを利用した重なり合ったアクセラレータを設計する。
ハードウェア処理ユニットは、畳み込み、グリッドサンプリング、アップサンプル等のエンジンを含む。
FPGAのリソースをフル活用するために、二重バッファパイプラインやループアンローリングのような並列化最適化戦略が採用されている。
最終的に提案方式を用いて,PYNQ-Z1 プラットフォーム上で AGC FPGA のプロトタイプを構築し,商用中央処理ユニット (CPU) とグラフ処理ユニット (GPU) に対して,それぞれ高エネルギー効率の \textbf{24.9$\times$} と \textbf{4.1$\times$} を達成した。
具体的には、このFPGAシステムによって再構成された1ピクセルに対して、 \textbf{11.7} マイクロジュール ($\upmu$J) のみが要求される。
関連論文リスト
- Eliminating Multi-GPU Performance Taxes: A Systems Approach to Efficient Distributed LLMs [61.953548065938385]
分析フレームワークとして'3つの税'(バルク同期、カーネル間データローカリティ、カーネルローンチオーバーヘッド)を紹介した。
我々は、分散GPU実行におけるキー非効率に対処するために、厳密なBSPモデルを超えて移動することを提案する。
BSPベースのアプローチによるエンドツーエンドのレイテンシの10-20%の高速化を観察する。
論文 参考訳(メタデータ) (2025-11-04T01:15:44Z) - Enhancing Dropout-based Bayesian Neural Networks with Multi-Exit on FPGA [20.629635991749808]
本稿では,フィールドプログラマブルゲートアレイ(FPGA)ベースのアクセラレータを効率よく生成するアルゴリズムとハードウェアの共同設計フレームワークを提案する。
アルゴリズムレベルでは、計算とメモリのオーバーヘッドを低減した、新しいマルチエグジット・ドロップアウトベースのベイズNNを提案する。
ハードウェアレベルでは,提案する効率的なベイズNNのためのFPGAベースのアクセラレータを生成するための変換フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-20T17:08:42Z) - Rethinking and Accelerating Graph Condensation: A Training-Free Approach with Class Partition [49.41718583061147]
グラフ凝縮(Graph condensation)は、大きなグラフを小さいが情報的な凝縮グラフに置き換えるための、データ中心のソリューションである。
既存のGCメソッドは、複雑な最適化プロセス、過剰なコンピューティングリソースとトレーニング時間を必要とする。
我々は、CGC(Class-partitioned Graph Condensation)と呼ばれるトレーニング不要なGCフレームワークを提案する。
CGCはOgbn-productsグラフを30秒以内に凝縮し、102$Xから104$Xまでのスピードアップを実現し、精度は4.2%まで向上した。
論文 参考訳(メタデータ) (2024-05-22T14:57:09Z) - Many-body computing on Field Programmable Gate Arrays [5.3808713424582395]
我々は、量子多体計算を行うために、FPGA(Field Programmable Gate Arrays)の機能を利用する。
これにより、モンテカルロアルゴリズムのCPUベースの計算に比べて10倍の高速化が達成された。
FPGAを多体基底状態計算のための典型的なテンソルネットワークアルゴリズムの高速化に利用した。
論文 参考訳(メタデータ) (2024-02-09T14:01:02Z) - LL-GNN: Low Latency Graph Neural Networks on FPGAs for High Energy
Physics [45.666822327616046]
本研究は,粒子検出器のための低グラフニューラルネットワーク(LL-GNN)設計のための新しい再構成可能なアーキテクチャを提案する。
LL-GNNの設計は、洗練されたアルゴリズムが実験データを効率的に処理できるようにすることで、次世代のトリガーシステムを進化させる。
論文 参考訳(メタデータ) (2022-09-28T12:55:35Z) - Optimization of FPGA-based CNN Accelerators Using Metaheuristics [1.854931308524932]
畳み込みニューラルネットワーク(CNN)は、多くの分野における問題解決能力を実証している。
FPGAはCNN推論を加速する関心が高まっている。
FPGAベースのCNNアクセラレータの現在のトレンドは、複数の畳み込み層プロセッサ(CLP)を実装することである。
論文 参考訳(メタデータ) (2022-09-22T18:57:49Z) - Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and
Algorithm Co-design [66.39546326221176]
多くのAIタスクにおいて、注意に基づくニューラルネットワークが普及している。
注意機構とフィードフォワードネットワーク(FFN)の使用は、過剰な計算とメモリ資源を必要とする。
本稿では,注目機構とFFNの両方を近似するために,バタフライの分散パターンを統一したハードウェアフレンドリーな変種を提案する。
論文 参考訳(メタデータ) (2022-09-20T09:28:26Z) - VAQF: Fully Automatic Software-hardware Co-design Framework for Low-bit
Vision Transformer [121.85581713299918]
量子化ビジョントランス(ViT)のためのFPGAプラットフォーム上で推論アクセラレータを構築するフレームワークVAQFを提案する。
モデル構造と所望のフレームレートから、VAQFはアクティベーションに必要な量子化精度を自動的に出力する。
FPGA上でのViTアクセラレーションに量子化が組み込まれたのはこれが初めてである。
論文 参考訳(メタデータ) (2022-01-17T20:27:52Z) - Accelerated Charged Particle Tracking with Graph Neural Networks on
FPGAs [0.0]
グラフニューラルネットワークに基づく荷電粒子追跡のためのアルゴリズムのFPGA実装を開発し,研究する。
CPUベースの実行の大幅な高速化が可能であり、将来的にはそのようなアルゴリズムを効果的に利用できるようになる可能性がある。
論文 参考訳(メタデータ) (2020-11-30T18:17:43Z) - Distance-Weighted Graph Neural Networks on FPGAs for Real-Time Particle
Reconstruction in High Energy Physics [11.125632758828266]
FPGA上で1$mumathrms未満のレイテンシで実行できる距離重み付きグラフネットワークの設計方法について論じる。
本研究では,粒子衝突型加速器で動作する次世代熱量計における粒子の再構成と同定に関連する代表的課題について考察する。
我々は、圧縮されたモデルをファームウェアに変換し、FPGA上で実装する。
論文 参考訳(メタデータ) (2020-08-08T21:26:31Z) - GraphACT: Accelerating GCN Training on CPU-FPGA Heterogeneous Platforms [1.2183405753834562]
グラフ畳み込みネットワーク(GCN)は、グラフ上での表現学習のための最先端のディープラーニングモデルとして登場した。
実質的かつ不規則なデータ通信のため、GCNの訓練を加速することは困難である。
我々はCPU-FPGAヘテロジニアスシステム上でGCNをトレーニングするための新しいアクセラレータを設計する。
論文 参考訳(メタデータ) (2019-12-31T21:19:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。