論文の概要: Accelerating HEVC Intra Partitioning via a CNN-Hierarchical Attention Transformer Hybrid
- arxiv url: http://arxiv.org/abs/2605.29063v1
- Date: Wed, 27 May 2026 20:10:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:55.439945
- Title: Accelerating HEVC Intra Partitioning via a CNN-Hierarchical Attention Transformer Hybrid
- Title(参考訳): CNN-階層型アテンショントランスハイブリッドによるHEVC内部分割の高速化
- Authors: Krishna Kumar Sharma, Somdyuti Paul,
- Abstract要約: Hybrid Fast Vision Transformer (HFViT) はHEVCのモード内分割予測を高速化するために設計されたハイブリッドアーキテクチャである。
標準的なJCT-VCテストシーケンスでは、HFViTは平均VMAF BDレートのペナルティを2.4、2.6、および7.9ポイント削減する。
- 参考スコア(独自算出の注目度): 4.476114670463592
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recursive quad-tree partitioning in High Efficiency Video Coding (HEVC) incurs considerable computational overhead, with exhaustive rate-distortion optimization for CTU partition prediction consuming the dominant share of encoding time. Although partition prediction through deep learning has emerged as a viable encoding accelerator, an architectural dichotomy remains largely unaddressed: CNNs are computationally efficient but spatially myopic due to their localized effective receptive fields, failing to capture long range semantic relationships and repetitive textures; conversely, transformer based architectures are better at capturing global context but incur prohibitive CPU latency, a critical liability that impedes deployment which is predominantly CPU-bound. This paper introduces Hybrid Fast Vision Transformer (HFViT), a hybrid architecture designed to accelerate HEVC intra-mode partition prediction. HFViT fuses a reparameterized depthwise-separable convolutional backbone with a Hierarchical Attention Transformer (HAT) mechanism, leveraging a carrier token scheme to enable efficient global information propagation at sub-quadratic complexity. Post-training structural fusion collapses batch normalization into preceding layers to further reduce latency. Comprehensive evaluation reveals the efficacy of HFViT in accelerating HEVC intra-encoding across resolutions. On standard JCT-VC test sequences, HFViT reduces the average VMAF BD-rate penalty by 2.4, 2.6, and 7.9 percentage points on Classes A, B and E, respectively, as compared to the competing ETH-CNN baseline while maintaining CPU inference latency within 8% of the CNN baseline and surpassing it on GPU by 40%, establishing practical viability for real-time encoder integration.
- Abstract(参考訳): 高効率ビデオ符号化(HEVC)における再帰的なクアッドツリー分割は、符号化時間の圧倒的なシェアを消費するCTU分割予測に対する総率歪みの最適化を伴って、かなりの計算オーバーヘッドを引き起こす。
ディープラーニングによるパーティション予測は実行可能なエンコーディングアクセラレータとして現れているが、CNNは計算効率が良いが、その局所的な有効受容領域のために空間的にミソピー的であり、長い範囲のセマンティックな関係や反復的なテクスチャをキャプチャできない。
本稿ではHFViT(Hybrid Fast Vision Transformer)を提案する。
HFViTは階層型アテンショントランスフォーマー(HAT)機構で再パラメータ化された深度分離可能な畳み込みバックボーンを融合し、キャリアトークンスキームを活用して、サブ4次複雑さでの効率的なグローバル情報伝搬を実現する。
トレーニング後の構造融合は、バッチの正規化を前層に崩壊させ、さらにレイテンシを低減する。
包括的評価は、HFViTが分解能間でHEVC内エンコーディングを加速する効果を示す。
標準的なJCT-VCテストシーケンスでは、HFViTは、競合するETH-CNNベースラインと比較して、クラスA、B、Eの平均VMAF BDレートのペナルティを2.4、2.6、および7.9ポイント削減し、CPU推論遅延をCNNベースラインの8%以内で維持し、GPU上で40%超過し、リアルタイムエンコーダ統合の実用的な実行可能性を確立する。
関連論文リスト
- Efficient Hybrid CNN-GNN Architecture for Monocular Depth Estimation [0.0]
畳み込みエンコーダ・デコーダフレームワークにグラフニューラルネットワーク(GNN)を統合する単眼深度推定アーキテクチャであるGraphDepthを提案する。
我々のアプローチは、効率的なGraphSAGEレイヤをResNet-101 U-Netバックボーンの複数スケールに埋め込む。
NYU Depth V2、WHU Aerial、ETH3D、Mid-Airベンチマークの実験では、最先端のトランスフォーマーの4.6%で競合精度が示されている。
論文 参考訳(メタデータ) (2026-05-11T09:21:04Z) - AdaFuse: Accelerating Dynamic Adapter Inference via Token-Level Pre-Gating and Fused Kernel Optimization [84.25316984309725]
動的スパース構造とパラメータ効率のよいアダプタ(例えばLoRA)の統合は、大規模言語モデル(LLM)を拡張するための強力な技術である。
計算負荷は最小限に抑えられるが、計算のレイテンシが急上昇し、復号速度が2.5倍以上遅くなる。
AdaFuseはアルゴリズムと基盤となるハードウェアシステムとの緊密な協調設計に基づいて構築されたフレームワークで、効率的な動的アダプタ実行を実現する。
論文 参考訳(メタデータ) (2026-03-12T12:46:42Z) - DiffVC-RT: Towards Practical Real-Time Diffusion-based Perceptual Neural Video Compression [38.495966630021556]
我々は、リアルタイム拡散に基づくニューラルビデオ圧縮(NVC)を実現するための最初のフレームワークであるDiffVC-RTを提案する。
DiffVC-RTは、NVIDIA H800 GPU上の720pビデオに対して、リアルタイムエンコーディングとデコード速度206/30 fpsのHEVCデータセット上で、LPIPSよりもVTM-17.0よりも80.1%のパーセプティカルセーブを実現していることを示す。
論文 参考訳(メタデータ) (2026-01-28T12:59:25Z) - Towards Holistic Modeling for Video Frame Interpolation with Auto-regressive Diffusion Transformers [95.68243351895107]
我々はtextbfVideo textbfFrame textbfInterpolation (LDF-VFI) のための textbfLocal textbfDiffusion textbfForcing for textbfVideo textbfFrame textbfInterpolation (LDF-VFI) という包括的でビデオ中心のパラダイムを提案する。
我々のフレームワークは、ビデオシーケンス全体をモデル化し、長距離時間的コヒーレンスを確保する自動回帰拡散変換器上に構築されている。
LDF-VFIは、挑戦的なロングシーケンスベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-01-21T12:58:52Z) - BHViT: Binarized Hybrid Vision Transformer [53.38894971164072]
モデルバイナライゼーションは畳み込みニューラルネットワーク(CNN)のリアルタイムおよびエネルギー効率の計算を可能にした。
本稿では,バイナライズフレンドリーなハイブリッドViTアーキテクチャであるBHViTとそのバイナライズモデルを提案する。
提案アルゴリズムは,バイナリ ViT 手法間でSOTA 性能を実現する。
論文 参考訳(メタデータ) (2025-03-04T08:35:01Z) - SparseTem: Boosting the Efficiency of CNN-Based Video Encoders by Exploiting Temporal Continuity [19.900719882624028]
本稿では,メモリオーバーヘッドを削減するためのメモリ効率スケジューリング手法と,精度の劣化を最小限に抑えるためのオンライン調整機構を提案する。
SparseTemは効率の良いDetでは1.79x、CRNNでは4.72xの高速化を実現している。
論文 参考訳(メタデータ) (2024-10-28T07:13:25Z) - TCCT-Net: Two-Stream Network Architecture for Fast and Efficient Engagement Estimation via Behavioral Feature Signals [58.865901821451295]
本稿では,新しい2ストリーム機能融合 "Tensor-Convolution and Convolution-Transformer Network" (TCCT-Net) アーキテクチャを提案する。
時間空間領域における意味のあるパターンをよりよく学習するために、ハイブリッド畳み込み変換器を統合する「CT」ストリームを設計する。
並行して、時間周波数領域からリッチなパターンを効率的に抽出するために、連続ウェーブレット変換(CWT)を用いて情報を2次元テンソル形式で表現する「TC」ストリームを導入する。
論文 参考訳(メタデータ) (2024-04-15T06:01:48Z) - Transformer-based Video Saliency Prediction with High Temporal Dimension
Decoding [12.595019348741042]
本稿では,高テンポラル次元ネットワークデコーディング(THTDNet)を用いたトランスフォーマに基づくビデオサリエンシ予測手法を提案する。
このアーキテクチャは、DHF1KやUCFスポーツ、ハリウッド-2といった一般的なベンチマークで、マルチブランチや過剰に複雑なモデルに匹敵する性能が得られる。
論文 参考訳(メタデータ) (2024-01-15T20:09:56Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。