論文の概要: Unlocking Temporal Flexibility: Neural Speech Codec with Variable Frame Rate
- arxiv url: http://arxiv.org/abs/2505.16845v1
- Date: Thu, 22 May 2025 16:10:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.438377
- Title: Unlocking Temporal Flexibility: Neural Speech Codec with Variable Frame Rate
- Title(参考訳): 時間的フレキシビリティのアンロック:可変フレームレートのニューラル音声コーデック
- Authors: Hanglei Zhang, Yiwei Guo, Zhihan Li, Xiang Hao, Xie Chen, Kai Yu,
- Abstract要約: 本稿では,ニューラル音声コーデックに可変フレームレート(VFR)を初めて導入する,TFC(Temporally Flexible Coding)手法を提案する。
TFCはフレームレートをシームレスに平均化し、時間エントロピーに基づいてフレームレートを動的に割り当てる。
実験結果から,TFCを用いた神経再建は高い柔軟性で最適品質を達成し,低フレームレートでも競争性能を維持することが示された。
- 参考スコア(独自算出の注目度): 14.03590336780589
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most neural speech codecs achieve bitrate adjustment through intra-frame mechanisms, such as codebook dropout, at a Constant Frame Rate (CFR). However, speech segments inherently have time-varying information density (e.g., silent intervals versus voiced regions). This property makes CFR not optimal in terms of bitrate and token sequence length, hindering efficiency in real-time applications. In this work, we propose a Temporally Flexible Coding (TFC) technique, introducing variable frame rate (VFR) into neural speech codecs for the first time. TFC enables seamlessly tunable average frame rates and dynamically allocates frame rates based on temporal entropy. Experimental results show that a codec with TFC achieves optimal reconstruction quality with high flexibility, and maintains competitive performance even at lower frame rates. Our approach is promising for the integration with other efforts to develop low-frame-rate neural speech codecs for more efficient downstream tasks.
- Abstract(参考訳): ほとんどのニューラル音声コーデックは、CFR(Constant Frame Rate)において、コードブックドロップアウトのようなフレーム内機構を通じてビットレート調整を行う。
しかし、音声セグメントは本質的に時間変化の情報密度(例えば、無声区間と有声区間)を持つ。
この性質により、CFRはビットレートとトークンシーケンス長の点で最適ではないため、リアルタイムアプリケーションでは効率が損なわれる。
本研究では,ニューラル音声コーデックに可変フレームレート(VFR)を導入したテンポラリフレキシブル符号化(TFC)手法を提案する。
TFCは、シームレスに調整可能な平均フレームレートを可能にし、時間エントロピーに基づいてフレームレートを動的に割り当てる。
実験結果から,TFCを用いたコーデックは高いフレキシビリティで最適な再構成品質を実現し,低フレームレートでも競争性能を維持した。
我々のアプローチは、より効率的な下流タスクのために低フレームレートのニューラル音声コーデックを開発する他の取り組みとの統合を約束している。
関連論文リスト
- Neural Video Compression with Context Modulation [9.875413481663742]
本稿では、時間的文脈を基準フレームで2段階に調整することで、制限に対処する。
従来の H.266/VVC よりも平均 22.7% の削減を実現し,従来の NVC DCVC-FM よりも平均 10.1% の削減を実現した。
論文 参考訳(メタデータ) (2025-05-20T15:57:09Z) - Token-Efficient Long Video Understanding for Multimodal LLMs [101.70681093383365]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z) - Towards Practical Real-Time Neural Video Compression [60.390180067626396]
我々は,高圧縮比,低レイテンシ,広範汎用性を実現するために設計された実用的リアルタイムニューラルビデオ(NVC)を紹介する。
実験により,提案したDCVC-RTは1080pビデオに対して125.2/112.8フレーム(毎秒125.2/112.8フレーム)の高速符号化を実現し,H.266/VTMと比較して21%のfpsを節約できた。
論文 参考訳(メタデータ) (2025-02-28T06:32:23Z) - Boosting Neural Representations for Videos with a Conditional Decoder [28.073607937396552]
Inlicit Neural representations (INRs) は、ビデオストレージと処理において有望なアプローチとして登場した。
本稿では,現在の暗黙的ビデオ表現手法のための普遍的なブースティングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-28T08:32:19Z) - Dynamic Frame Interpolation in Wavelet Domain [57.25341639095404]
ビデオフレームは、より流動的な視覚体験のためにフレームレートを上げることができる、重要な低レベルな計算ビジョンタスクである。
既存の手法は、高度なモーションモデルと合成ネットワークを利用することで大きな成功を収めた。
WaveletVFIは、同様の精度を維持しながら最大40%の計算を削減できるため、他の最先端技術に対してより効率的に処理できる。
論文 参考訳(メタデータ) (2023-09-07T06:41:15Z) - ReBotNet: Fast Real-time Video Enhancement [59.08038313427057]
ほとんどの復元ネットワークは遅く、高い計算ボトルネックがあり、リアルタイムビデオ拡張には使用できない。
本研究では,ライブビデオ通話やビデオストリームなどの実用的なユースケースをリアルタイムに拡張するための,効率的かつ高速なフレームワークを設計する。
提案手法を評価するために,実世界のビデオ通話とストリーミングのシナリオを示す2つの新しいデータセットをエミュレートし,ReBotNetがより少ない計算,メモリ要求の低減,より高速な推論時間で既存手法より優れていることを示す。
論文 参考訳(メタデータ) (2023-03-23T17:58:05Z) - Latent-Domain Predictive Neural Speech Coding [22.65761249591267]
本稿では,VQ-VAEフレームワークに潜在ドメイン予測符号化を導入する。
本稿では,低レイテンシなニューラル音声符号化のためのTF-Codecをエンドツーエンドで提案する。
多言語音声データセットの主観的な結果から、低レイテンシでは1kbpsのTF-Codecは9kbpsよりも大幅に品質が向上することが示された。
論文 参考訳(メタデータ) (2022-07-18T03:18:08Z) - Conditional Entropy Coding for Efficient Video Compression [82.35389813794372]
本稿では,フレーム間の条件エントロピーをモデル化することのみに焦点を当てた,非常にシンプルで効率的なビデオ圧縮フレームワークを提案する。
まず、画像遅延符号間のエントロピーをモデル化する単純なアーキテクチャが、他のニューラルビデオ圧縮やビデオコーデックと同等の競争力を持つことを示す。
次に、このアーキテクチャの上に新しい内部学習拡張を提案し、復号速度を抑えることなく10%の節約を実現した。
論文 参考訳(メタデータ) (2020-08-20T20:01:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。