論文の概要: LoSATok: Low-dimensional Semantic-Acoustic Tokenizer for Cross-Domain Audio Understanding and Generation
- arxiv url: http://arxiv.org/abs/2605.27840v1
- Date: Wed, 27 May 2026 01:56:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.679045
- Title: LoSATok: Low-dimensional Semantic-Acoustic Tokenizer for Cross-Domain Audio Understanding and Generation
- Title(参考訳): LoSATok:クロスドメインオーディオ理解・生成のための低次元セマンティック・アコスティック・トケナイザ
- Authors: Zhisheng Zhang, Xiang Li, Yixuan Zhou, Jing Peng, Guoyang Zeng, Zhiyong Wu,
- Abstract要約: 既存の統一トークン化器はどちらも高次元連続ラテントで共同に符号化する。
クロスドメイン音声の理解と生成のための低次元オーディオトークンであるLoSATokを提案する。
- 参考スコア(独自算出の注目度): 17.04920367653778
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio tokenizers are fundamental to unifying audio understanding and generation. Understanding requires high-level semantics, while generation demands semantic and acoustic details. Existing unified tokenizers jointly encode both in high-dimensional continuous latents, which increases the modeling burden of Diffusion Transformers (DiTs) for generation. We propose LoSATok, a low-dimensional audio tokenizer for cross-domain audio understanding and generation. Motivated by the observation that 1280-dimensional semantic encoder features are compressible, we introduce a Semantic Bottleneck that compresses them into 128 dimensions, regularized by the proposed time-relation loss for temporal feature consistency. We further design a dual-level semantic supervision method that leverages both high- and low-dimensional semantic signals, enabling the tokenizer to jointly capture semantics and acoustic details within a compact latent space. Experiments on speech, music, and general audio show that SemBo preserves strong low-dimensional semantic capacity and LoSATok retains competitive understanding performance compared with several semantic representations, while consistently improving DiT modeling performance on speech, music, and audio generation. These results demonstrate that LoSATok's low-dimensional representations can effectively support audio understanding and generation. Our code is provided at https://github.com/wxzyd123/LoSATok.
- Abstract(参考訳): 音声トークン化器は、音声の理解と生成を統一するための基本となる。
理解には高レベルのセマンティクスが必要ですが、生成にはセマンティクスと音響の詳細が必要です。
既存の統一トークン化器はどちらも高次元連続潜伏器で共同で符号化し、生成のための拡散変換器(DiT)のモデリング負担を増大させる。
クロスドメイン音声の理解と生成のための低次元オーディオトークンであるLoSATokを提案する。
1280次元のセマンティックエンコーダの特徴が圧縮可能であるという観測により、時間的特徴整合性のための時間的相関損失によって正規化されたセマンティック・ボトルネックを導入する。
さらに,高次元と低次元の両方のセマンティックな信号を利用する2レベルセマンティックな監視手法を設計し,コンストラクタがコンパクトな潜在空間内でセマンティックスと音響的詳細を共同で捕捉できるようにする。
音声、音楽、一般音声の実験では、SemBoは強い低次元の意味能力を保持し、LoSATokはいくつかの意味表現と比較して、競争力のある理解性能を維持しながら、音声、音楽、音声生成におけるDiTモデリング性能を一貫して改善している。
これらの結果から,LoSATokの低次元表現は音声の理解と生成を効果的に支援できることが示された。
私たちのコードはhttps://github.com/wxzyd123/LoSATokで提供されます。
関連論文リスト
- AudioMosaic: Contrastive Masked Audio Representation Learning [53.52371029884106]
一般的な音声理解のためのコントラスト学習型オーディオエンコーダであるtextbfAudioMosaic を紹介する。
AudioMosaicは、構造化された時間周波数マスキングをスペクトログラムパッチに適用することで、正のペアを構成する。
実験によると、AudioMosaicはいくつかの標準オーディオベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-05-14T00:56:51Z) - WavCube: Unifying Speech Representation for Understanding and Generation via Semantic-Acoustic Joint Modeling [35.33131758542107]
WavCubeはSSL音声エンコーダから派生したコンパクトな連続ラテントである。
言語理解、再構築、生成を同時にサポートする。
試行では、最先端のゼロショットTSパフォーマンスと、トレーニングコンバージェンスを著しく高速化することを示している。
論文 参考訳(メタデータ) (2026-05-07T15:17:24Z) - Talker-T2AV: Joint Talking Audio-Video Generation with Autoregressive Diffusion Modeling [59.97930201616015]
本研究では,共有バックボーン内で高レベルなクロスモーダルモデリングを行う自己回帰拡散フレームワークであるTalker-T2AVを提案する。
共有自己回帰言語モデルは、統一されたパッチレベルのトークン空間において、オーディオとビデオに対して共同で原因となる。
ポートレートベンチマークの実験では、Talker-T2AVはリップシンク精度、ビデオ品質、オーディオ品質において、デュアルブランチベースラインを上回っている。
論文 参考訳(メタデータ) (2026-04-26T07:48:47Z) - Hierarchical Codec Diffusion for Video-to-Speech Generation [34.08427878034203]
VTS(Video-to-Speech)の生成は、聴覚信号なしでサイレントビデオから音声を合成することを目的としている。
既存のVTS手法は、粗い話者認識のセマンティクスからきめ細かい韻律的詳細にまたがる音声の階層性を無視している。
我々は、離散音声トークンの固有の階層構造を利用して、強力な音声・視覚的アライメントを実現する新しい階層型コーデックトランスであるHiCoDiTを提案する。
論文 参考訳(メタデータ) (2026-04-17T10:28:21Z) - STACodec: Semantic Token Assignment for Balancing Acoustic Fidelity and Semantic Information in Audio Codecs [19.07983030478734]
STACodecは自己教師付き学習(SSL)モデルからの意味情報を残差ベクトル量子化(RVQ-1)の第1層に統合する
本研究では,第1のRVQ層に代入するための意味トークンを直接予測する意味事前蒸留(SPD)モジュールを提案する。
論文 参考訳(メタデータ) (2026-02-05T20:36:24Z) - READ: Real-time and Efficient Asynchronous Diffusion for Audio-driven Talking Head Generation [55.58089937219475]
本稿では,最初のリアルタイム拡散変換器を用いた音声ヘッド生成フレームワークREADを提案する。
提案手法はまず,VAEを用いて高度に圧縮されたビデオ潜時空間を学習し,音声生成におけるトークン数を大幅に削減する。
また,READは,実行時間を大幅に短縮した競合する音声ヘッドビデオを生成することにより,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-08-05T13:57:03Z) - SecoustiCodec: Cross-Modal Aligned Streaming Single-Codecbook Speech Codec [83.61175662066364]
音声コーデックは、音声とテキスト言語モデルを統一するための重要なブリッジとして機能する。
既存の手法はセマンティックエンコーディングにおいていくつかの課題に直面している。
本稿では,クロスモーダルな低ビットレートストリーミング音声コーデックSecoustiCodecを提案する。
論文 参考訳(メタデータ) (2025-08-04T19:22:14Z) - On the Semantic Latent Space of Diffusion-Based Text-to-Speech Models [15.068637971987224]
DDMデノイザの遅延ボトルネックアクティベーションからなる冷凍TSモデルの潜時空間について検討する。
この空間には豊富な意味情報が含まれており、教師なしと教師なしの両方で、その内部の意味的方向を見つけるための新しい方法をいくつか紹介する。
これにより、さらなるトレーニング、アーキテクチャの変更、データ要求なしに、オフザシェルフオーディオ編集が可能になることを実証する。
論文 参考訳(メタデータ) (2024-02-19T16:22:21Z) - AudioLM: a Language Modeling Approach to Audio Generation [59.19364975706805]
本稿では,長期的整合性を有する高品質オーディオ生成フレームワークであるAudioLMを紹介する。
本稿では,既存の音声トークンが,再建品質と長期構造との間に異なるトレードオフをもたらすことを示す。
我々は,コヒーレントピアノ音楽の継続を生成することによって,我々のアプローチが音声を超えてどのように拡張されるかを実証する。
論文 参考訳(メタデータ) (2022-09-07T13:40:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。