論文の概要: Bandwidth-Efficient and Privacy-Preserving Edge-Cloud Many-to-Many Speech Translation
- arxiv url: http://arxiv.org/abs/2605.28642v1
- Date: Wed, 27 May 2026 15:47:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:56.187298
- Title: Bandwidth-Efficient and Privacy-Preserving Edge-Cloud Many-to-Many Speech Translation
- Title(参考訳): 帯域幅効率とプライバシ保護によるエッジクラウド多対多音声翻訳
- Authors: Yexing Du, Kaiyuan Liu, Youcheng Pan, Bo Yang, Ming Liu, Bing Qin, Yang Xiang,
- Abstract要約: Edge-cloud Speech Recognition and Translation (ESRT)は、プライバシー保護と帯域幅効率の協調型エッジクラウドMLLMフレームワークである。
我々は、軽量な音声エンコーダとアダプタをデバイス上に保持し、高度に圧縮された中間機能のみをクラウドに送信するエッジクラウド分割推論アーキテクチャを設計する。
英語中心のボトルネックを克服するために,データバランシングによる多タスク重み付きカリキュラム学習戦略を導入し,堅牢な言語間一貫性を実現する。
- 参考スコア(独自算出の注目度): 38.38807634557459
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multimodal large language models (MLLMs) have demonstrated significant potential for speech-to-text translation (S2TT). However, existing deployment paradigms face critical challenges: pure on-device models suffer from resource constraints, while centralized cloud systems incur severe privacy risks and bandwidth bottlenecks by transmitting raw voice data. Furthermore, most models exhibit English-centric biases, restricting many-to-many translation scaling. In this paper, we propose Edge-cloud Speech Recognition and Translation (ESRT), a privacy-preserving and bandwidth-efficient collaborative edge-cloud MLLM framework. Specifically, we design an edge-cloud split inference architecture that retains a lightweight speech encoder and adapter on the device, transmitting only highly compressed intermediate features to the cloud. This fundamentally prevents voiceprint leakage and reduces bandwidth requirements by up to 10$\times$. To overcome English-centric bottlenecks, we introduce a multi-task weighted curriculum learning strategy with data balancing to ensure robust cross-lingual consistency. Extensive experiments on the FLEURS dataset demonstrate that our models, ESRT-4B and ESRT-12B, achieve state-of-the-art many-to-many S2TT performance across 45 languages ($45 \times 44$ directions). Code and models are released to facilitate reproducible, privacy-aware MLLM S2TT research. The code and models are released at https://github.com/yxduir/esrt.
- Abstract(参考訳): MLLM(Multimodal large language model)は、音声からテキストへの翻訳(S2TT)において重要な可能性を示している。
しかし、既存のデプロイメントパラダイムは重要な課題に直面している。純粋なオンデバイスモデルはリソースの制約に悩まされ、集中型のクラウドシステムは生の音声データを送信することで、深刻なプライバシーリスクと帯域幅のボトルネックを引き起こす。
さらに、ほとんどのモデルは英語中心のバイアスを示し、多対多の翻訳スケーリングを制限する。
本稿では,プライバシー保護と帯域幅効率の両立するエッジクラウドMLLMフレームワークであるエッジクラウド音声認識・翻訳(ESRT)を提案する。
具体的には、軽量な音声エンコーダとアダプタをデバイス上に保持し、高度に圧縮された中間機能のみをクラウドに送信するエッジクラウド分割推論アーキテクチャを設計する。
これにより、ボイスプリントの漏洩を防ぎ、帯域幅の要求を最大10$\times$に削減できる。
英語中心のボトルネックを克服するために,データバランシングによる多タスク重み付きカリキュラム学習戦略を導入し,堅牢な言語間一貫性を実現する。
FLEURSデータセットの大規模な実験により、我々のモデルであるESRT-4BとESRT-12Bが45言語(45 \times 44$ directions)にわたる最先端の多対多のS2TT性能を達成することが示された。
コードとモデルは、再現可能でプライバシーに配慮したMLLM S2TT研究を促進するためにリリースされている。
コードとモデルはhttps://github.com/yxduir/esrt.comで公開されている。
関連論文リスト
- Making LLMs Better Many-to-Many Speech-to-Text Translators with Curriculum Learning [32.883836078329665]
MLLM(Multimodal Large Language Models)は、音声テキスト翻訳(S2TT)タスクにおいて大きな成功を収めている。
本稿では,大規模言語モデルの機械翻訳機能を活用し,S2TTタスクに適応する3段階のカリキュラム学習戦略を提案する。
実験結果から,提案手法は15時間14ドルの言語対で最先端の平均性能を実現することが示された。
論文 参考訳(メタデータ) (2024-09-29T01:48:09Z) - Scaling Sign Language Translation [38.43594795927101]
手話翻訳(SLT)は、ビデオ中の手話からテキスト中の音声言語への情報を翻訳する問題に対処する。
本稿では,事前学習データ,モデルサイズ,翻訳方向の数を拡大することにより,SLTのフロンティアを推し進める。
実験では、バニラベースラインよりも大幅に品質が向上し、以前のSOTA(State-of-the-art)をはるかに上回った。
論文 参考訳(メタデータ) (2024-07-16T15:36:58Z) - Multilingual Large Language Models and Curse of Multilinguality [4.096453902709292]
大規模言語モデル(LLM)は自然言語処理(NLP)の研究者や実践者の間で広く普及している。
本稿では,多言語LLMの展望を概観し,その技術的側面について概観する。
基礎となるアーキテクチャ、客観的関数、事前トレーニングされたデータソース、トークン化メソッドを説明します。
論文 参考訳(メタデータ) (2024-06-15T11:31:39Z) - mBLIP: Efficient Bootstrapping of Multilingual Vision-LLMs [50.17767479660832]
視覚言語モデル(Vision-LLMs)は、事前訓練された画像エンコーダを(凍結した)大型言語モデル(LLMs)とポストホック条件LLMsに整合させ、画像入力を理解する。
我々は,マルチ言語LLMを利用した最初のビジョン-LLMであるmBLIPを,コンシューマレベルのハードウェア上で計算的に効率よく提供する。
論文 参考訳(メタデータ) (2023-07-13T17:51:58Z) - Mitigating Data Imbalance and Representation Degeneration in
Multilingual Machine Translation [103.90963418039473]
Bi-ACLは、MNMTモデルの性能を向上させるために、ターゲット側モノリンガルデータとバイリンガル辞書のみを使用するフレームワークである。
Bi-ACLは、長い尾の言語でも、高リソースの言語でも、より効果的であることを示す。
論文 参考訳(メタデータ) (2023-05-22T07:31:08Z) - Towards Making the Most of Multilingual Pretraining for Zero-Shot Neural
Machine Translation [74.158365847236]
SixT++は、100のソース言語をサポートする強力な多言語NMTモデルであるが、たった6つのソース言語からの並列データセットで一度トレーニングされている。
CRISSとm2m-100は、それぞれ7.2と5.0BLEUの2つの強い多言語NMTシステムより大幅に優れていた。
論文 参考訳(メタデータ) (2021-10-16T10:59:39Z) - Enabling Zero-shot Multilingual Spoken Language Translation with
Language-Specific Encoders and Decoders [5.050654565113709]
Spoken Language Translationへの現在のエンドツーエンドアプローチは、限られたトレーニングリソースに依存しています。
提案手法は,言語固有のエンコーダデコーダに基づくMultiNMTアーキテクチャを多言語SLTのタスクに拡張する。
論文 参考訳(メタデータ) (2020-11-02T16:31:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。