Fugu-MT 論文翻訳(概要): StreamSplit: Continuous Audio Representation Learning via Uncertainty-Guided Adaptive Splitting

論文の概要: StreamSplit: Continuous Audio Representation Learning via Uncertainty-Guided Adaptive Splitting

arxiv url: http://arxiv.org/abs/2605.26523v1
Date: Tue, 26 May 2026 04:11:38 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-27 17:51:41.615006
Title: StreamSplit: Continuous Audio Representation Learning via Uncertainty-Guided Adaptive Splitting
Title（参考訳）: StreamSplit: 不確実性誘導適応スプリットによる継続的オーディオ表現学習
Authors: Minh K. Quan, Pubudu N. Pathirana,
Abstract要約: CL(Large-batch Contrastive Learning)は、現代の表現学習の基礎である。 StreamSplitは分散ベースのストリーミングフレームワークで、ヘテロジニアスなARMクライアントプラットフォームでストリーミングCLを実用的なものにします。その結果、StreamSplitは、サーバ中心のベースラインと比較して、サンプル単位のレイテンシを最大4.7倍削減し、帯域幅を77.1%削減し、エネルギーを52.3%削減した。
参考スコア（独自算出の注目度）: 2.9461530983010196
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large-batch Contrastive Learning (CL), the foundation of modern representation learning, is fundamentally incompatible with the volatile resource constraints of edge devices. This conflict creates a dilemma: small on-device batches degrade model fidelity, while offloading to the cloud incurs unacceptable latency and bandwidth costs. Existing solutions often resort to static model compression, which fails to adapt to the runtime volatility of edge environments. To bridge this gap, we present StreamSplit, a novel framework that makes streaming CL practical across heterogeneous ARM client platforms. StreamSplit resolves the conflict between the continuous nature of ambient audio and the discrete batch requirements of models like CLAP and COLA. We introduce: (1) A distribution-based streaming framework that decouples representation quality from local batch size, using a tractable Hybrid Loss to maintain fidelity despite sparse updates; and (2) An Uncertainty-Guided Adaptive Splitter that uses a lightweight Reinforcement Learning (RL) policy to dynamically partition computation. Uniquely, this policy integrates real-time resource monitoring with embedding ambiguity to optimize the accuracy-latency trade-off on the fly. We evaluate StreamSplit on diverse hardware, from the resource-constrained Raspberry Pi 4 to the high-performance Apple M2. Results demonstrate that StreamSplit reduces per-sample latency by up to 4.7x and cuts bandwidth by 77.1% and energy by 52.3% compared to server-centric baselines. Crucially, it maintains accuracy within 2.2% of server-centric models, proving that adaptive, distributed learning is a viable path for the modern edge ecosystem.
Abstract（参考訳）: 現代表現学習の基盤であるLarge-batch Contrastive Learning (CL)は、エッジデバイスの揮発性リソース制約と根本的に相容れない。デバイス上の小さなバッチはモデルの忠実度を低下させ、クラウドへのオフロードは許容できないレイテンシと帯域幅のコストを発生させる。既存のソリューションは、しばしば静的モデル圧縮を頼りにしており、エッジ環境のランタイムのボラティリティに適応できない。このギャップを埋めるため、異種ARMクライアントプラットフォームでストリーミングCLを実用的なものにする新しいフレームワークStreamSplitを紹介します。 StreamSplitは、環境オーディオの継続的性質とCLAPやCOLAといったモデルの離散バッチ要求との矛盾を解決する。本稿では,(1) 局所的なバッチサイズから表現品質を分離する分散ベースのストリーミングフレームワーク,(2) 計算を動的に分割するために軽量な強化学習(RL)ポリシーを用いる不確実性誘導適応スプリッタを提案する。ユニークなことに、このポリシーはリアルタイムリソースモニタリングと埋め込んだあいまいさを統合して、オンザフライでの精度とレイテンシのトレードオフを最適化する。資源制約のあるRaspberry Pi 4から高性能なApple M2まで,さまざまなハードウェア上でStreamSplitを評価した。その結果、StreamSplitは、サーバ中心のベースラインと比較して、サンプル単位のレイテンシを最大4.7倍削減し、帯域幅を77.1%削減し、エネルギーを52.3%削減した。重要な点として、サーバ中心のモデルの2.2%以内の精度を維持し、適応的な分散学習が現代のエッジエコシステムにとって実行可能なパスであることを証明している。

関連論文リスト

Towards Streaming Target Speaker Extraction via Chunk-wise Interleaved Splicing of Autoregressive Language Model [26.672519467929686]
ターゲット話者抽出(TSE)のストリーミングに適した,最初の自己回帰型(AR)モデルを提案する。提案手法では,高効率かつ安定したストリーミング推論を実現するために,チャンクワイズ・インターリーブド・スプリシング・パラダイムを導入している。 Libri2Mixの実験では、AR生成ベースラインは低レイテンシで性能劣化を示すが、本手法は100%安定性と優れた知性を維持している。
論文参考訳（メタデータ） (2026-04-21T16:25:22Z)
Efficient Learned Data Compression via Dual-Stream Feature Decoupling [11.752785837648199]
本稿では,深層並列処理を浅層並列ストリームに置き換えるために,ローカルおよびグローバルコンテキストをアンハングするDual-Stream Multi-Scale Decouplerを提案する。本手法は,低レイテンシとメモリ使用量を維持しながら,圧縮比とスループットの両面で最先端性能を実現する。
論文参考訳（メタデータ） (2026-04-08T16:05:24Z)
R2E-VID: Two-Stage Robust Routing via Temporal Gating for Elastic Edge-Cloud Video Inference [15.625229432769892]
R2E-VIDは2段階のロバストなルーティングフレームワークである。 R2E-VIDは、クラウド中心のベースラインと比較して、全体のコストを最大60%から60%削減する。最先端のエッジクラウドソリューションよりも,推論精度を2～7%向上しながら,35～45%の遅延時間を実現している。
論文参考訳（メタデータ） (2026-04-03T10:04:45Z)
AVERY: Adaptive VLM Split Computing through Embodied Self-Awareness for Efficient Disaster Response Systems [6.294240680169978]
災害時の無人航空機(UAV)は、CNNが提供できない複雑なクエリー可能な知性を必要とする。本稿では,適応型分割計算によるVLMデプロイメントを実現するフレームワークであるAVERYを紹介する。
論文参考訳（メタデータ） (2025-11-22T18:42:04Z)
StreamDiffusionV2: A Streaming System for Dynamic and Interactive Video Generation [65.90400162290057]
生成モデルは、コンテンツの作り方、スタイル、配信方法を再定義することで、ライブストリーミング業界を変革している。ビデオ拡散の最近の進歩は、オフライン生成のための時間的一貫性とサンプリング効率を著しく改善した。ライブオンラインストリーミングは厳しいサービスレベル(SLO)の下で動作します。タイム・ツー・ファーストフレームは最小限でなければなりません。
論文参考訳（メタデータ） (2025-11-10T18:51:28Z)
CollaPipe: Adaptive Segment-Optimized Pipeline Parallelism for Collaborative LLM Training in Heterogeneous Edge Networks [57.95170323315603]
CollaPipeは、コラボレーティブパイプライン並列性とフェデレーションアグリゲーションを統合し、自己進化型ネットワークをサポートする分散学習フレームワークである。 CollaPipeでは、エンコーダ部分は可変サイズのセグメントに適応的に分割され、パイプライン並列トレーニングのためにモバイルデバイスにデプロイされ、デコーダは生成タスクを処理するためにエッジサーバにデプロイされる。トレーニング効率を向上させるために,モデルセグメント,マイクロバッチ,帯域幅,送信電力を適応的に割り当てる共同最適化問題を定式化する。
論文参考訳（メタデータ） (2025-09-24T07:54:01Z)
Unifying Streaming and Non-streaming Zipformer-based ASR [14.226219579716629]
本稿では,ストリーミングアプリケーションと非ストリーミングアプリケーションの両方に対して,単一エンドツーエンドのASRモデルをトレーニングする統合フレームワークを提案する。本稿では,zipformer を用いた ASR モデルのトレーニングにおいて,チャンクされた注目マスキングによる動的右コンテキストの利用を提案する。ストリーミングASRモデルの精度と待ち時間に及ぼす右コンテキストフレーム数の変化の影響を解析する。
論文参考訳（メタデータ） (2025-06-17T11:52:41Z)
Efficient Parallel Split Learning over Resource-constrained Wireless Edge Networks [44.37047471448793]
本稿では,エッジコンピューティングパラダイムと並列分割学習(PSL)の統合を提唱する。そこで本研究では,モデル学習を高速化するために,効率的な並列分割学習(EPSL)という革新的なPSLフレームワークを提案する。提案するEPSLフレームワークは,目標精度を達成するために必要なトレーニング遅延を著しく低減することを示す。
論文参考訳（メタデータ） (2023-03-26T16:09:48Z)
Low-Latency Federated Learning over Wireless Channels with Differential Privacy [142.5983499872664]
フェデレートラーニング(FL)では、モデルトレーニングはクライアントに分散し、ローカルモデルは中央サーバによって集約される。本稿では,各クライアントの差分プライバシ(DP)要件だけでなく,全体としてのトレーニング性能に制約された無線チャネル上でのFLトレーニング遅延を最小限に抑えることを目的とする。
論文参考訳（メタデータ） (2021-06-20T13:51:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。