論文の概要: A Modular-based Strategy for Mitigating Gradient Conflicts in Simultaneous Speech Translation
- arxiv url: http://arxiv.org/abs/2409.15911v2
- Date: Fri, 18 Oct 2024 02:32:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 19:21:13.725060
- Title: A Modular-based Strategy for Mitigating Gradient Conflicts in Simultaneous Speech Translation
- Title(参考訳): 同時音声翻訳におけるグラディエント・コンフリクトの緩和のためのモジュラー・ベース・ストラテジー
- Authors: Xiaoqian Liu, Yangfan Du, Jianjin Wang, Yuan Ge, Chen Xu, Tong Xiao, Guocheng Chen, Jingbo Zhu,
- Abstract要約: 同時音声翻訳(SimulST)は、ストリーミング音声入力を継続的に処理しながら、ターゲット言語テキストを生成する。
本稿では,より微細なモジュラレベルでの衝突を検知し,勾配予測を用いて解決するMGCM(Modular Gradient Conflict Mitigation)戦略を提案する。
実験の結果,MGCMは特に中・高遅延条件下で,SimulSTの性能を著しく向上することが示された。
- 参考スコア(独自算出の注目度): 38.6508896498363
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Simultaneous Speech Translation (SimulST) involves generating target language text while continuously processing streaming speech input, presenting significant real-time challenges. Multi-task learning is often employed to enhance SimulST performance but introduces optimization conflicts between primary and auxiliary tasks, potentially compromising overall efficiency. The existing model-level conflict resolution methods are not well-suited for this task which exacerbates inefficiencies and leads to high GPU memory consumption. To address these challenges, we propose a Modular Gradient Conflict Mitigation (MGCM) strategy that detects conflicts at a finer-grained modular level and resolves them utilizing gradient projection. Experimental results demonstrate that MGCM significantly improves SimulST performance, particularly under medium and high latency conditions, achieving a 0.68 BLEU score gain in offline tasks. Additionally, MGCM reduces GPU memory consumption by over 95\% compared to other conflict mitigation methods, establishing it as a robust solution for SimulST tasks.
- Abstract(参考訳): 同時音声翻訳(SimulST)は、ストリーミング音声入力を継続的に処理しながらターゲット言語テキストを生成し、重要なリアルタイム課題を提示する。
マルチタスク学習は、SimulSTのパフォーマンスを向上させるためにしばしば使用されるが、一次タスクと補助タスクの最適化競合を導入し、全体的な効率を損なう可能性がある。
既存のモデルレベルのコンフリクト解決方法は、非効率を悪化させ、高いGPUメモリ消費をもたらすこのタスクには適していない。
これらの課題に対処するため,よりきめ細かいモジュラレベルでの衝突を検知し,勾配予測を用いて解決するMGCM(Modular Gradient Conflict Mitigation)戦略を提案する。
実験の結果,MGCMは特に中・高遅延条件下でのSimulST性能を著しく改善し,オフラインタスクにおいて0.68BLEUのスコアアップを達成した。
さらにMGCMは、他の競合緩和手法と比較して、GPUメモリ消費を95%以上削減し、SimulSTタスクの堅牢なソリューションとして確立している。
関連論文リスト
- USEFUSE: Utile Stride for Enhanced Performance in Fused Layer Architecture of Deep Neural Networks [0.6435156676256051]
本研究では,低レイテンシ左から右へのビットシリアル演算を用いた畳み込みのためのSum-of-Products (SOP)ユニットを提案する。
有効メカニズムは、ReLU層の後、非効率な畳み込みを検出し、スキップし、消費電力を最小化する。
ひとつはミッションクリティカルなアプリケーションの応答時間を最小限にすること、もうひとつはリソースに制約のあるデバイスに同じレイテンシでフォーカスすることである。
論文 参考訳(メタデータ) (2024-12-18T11:04:58Z) - GUIDE: A Global Unified Inference Engine for Deploying Large Language Models in Heterogeneous Environments [1.0558515062670693]
現実世界のシナリオにおける大規模言語モデル(LLM)は依然として重要な課題である。
これらの課題は、しばしばメモリ使用率、レイテンシ、スループットの非効率につながる。
バッチレイテンシ、TTFT、デコードスループットといった主要なメトリクスに対して、予測エラーを9.9%から42.3%の精度で達成し、これらの問題に対処するフレームワークを開発する。
論文 参考訳(メタデータ) (2024-12-06T05:46:43Z) - R-MTLLMF: Resilient Multi-Task Large Language Model Fusion at the Wireless Edge [78.26352952957909]
マルチタスク大言語モデル(MTLLM)は、ユーザが複数のタスクを効率的に処理するための特殊なモデルを要求する無線エッジにおける多くのアプリケーションにとって重要である。
タスクベクトルによるモデル融合の概念は、MDLLMを生成するための微調整パラメータを組み合わせるための効率的なアプローチとして登場した。
本稿では,最悪の逆攻撃を前提として,エッジユーザがタスクベクトルを介して協調的にMTLMを作成できる問題について検討する。
論文 参考訳(メタデータ) (2024-11-27T10:57:06Z) - On the Worst Prompt Performance of Large Language Models [93.13542053835542]
大規模言語モデル(LLM)の性能は,プロンプトの表現に非常に敏感である。
セマンティックに等価なケースレベルのクエリで構成される新しいベンチマークであるRobustAlpacaEvalを紹介する。
RobustAlpacaEvalとChatGPT、およびLlama、Mistral、Gemmaファミリーの6つのオープンソースLLMによる実験により、モデル性能のかなりのばらつきが明らかになった。
論文 参考訳(メタデータ) (2024-06-08T13:40:38Z) - Cutting Through the Noise: Boosting LLM Performance on Math Word Problems [52.99006895757801]
大規模言語モデルは数学用語の問題を解くのに優れるが、無関係な情報を含む現実世界の問題に苦戦する。
本稿では,無関係な変数を追加することで,MWPの逆変分を生成するプロンプトフレームワークを提案する。
敵の訓練インスタンスの微調整は、敵のMWPのパフォーマンスを8%向上させる。
論文 参考訳(メタデータ) (2024-05-30T18:07:13Z) - Modality Prompts for Arbitrary Modality Salient Object Detection [57.610000247519196]
本論文は、任意のモーダリティ・サリエント物体検出(AM SOD)の課題について述べる。
任意のモダリティ、例えばRGBイメージ、RGB-Dイメージ、RGB-D-Tイメージから有能なオブジェクトを検出することを目的としている。
AM SODの2つの基本的な課題を解明するために,新しいモード適応トランス (MAT) を提案する。
論文 参考訳(メタデータ) (2024-05-06T11:02:02Z) - A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical
Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。
MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文 参考訳(メタデータ) (2023-09-02T11:01:16Z) - Improving Autoregressive NLP Tasks via Modular Linearized Attention [0.20305676256390928]
本稿では,推定品質を最大化しつつ,顕著な高速化を実現するために,モジュラリニアライナライズドアテンション(MLA)を提案する。
本稿では、音声からテキストへのニューラルマシン翻訳(S2T NMT)、音声からテキストへの同時翻訳(SimulST)、自動回帰テキスト・トゥ・スペクトログラムなど、いくつかの自己回帰NLPタスクに対して、このアプローチを検証する。
論文 参考訳(メタデータ) (2023-04-17T17:25:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。