論文の概要: A Modular-based Strategy for Mitigating Gradient Conflicts in Simultaneous Speech Translation
- arxiv url: http://arxiv.org/abs/2409.15911v1
- Date: Tue, 24 Sep 2024 09:27:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-26 08:11:26.868019
- Title: A Modular-based Strategy for Mitigating Gradient Conflicts in Simultaneous Speech Translation
- Title(参考訳): 同時音声翻訳におけるグラディエント・コンフリクトの緩和のためのモジュラー・ベース・ストラテジー
- Authors: Xiaoqian Liu, Yangfan Du, Jianjin Wang, Yuan Ge, Chen Xu, Tong Xiao, Guocheng Chen, Jingbo Zhu,
- Abstract要約: 同時音声翻訳(SimulST)は、ストリーミング音声入力を継続的に処理しながら、ターゲット言語テキストを生成する。
本稿では,より微細なモジュラレベルでの衝突を検知し,勾配予測を用いて解決するMGCM(Modular Gradient Conflict Mitigation)戦略を提案する。
実験の結果,MGCMは特に中・高遅延条件下で,SimulSTの性能を著しく向上することが示された。
- 参考スコア(独自算出の注目度): 38.6508896498363
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Simultaneous Speech Translation (SimulST) involves generating target language text while continuously processing streaming speech input, presenting significant real-time challenges. Multi-task learning is often employed to enhance SimulST performance but introduces optimization conflicts between primary and auxiliary tasks, potentially compromising overall efficiency. The existing model-level conflict resolution methods are not well-suited for this task which exacerbates inefficiencies and leads to high GPU memory consumption. To address these challenges, we propose a Modular Gradient Conflict Mitigation (MGCM) strategy that detects conflicts at a finer-grained modular level and resolves them utilizing gradient projection. Experimental results demonstrate that MGCM significantly improves SimulST performance, particularly under medium and high latency conditions, achieving a 0.68 BLEU score gain in offline tasks. Additionally, MGCM reduces GPU memory consumption by over 95\% compared to other conflict mitigation methods, establishing it as a robust solution for SimulST tasks.
- Abstract(参考訳): 同時音声翻訳(SimulST)は、ストリーミング音声入力を継続的に処理しながらターゲット言語テキストを生成し、重要なリアルタイム課題を提示する。
マルチタスク学習は、SimulSTのパフォーマンスを向上させるためにしばしば使用されるが、一次タスクと補助タスクの最適化競合を導入し、全体的な効率を損なう可能性がある。
既存のモデルレベルのコンフリクト解決方法は、非効率を悪化させ、高いGPUメモリ消費をもたらすこのタスクには適していない。
これらの課題に対処するため,よりきめ細かいモジュラレベルでの衝突を検知し,勾配予測を用いて解決するMGCM(Modular Gradient Conflict Mitigation)戦略を提案する。
実験の結果,MGCMは特に中・高遅延条件下でのSimulST性能を著しく改善し,オフラインタスクにおいて0.68BLEUのスコアアップを達成した。
さらにMGCMは、他の競合緩和手法と比較して、GPUメモリ消費を95%以上削減し、SimulSTタスクの堅牢なソリューションとして確立している。
関連論文リスト
- Tender: Accelerating Large Language Models via Tensor Decomposition and Runtime Requantization [0.6445087473595953]
大規模言語モデル(LLM)は、機械学習における様々なタスクにおいて優れたパフォーマンスを示す。
LLM推論のデプロイは、高い計算とメモリ要求のために問題となる。
我々は,低精度でLLM推論を効率的に展開できるアルゴリズム-ハードウェア共設計ソリューションであるテンダーを提案する。
論文 参考訳(メタデータ) (2024-06-16T09:51:55Z) - On the Worst Prompt Performance of Large Language Models [93.13542053835542]
大規模言語モデル(LLM)の性能は,プロンプトの表現に非常に敏感である。
セマンティックに等価なケースレベルのクエリで構成される新しいベンチマークであるRobustAlpacaEvalを紹介する。
RobustAlpacaEvalとChatGPT、およびLlama、Mistral、Gemmaファミリーの6つのオープンソースLLMによる実験により、モデル性能のかなりのばらつきが明らかになった。
論文 参考訳(メタデータ) (2024-06-08T13:40:38Z) - Cutting Through the Noise: Boosting LLM Performance on Math Word Problems [52.99006895757801]
大規模言語モデルは数学用語の問題を解くのに優れるが、無関係な情報を含む現実世界の問題に苦戦する。
本稿では,無関係な変数を追加することで,MWPの逆変分を生成するプロンプトフレームワークを提案する。
敵の訓練インスタンスの微調整は、敵のMWPのパフォーマンスを8%向上させる。
論文 参考訳(メタデータ) (2024-05-30T18:07:13Z) - Modality Prompts for Arbitrary Modality Salient Object Detection [57.610000247519196]
本論文は、任意のモーダリティ・サリエント物体検出(AM SOD)の課題について述べる。
任意のモダリティ、例えばRGBイメージ、RGB-Dイメージ、RGB-D-Tイメージから有能なオブジェクトを検出することを目的としている。
AM SODの2つの基本的な課題を解明するために,新しいモード適応トランス (MAT) を提案する。
論文 参考訳(メタデータ) (2024-05-06T11:02:02Z) - SparseLLM: Towards Global Pruning for Pre-trained Language Models [12.057369029549534]
本研究では,グローバルプルーニングプロセスを再定義する新しいフレームワークであるSparseLLMを提案する。
SparseLLMのアプローチは、LLMをモジュラ関数の連鎖として概念化し、問題の分解に補助変数を利用する。
高いスパーシティ・レシエーションにおいて、特に顕著なパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2024-02-28T00:09:07Z) - A Thorough Examination of Decoding Methods in the Era of LLMs [72.65956436513241]
復号法は、次世代の予測器から実用的なタスク解決器に言語モデルを変換する上で、必須の役割を果たす。
本稿では,大規模言語モデルの文脈における様々な復号法を包括的かつ多面的に分析する。
その結果,復号法の性能は特にタスク依存的であり,アライメント,モデルサイズ,量子化などの要因に影響されていることが明らかとなった。
論文 参考訳(メタデータ) (2024-02-10T11:14:53Z) - A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical
Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。
MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文 参考訳(メタデータ) (2023-09-02T11:01:16Z) - Learning Prompt-Enhanced Context Features for Weakly-Supervised Video
Anomaly Detection [37.99031842449251]
弱い監督下での映像異常検出は重大な課題を呈する。
本稿では,効率的なコンテキストモデリングとセマンティック識別性の向上に焦点をあてた,弱教師付き異常検出フレームワークを提案する。
提案手法は,特定の異常なサブクラスの検出精度を大幅に向上させ,その実用的価値と有効性を裏付けるものである。
論文 参考訳(メタデータ) (2023-06-26T06:45:16Z) - Improving Autoregressive NLP Tasks via Modular Linearized Attention [0.20305676256390928]
本稿では,推定品質を最大化しつつ,顕著な高速化を実現するために,モジュラリニアライナライズドアテンション(MLA)を提案する。
本稿では、音声からテキストへのニューラルマシン翻訳(S2T NMT)、音声からテキストへの同時翻訳(SimulST)、自動回帰テキスト・トゥ・スペクトログラムなど、いくつかの自己回帰NLPタスクに対して、このアプローチを検証する。
論文 参考訳(メタデータ) (2023-04-17T17:25:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。