論文の概要: Objective Soups: Multilingual Multi-Task Modeling for Speech Processing
- arxiv url: http://arxiv.org/abs/2508.09228v1
- Date: Tue, 12 Aug 2025 07:01:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.638022
- Title: Objective Soups: Multilingual Multi-Task Modeling for Speech Processing
- Title(参考訳): 音声処理のための多言語マルチタスクモデリング
- Authors: A F M Saif, Lisha Chen, Xiaodong Cui, Songtao Lu, Brian Kingsbury, Tianyi Chen,
- Abstract要約: マルチ言語・マルチタスク音声処理(MSP)のための単一モデルの訓練は,タスク間の目的の相反によって著しく妨げられる。
本稿では,多目的MSPの3つの定式化について検討し,これらをthabfobjective soup recipesと呼ぶ。
我々の研究は、階層型MOOが最先端のMSPモデルを構築する上で、より効率的でスケーラブルなアプローチであることを実証している。
- 参考スコア(独自算出の注目度): 69.52720282028385
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training a single model for multilingual, multi-task speech processing (MSP) is severely hampered by conflicting objectives between tasks like speech recognition and translation. While multi-objective optimization (MOO) aims to align gradient updates, its effectiveness diminishes as the number of tasks grows, making it difficult to find a common descent direction. This raises a fundamental question: should highly conflicting objectives be optimized jointly or separated into a hierarchical structure? To address this question, this paper investigates three multi-objective MSP formulations, which we refer to as \textbf{objective soup recipes}. These formulations apply multi-objective optimization at different optimization levels to mitigate potential conflicts among all objectives. To ensure efficiency, we introduce a lightweight layer-selection mechanism that computes the conflict-avoiding gradient using only the most problematic layers, minimizing computational and memory overhead. Extensive experiments on CoVoST v2, LibriSpeech, and AISHELL-1 reveal that a bi-level recipe separating recognition and translation tasks consistently outperforms standard flat optimization. Our work demonstrates that hierarchical MOO is a more effective and scalable approach for building state-of-the-art MSP models. Our code has been released at https://github.com/afmsaif/Objective_Soups.
- Abstract(参考訳): マルチ言語・マルチタスク音声処理(MSP)のための単一モデルの訓練は、音声認識や翻訳といったタスクの目的の相違によって著しく妨げられる。
多目的最適化(MOO)は、勾配の更新を調整することを目的としているが、タスクの数が増加するにつれて効率が低下し、共通の降下方向を見つけることが困難になる。
相反する目標を共同で最適化するか、階層構造に分割すべきか?
本稿では,3つの多目的MSPの定式化について検討し,これを「textbf{objective soup recipes」と呼ぶ。
これらの定式化は、異なる最適化レベルで多目的最適化を適用し、全ての目的間の潜在的な衝突を軽減する。
効率性を確保するために、最も問題のある層のみを用いて競合回避勾配を計算し、計算とメモリオーバーヘッドを最小限に抑える軽量層選択機構を導入する。
CoVoST v2、LibriSpeech、AISHELL-1の広範な実験により、認識と翻訳タスクを分離する二段階のレシピが、標準フラット最適化よりも一貫して優れていることが明らかになった。
我々の研究は、階層型MOOが最先端のMSPモデルを構築する上で、より効率的でスケーラブルなアプローチであることを実証している。
私たちのコードはhttps://github.com/afmsaif/Objective_Soups.comでリリースされました。
関連論文リスト
- PUMA: Layer-Pruned Language Model for Efficient Unified Multimodal Retrieval with Modality-Adaptive Learning [54.73049408950049]
モーダリティ適応型学習を伴う効率的な統一マルチモーダル検索のための階層型言語モデルを提案する。
本手法は,構造的,学習的両面からの統合的マルチモーダル検索を改善する。
論文 参考訳(メタデータ) (2025-07-10T16:47:25Z) - Marmot: Multi-Agent Reasoning for Multi-Object Self-Correcting in Improving Image-Text Alignment [55.74860093731475]
Marmotは、マルチオブジェクトの自己修正にマルチエージェント推論を採用する新しいフレームワークである。
我々は,意思決定検証機構を備えたマルチエージェント自己修正システムを構築した。
実験により、Marmotはオブジェクトのカウント、属性割り当て、空間的関係において精度を大幅に向上することが示された。
論文 参考訳(メタデータ) (2025-04-10T16:54:28Z) - Jacobian Descent for Multi-Objective Optimization [0.6138671548064355]
勾配降下は単目的最適化に限られる。
Jacobian descent (JD) はベクトル値の目的関数のヤコビ行列を用いてパラメータを反復的に更新する。
論文 参考訳(メタデータ) (2024-06-23T22:06:25Z) - Distributionally Robust Multilingual Machine Translation [94.51866646879337]
本稿では,分散的ロバストな最適化に基づくMNMT(Multilingual Neural Machine Translation)の新しい学習目標を提案する。
この目的を,反復的最適応答方式を用いて,大規模翻訳コーパスに対して実用的に最適化する方法を示す。
本手法は,多対一の翻訳設定と多対多の翻訳設定の両方において,平均と言語毎のパフォーマンスにおいて,強いベースライン法より一貫して優れる。
論文 参考訳(メタデータ) (2021-09-09T03:48:35Z) - A Nested Bi-level Optimization Framework for Robust Few Shot Learning [10.147225934340877]
NestedMAMLはトレーニングタスクやインスタンスに重みを割り当てることを学ぶ。
合成および実世界のデータセットの実験では、NestedMAMLは「不要な」タスクやインスタンスの効果を効率的に緩和している。
論文 参考訳(メタデータ) (2020-11-13T06:41:22Z) - Gradient Vaccine: Investigating and Improving Multi-task Optimization in
Massively Multilingual Models [63.92643612630657]
本稿では、損失関数幾何学のレンズを通して多言語最適化のブラックボックスを覗き込もうとする。
最適化軌道に沿って測定された勾配類似性は重要な信号であり、言語近接とよく相関している。
そこで我々はGradient Vaccineというシンプルでスケーラブルな最適化手法を考案した。
論文 参考訳(メタデータ) (2020-10-12T17:26:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。