論文の概要: Harmonizing the Arabic Audio Space with Data Scheduling
- arxiv url: http://arxiv.org/abs/2601.12494v1
- Date: Sun, 18 Jan 2026 17:08:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.651814
- Title: Harmonizing the Arabic Audio Space with Data Scheduling
- Title(参考訳): データスケジューリングによるアラビアオーディオ空間の調和
- Authors: Hunzalah Hassan Bhatti, Firoj Alam, Shammur Absar Chowdhury,
- Abstract要約: 本稿では、アラビア語中心のLLMのためのマルチタスク・インストラクション・チューニングに関する最初の体系的研究について述べる。
我々はQwen2.5-Omni (7B) を微調整し、Aligner-Based Diverse Smpling (ADS) とともにタスクプログレッシブカリキュラム (TPC) を提案する。
ADSは初期収束を加速するが、その固有の勾配のボラティリティは、長期の訓練で生成的復号を不安定にすることができる。
- 参考スコア(独自算出の注目度): 15.84874997729878
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Audio large language models (LLMs) enable unified speech understanding and generation, yet their adaptation to linguistically complex, dialect-rich settings remains underexplored. This paper presents the first systematic study of multi-task instruction tuning for an Arabic-centric audio LLM, covering a hierarchy of generative tasks (ASR, speech summarization) and discriminative tasks (dialect and emotion identification). To support this study, we introduce AraMega-SSum, a novel dataset for Arabic speech summarization. We fine-tune Qwen2.5-Omni (7B) and propose Task-Progressive Curriculum (TPC) along with Aligner-Based Diverse Sampling (ADS), a strategy that constructs information-dense batches by selecting task- and label-balanced examples. Our results reveal a critical efficiency, robustness trade-off: while ADS accelerates initial convergence and boosts paralinguistic F1-scores, its inherent gradient volatility can destabilize generative decoding under prolonged training. Furthermore, while the TPC stabilizes core acoustic mapping, it often induces negative transfer in downstream tasks. We demonstrate that a Hybrid TPC+ADS Strategy provides an optimal training ``recipe'', first establishing a robust representative foundation before employing diversity-aware refinement to capture fine-grained nuances. These findings offer practical guidance for the efficient adaptation of Omni-models in complex, low-resource multimodal environments.
- Abstract(参考訳): 音声大言語モデル(LLM)は、統一された音声理解と生成を可能にするが、言語学的に複雑で方言に富んだ設定への適応は未解明のままである。
本稿では,アラビア語中心の音声LLMのためのマルチタスク・インストラクション・チューニングに関する最初の体系的研究を行い,生成的タスク(ASR,音声要約)と識別的タスク(方言,感情識別)の階層構造について述べる。
本研究ではアラビア語音声要約のための新しいデータセットであるAraMega-SSumを紹介する。
我々はQwen2.5-Omni(7B)を微調整し、Aligner-Based Diverse Smpling (ADS)と共にタスク・プログレッシブ・カリキュラム(TPC)を提案する。
ADSは初期収束を加速し、パラ言語的F1スコアを向上する一方、その固有の勾配のボラティリティは、長期のトレーニングで生成的復号を不安定にすることができる。
さらに、TPCはコア音響マッピングを安定化する一方、下流タスクにおいて負の伝達を誘導することが多い。
我々は,Hybrid TPC+ADS戦略が'recipe'(レシピ')を最適に訓練し,まず,粒度の細かいニュアンスを捉えるために多様性に配慮した改良を施す前に,堅牢な代表的基盤を確立することを実証した。
これらの知見は、複雑な低リソースマルチモーダル環境におけるOmniモデルの効率的な適応のための実用的なガイダンスを提供する。
関連論文リスト
- Session-Level Spoken Language Assessment with a Multimodal Foundation Model via Multi-Target Learning [8.717610965852037]
音声言語アセスメント(SLA)は、学習者の発話能力を自然発話から推定する。
本稿では,セッションレベル評価を単一パスで行う,新しいマルチモーダル基礎モデルを提案する。
論文 参考訳(メタデータ) (2025-09-19T14:33:05Z) - Munsit at NADI 2025 Shared Task 2: Pushing the Boundaries of Multidialectal Arabic ASR with Weakly Supervised Pretraining and Continual Supervised Fine-tuning [0.0]
本稿では,弱教師付き学習と教師付き微調整を組み合わせたスケーラブルな学習パイプラインを提案する。
提案手法は,多言語アラビア語のASR課題において第1位にランクインし,最先端の成果を達成している。
論文 参考訳(メタデータ) (2025-08-12T13:02:22Z) - DeSTA2.5-Audio: Toward General-Purpose Large Audio Language Model with Self-Generated Cross-Modal Alignment [94.0709779805955]
DeSTA2.5-Audio, a general-purpose Large Audio Language Model (LALM)について紹介する。
タスク固有の音声命令チューニングを必要とせず、頑健な聴覚知覚と指示追従のために設計されている。
DeSTA2.5-Audioは、幅広いオーディオ言語ベンチマークで最先端または競合的なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-07-03T16:28:25Z) - Multi-task Learning with Active Learning for Arabic Offensive Speech Detection [1.534667887016089]
本稿では,多タスク学習(MTL)とアクティブラーニングを統合し,アラビアメディアテキストにおける攻撃的音声検出を強化する新しいフレームワークを提案する。
本手法は,トレーニング中のタスクの重み付けを動的に調整し,各タスクのコントリビューションのバランスをとり,性能を最適化する。
OSACT2022データセットの実験結果は、提案されたフレームワークが85.42%の最先端のマクロF1スコアを達成したことを示している。
論文 参考訳(メタデータ) (2025-06-03T11:17:03Z) - From Alignment to Advancement: Bootstrapping Audio-Language Alignment with Synthetic Data [55.2480439325792]
音声対応の大規模言語モデル(ALLM)は近年,音声入力の理解と処理において大きな進歩を遂げている。
これらのモデルは典型的にはテキストベースの大規模言語モデル(LLM)に適応し、音声関連タスクのさらなるトレーニングを行う。
本研究では、現在と欠落した音を区別するALLMの能力を高めるために、コントラッシブな訓練データを生成するデータ生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-26T16:08:41Z) - Enhancing Audio-Language Models through Self-Supervised Post-Training with Text-Audio Pairs [3.8300818830608345]
音声とテキストのマルチモーダルコントラスト学習戦略が急速に注目されている。
これらのモデルが自然言語や時間的関係を理解する能力は、いまだに未探索でオープンな研究分野である。
本稿では,時間的インスツルメント手法であるTeminalを用いて,時間的理解を伴うマルチモーダルALMを,従来の音声言語タスクの能力を損なうことなく装備することを提案する。
論文 参考訳(メタデータ) (2024-08-17T18:53:17Z) - WavLLM: Towards Robust and Adaptive Speech Large Language Model [93.0773293897888]
本稿では,2つのエンコーダを持つ頑健で適応的な音声大言語モデルであるWavLLMと,プロンプト対応のLoRA重み付けアダプタを紹介する。
ASR, ST, SV, ERなどのタスクを含むユニバーサル音声ベンチマークにおいて提案手法の有効性を検証し, SQA用ガオカオ英語聴取理解セット, CoT 評価セットなどの特殊データセットに適用する。
論文 参考訳(メタデータ) (2024-03-31T12:01:32Z) - End-to-End Active Speaker Detection [58.7097258722291]
本稿では,特徴学習と文脈予測を共同で学習するエンド・ツー・エンドのトレーニングネットワークを提案する。
また、時間間グラフニューラルネットワーク(iGNN)ブロックを導入し、ASD問題における主要なコンテキストのソースに応じてメッセージパッシングを分割する。
実験により、iGNNブロックからの集約された特徴はASDにより適しており、その結果、最先端のアートパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2022-03-27T08:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。