論文の概要: SeaLLMs-Audio: Large Audio-Language Models for Southeast Asia
- arxiv url: http://arxiv.org/abs/2511.01670v1
- Date: Mon, 03 Nov 2025 15:32:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:27.311362
- Title: SeaLLMs-Audio: Large Audio-Language Models for Southeast Asia
- Title(参考訳): SeaLLMs-Audio:東南アジア向け大規模オーディオ言語モデル
- Authors: Chaoqun Liu, Mahani Aljunied, Guizhen Chen, Hou Pong Chan, Weiwen Xu, Yu Rong, Wenxuan Zhang,
- Abstract要約: 東南アジアの複数の言語に対応する最初の大規模音声言語モデル(LALM)であるSeaLLMs-Audioを紹介する。
SeaLLMs-Audioは、様々なオーディオ中心のタスクにまたがって、きめ細かい音声理解と音声ベースのインタラクションに強いパフォーマンスを示す。
音声キャプション、自動音声認識、音声からテキストへの翻訳、音声感情認識、音声質問回答、音声要約など、幅広いタスクをサポートする。
- 参考スコア(独自算出の注目度): 40.53123362174684
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We introduce SeaLLMs-Audio, the first large audio-language model (LALM) tailored for multiple Southeast Asian (SEA) languages-Indonesian (id), Thai (th), and Vietnamese (vi)-alongside English (en) and Chinese (zh). Trained on a large-scale audio corpus, SeaLLMs-Audio exhibits strong performance across diverse audio-centric tasks, spanning fine-grained audio understanding and voice-based interaction. Its key features include: 1) Multilingual: the model primarily supports 5 languages, namely Indonesian, Thai, Vietnamese, English, and Chinese; 2) Multimodal: the model accepts flexible input modalities, including audio only, text only, as well as audio with text; 3) Multi-task: the model supports a wide range of tasks, including audio analysis tasks such as Audio Captioning, Automatic Speech Recognition, Speech-to-Text Translation, Speech Emotion Recognition, Speech Question Answering, and Speech Summarization. It also enables voice-based dialogue, including answering factual, mathematical, and general knowledge queries. As a significant step towards advancing audio LLMs in Southeast Asia, we expect SeaLLMs-Audio to benefit both the regional research community and industry. To automate LALM evaluation for Southeast Asia, we introduce SeaBench-Audio, a benchmark spanning multiple tasks. Experiments show that SeaLLMs-Audio achieves competitive performance compared with other LALMs on SEA languages.
- Abstract(参考訳): SeaLLMs-Audioは,複数の東南アジア (SEA) 言語(インドネシア語 (id), タイ語 (th), ベトナム語 (vi) の英語 (en) と中国語 (zh) に合わせた最初の大規模音声言語モデルである。
大規模なオーディオコーパスでトレーニングされたSeaLLMs-Audioは、さまざまなオーディオ中心のタスクにまたがって、きめ細かい音声理解と音声ベースのインタラクションに強いパフォーマンスを示す。
主な特徴は以下のとおりである。
1)多言語: 主にインドネシア語,タイ語,ベトナム語,英語,中国語の5言語をサポートする。
2)マルチモーダル: モデルは、音声のみ、テキストのみ、およびテキスト付き音声を含む柔軟な入力モダリティを受け入れる。
3)マルチタスク: 音声キャプション,自動音声認識,音声からテキストへの翻訳,音声感情認識,音声質問応答,音声要約など,幅広いタスクをサポートする。
また、事実、数学的、一般的な知識クエリへの回答を含む音声ベースの対話も可能である。
東南アジアにおけるオーディオLLMの進歩に向けた重要なステップとして、SeaLLMs-Audioが地域研究コミュニティと産業の両方に利益をもたらすことを期待している。
東南アジアにおけるLALM評価を自動化するため,複数のタスクにまたがるベンチマークであるSeaBench-Audioを導入する。
実験の結果,SeaLLMs-AudioはSEA言語上の他のLALMと比較して競争性能が向上していることがわかった。
関連論文リスト
- UALM: Unified Audio Language Model for Understanding, Generation and Reasoning [124.19449187588832]
統一音声言語モデル (Unified Audio Language Model, UALM) は、音声理解、テキスト音声生成、マルチモーダル推論を単一モデルで統一することを目的としている。
最初にUALM-Genを提示する。これは音声トークンを直接予測し,最先端の拡散モデルに匹敵する言語モデルである。
UALM-Reasonは、テキストと音声の両方を中間的思考ステップで活用し、複雑な生成作業を容易にするマルチモーダル推論モデルである。
論文 参考訳(メタデータ) (2025-10-13T22:55:01Z) - Step-Audio 2 Technical Report [120.58375054866815]
Step-Audio 2は、業界における音声理解と音声会話のために設計された、エンドツーエンドのマルチモーダルな大規模言語モデルである。
遅延オーディオエンコーダと推論中心強化学習(RL)を統合することにより、Step-Audio 2は自動音声認識(ASR)および音声理解において有望な性能を達成する。
論文 参考訳(メタデータ) (2025-07-22T14:23:55Z) - Solla: Towards a Speech-Oriented LLM That Hears Acoustic Context [45.56363286769136]
本稿では,音声に基づく質問を理解し,そのコンテキストを同時に聴くように設計された新しいフレームワークであるSollaを紹介する。
Sollaには、音声イベントを効果的に識別し表現するためのオーディオタグモジュールと、音声コンテンツの理解を改善するためのASR支援予測手法が組み込まれている。
本稿では,音声イベント分類,音声キャプション,音声質問応答の3つのタスクを含むSA-Evalというベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2025-03-19T15:34:21Z) - Benchmarking Open-ended Audio Dialogue Understanding for Large Audio-Language Models [58.43486430996411]
LALM(Large Audio-Language Models)は、最近、人間との直接の音声交換を可能にする音声対話機能をアンロックした。
オープンエンド音声対話理解におけるLALMの性能を評価するための音声対話理解ベンチマーク(ADU-Bench)を提案する。
ADU-Benchには、LALMの評価のための2万以上のオープンエンドオーディオダイアログが含まれている。
論文 参考訳(メタデータ) (2024-12-06T16:34:15Z) - Enhancing Low-Resource Language and Instruction Following Capabilities of Audio Language Models [13.855545744177586]
本稿では,低リソース言語タイ語における音声言語モデルの評価を行い,多言語基盤にも拘わらず,言語間能力の欠如が判明した。
本実験は,低リソース言語において,言語固有の学習データと多言語学習データのバランスをとることで,命令追従を改善するための知見を提供する。
提案されたTyphoon-Audioモデルは、既存のオープンソースモデルよりも大幅に優れており、英語とタイ語の両方で最先端のGemini-1.5-Proに匹敵するパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-09-17T09:04:03Z) - Audio Flamingo: A Novel Audio Language Model with Few-Shot Learning and Dialogue Abilities [37.02115473120654]
音声を理解するために大きな言語モデル(LLM)を拡張することは、様々な現実世界のアプリケーションにとって非常に重要である。
本稿では,1)強音声理解能力を備えた新しい音声言語モデルであるAudio Flamingoを提案する。
論文 参考訳(メタデータ) (2024-02-02T18:58:34Z) - LauraGPT: Listen, Attend, Understand, and Regenerate Audio with GPT [65.69648099999439]
Generative Pre-trained Transformer (GPT) モデルは、様々な自然言語処理タスクにおいて顕著なパフォーマンスを実現している。
音声認識, 理解, 生成のための新しい音声・テキストGPTベースのLLMであるLauraGPTを提案する。
論文 参考訳(メタデータ) (2023-10-07T03:17:59Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - AudioGPT: Understanding and Generating Speech, Music, Sound, and Talking
Head [82.69233563811487]
大規模言語モデル(LLM)は、さまざまな領域やタスクにまたがって顕著な能力を示し、学習と認知の理解に挑戦しています。
本稿では,LLMを基本モデルで補完し,複雑な音声情報を処理するマルチモーダルAIシステムであるAudioGPTを提案する。
論文 参考訳(メタデータ) (2023-04-25T17:05:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。