Fugu-MT 論文翻訳(概要): MERaLiON-AudioLLM: Technical Report

論文の概要: MERaLiON-AudioLLM: Technical Report

arxiv url: http://arxiv.org/abs/2412.09818v1
Date: Fri, 13 Dec 2024 03:15:05 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-16 15:37:48.820993
Title: MERaLiON-AudioLLM: Technical Report
Title（参考訳）: MeRaLiON-AudioLLM 技術報告
Authors: Yingxu He, Zhuohan Liu, Shuo Sun, Bin Wang, Wenyu Zhang, Xunlong Zou, Nancy F. Chen, Ai Ti Aw,
Abstract要約: シンガポールの多文化景観に合わせた最初の音声テキストモデルであるMERaLiON-AudioLLMを紹介する。 MERaLiON-AudioLLMは、局所的なアクセントや方言の多様な言語的ニュアンスに対処するために、高度な音声処理とテキスト処理を統合している。
参考スコア（独自算出の注目度）: 37.90189271403642
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce MERaLiON-AudioLLM (Multimodal Empathetic Reasoning and Learning in One Network), the first speech-text model tailored for Singapore's multilingual and multicultural landscape. Developed under the National Large Language Models Funding Initiative, Singapore, MERaLiON-AudioLLM integrates advanced speech and text processing to address the diverse linguistic nuances of local accents and dialects, enhancing accessibility and usability in complex, multilingual environments. Our results demonstrate improvements in both speech recognition and task-specific understanding, positioning MERaLiON-AudioLLM as a pioneering solution for region specific AI applications. We envision this release to set a precedent for future models designed to address localised linguistic and cultural contexts in a global framework.
Abstract（参考訳）: シンガポールの多言語・多文化の景観に適した最初の音声テキストモデルであるMERaLiON-AudioLLM(Multimodal Empathetic Reasoning and Learning in One Network)を紹介する。シンガポールのNational Large Language Models Funding Initiativeの下で開発されたMERaLiON-AudioLLMは、高度音声処理とテキスト処理を統合し、局所的なアクセントや方言の多様な言語的ニュアンスに対処し、複雑な多言語環境におけるアクセシビリティとユーザビリティを高める。本研究は,MERaLiON-AudioLLMを地域固有のAI応用の先駆的ソリューションとして位置づけ,音声認識とタスク固有理解の改善を実証するものである。我々はこのリリースを、グローバルな枠組みにおける局所的な言語的・文化的文脈に対処するために設計された将来のモデルの先例にすることを想定する。

関連論文リスト

Advancing Singlish Understanding: Bridging the Gap with Datasets and Multimodal Models [38.608158064184366]
我々は、MNSC(Multitask National Speech Corpus)を導入し、最大のSinglishコーパスを標準化し、注釈する。これらのデータセットは、自動音声認識(ASR)、音声質問回答(SQA)、音声対話要約(SDS)、パラ言語質問回答(PQA)など様々なタスクをサポートする。本稿ではマルチタスクマルチモーダルモデルであるSingAudioLLMを提案する。
論文参考訳（メタデータ） (2025-01-02T03:28:52Z)
MERaLiON-SpeechEncoder: Towards a Speech Foundation Model for Singapore and Beyond [33.46428078179056]
MERaLiON-SpeechEncoderは、幅広いダウンストリーム音声アプリケーションをサポートするために設計された基礎モデルである。シンガポールの国定マルチモーダル大言語モデルプログラムの一部として開発された。このモデルは、シンガポールで話される諸種を含む、主に英語をサポートしている。
論文参考訳（メタデータ） (2024-12-16T08:15:19Z)
Enhancing Low-Resource Language and Instruction Following Capabilities of Audio Language Models [13.855545744177586]
本稿では,タイ語を用いた未保存言語における既存の音声言語モデルの性能について検討する。多言語バックボーン上に構築されているにもかかわらず、音声言語モデルは言語間の創発能力を示すものではない。本稿では,音声理解と音声指示追従機能を単一統一モデルに統合する。
論文参考訳（メタデータ） (2024-09-17T09:04:03Z)
FunAudioLLM: Voice Understanding and Generation Foundation Models for Natural Interaction Between Humans and LLMs [63.8261207950923]
FunAudioLLMは、人間と大規模言語モデル(LLM)の間の自然な音声相互作用を強化するために設計されたモデルファミリーである中心となる2つの革新的なモデルとして、多言語音声認識、感情認識、音声イベント検出を処理するSenseVoiceと、複数の言語、音色、話し方、話者識別を制御した自然言語生成を容易にするCosyVoiceがある。 SenseVoiceとCosyVoiceに関連するモデルは、GitHubでリリースされたトレーニング、推論、微調整コードとともに、ModelscopeとHuggingfaceでオープンソース化されている。
論文参考訳（メタデータ） (2024-07-04T16:49:02Z)
Towards a More Inclusive AI: Progress and Perspectives in Large Language Model Training for the Sámi Language [7.289015788793582]
本研究は、S'ami言語における技術参加の増大に焦点を当てている。我々は,Ultra Low Resource (ULR)言語の言語モデリング問題に対して,MLコミュニティの注目を集めている。 Webから利用可能なS'ami言語リソースをコンパイルして、言語モデルをトレーニングするためのクリーンなデータセットを作成しました。
論文参考訳（メタデータ） (2024-05-09T13:54:22Z)
Teaching a Multilingual Large Language Model to Understand Multilingual Speech via Multi-Instructional Training [29.47243668154796]
BLOOMZMMSは多言語LLMと多言語音声エンコーダを統合する新しいモデルである。本稿では,言語知識のテキストから音声モダリティへの伝達性を示す。ゼロショット評価の結果は、複数のタスクにまたがるアプローチの堅牢性を確認します。
論文参考訳（メタデータ） (2024-04-16T21:45:59Z)
MParrotTTS: Multilingual Multi-speaker Text to Speech Synthesis in Low Resource Setting [16.37243395952266]
MParrotTTSは、TTS合成モデルである。最小限の教師付きデータを持つ新しい言語に適応し、自己教師付きバックボーンのトレーニング中に見えない言語に一般化する。音声の自然度と話者類似度を並列・言語間合成における6言語について検討した。
論文参考訳（メタデータ） (2023-05-19T13:43:36Z)
The Interpreter Understands Your Meaning: End-to-end Spoken Language Understanding Aided by Speech Translation [13.352795145385645]
音声翻訳(ST)は、エンドツーエンドの音声言語理解のために、音声モデルを事前訓練する良い方法である。我々は,本モデルが単言語および多言語意図分類に基づくベースラインよりも高い性能を達成することを示す。また、音声要約のための新しいベンチマークデータセットを作成し、低リソース/ゼロショットを英語からフランス語またはスペイン語に転送する。
論文参考訳（メタデータ） (2023-05-16T17:53:03Z)
Speak Foreign Languages with Your Own Voice: Cross-Lingual Neural Codec Language Modeling [92.55131711064935]
本稿では,言語間音声合成のための言語間ニューラルネットワークモデル VALL-E X を提案する。 VALL-E Xは、強い文脈内学習能力を継承し、ゼロショット言語間テキスト音声合成やゼロショット音声音声音声翻訳タスクに応用できる。未知の話者の声、感情、音響環境を保ちながら、ソース言語の1つの発話をプロンプトとして、ターゲット言語で高品質な音声を生成することができる。
論文参考訳（メタデータ） (2023-03-07T14:31:55Z)
ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文参考訳（メタデータ） (2022-11-07T13:35:16Z)
Exploring Teacher-Student Learning Approach for Multi-lingual Speech-to-Intent Classification [73.5497360800395]
複数の言語をサポートするエンドツーエンドシステムを開発した。我々は、事前訓練された多言語自然言語処理モデルからの知識を利用する。
論文参考訳（メタデータ） (2021-09-28T04:43:11Z)
Multilingual Bottleneck Features for Improving ASR Performance of Code-Switched Speech in Under-Resourced Languages [12.139300459657974]
アフリカ語におけるコード切替(CS)音声の自動音声認識のための音響モデリングにおける多言語ボトルネック機能(mBNF)の利点について検討する。我々は、自由に利用できる多言語NCHLTコーパスの一部である9つの南バントゥー言語を用いてmBNF抽出器を訓練する。以上の結果から,mBNF 機能の導入は,mBNF を使用せずに訓練したベースラインに対して,コードスイッチした English-isiZulu , English-isiXa , English-Sesotho および English-Setswana 音声に対して,明確な性能向上をもたらすことが示された。
論文参考訳（メタデータ） (2020-10-31T18:51:42Z)
That Sounds Familiar: an Analysis of Phonetic Representations Transfer Across Languages [72.9927937955371]
我々は、他言語に存在するリソースを用いて、多言語自動音声認識モデルを訓練する。我々は,多言語設定における全言語間での大幅な改善と,多言語設定におけるスターク劣化を観察した。分析の結果、ひとつの言語に固有の電話でさえ、他の言語からのトレーニングデータを追加することで大きなメリットがあることがわかった。
論文参考訳（メタデータ） (2020-05-16T22:28:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。