論文の概要: ArzEn-LLM: Code-Switched Egyptian Arabic-English Translation and Speech Recognition Using LLMs
- arxiv url: http://arxiv.org/abs/2406.18120v1
- Date: Wed, 26 Jun 2024 07:19:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-27 14:18:49.906958
- Title: ArzEn-LLM: Code-Switched Egyptian Arabic-English Translation and Speech Recognition Using LLMs
- Title(参考訳): ArzEn-LLM:LLMを用いたコード変換エジプト英語翻訳と音声認識
- Authors: Ahmed Heakl, Youssef Zaghloul, Mennatullah Ali, Rania Hossam, Walid Gomaa,
- Abstract要約: 本稿では,機械翻訳(MT)と自動音声認識(ASR)システムの複雑さについて検討する。
我々は、コード変更されたエジプトのアラビア語を英語またはエジプトのアラビア語に翻訳することに重点を置いている。
本稿では,LLama や Gemma などの大規模言語モデルを用いて,これらのシステムの開発に使用される手法を提案する。
- 参考スコア(独自算出の注目度): 1.6381055567716192
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Motivated by the widespread increase in the phenomenon of code-switching between Egyptian Arabic and English in recent times, this paper explores the intricacies of machine translation (MT) and automatic speech recognition (ASR) systems, focusing on translating code-switched Egyptian Arabic-English to either English or Egyptian Arabic. Our goal is to present the methodologies employed in developing these systems, utilizing large language models such as LLama and Gemma. In the field of ASR, we explore the utilization of the Whisper model for code-switched Egyptian Arabic recognition, detailing our experimental procedures including data preprocessing and training techniques. Through the implementation of a consecutive speech-to-text translation system that integrates ASR with MT, we aim to overcome challenges posed by limited resources and the unique characteristics of the Egyptian Arabic dialect. Evaluation against established metrics showcases promising results, with our methodologies yielding a significant improvement of $56\%$ in English translation over the state-of-the-art and $9.3\%$ in Arabic translation. Since code-switching is deeply inherent in spoken languages, it is crucial that ASR systems can effectively handle this phenomenon. This capability is crucial for enabling seamless interaction in various domains, including business negotiations, cultural exchanges, and academic discourse. Our models and code are available as open-source resources. Code: \url{http://github.com/ahmedheakl/arazn-llm}}, Models: \url{http://huggingface.co/collections/ahmedheakl/arazn-llm-662ceaf12777656607b9524e}.
- Abstract(参考訳): 近年のエジプト・アラビア語と英語のコードスイッチング現象の広範化にともなって、機械翻訳(MT)と自動音声認識(ASR)システムの複雑さを探求し、コードスイッチしたエジプト・アラビア語を英語またはエジプト・アラビア語に翻訳することに焦点を当てた。
本研究の目的は,LLama や Gemma などの大規模言語モデルを用いて,これらのシステム開発に使用される方法論を提示することである。
ASR の分野では,Whisper モデルをコード変更によるエジプトのアラビア語認識に利用し,データ前処理やトレーニング技術を含む実験手順を詳述する。
ASRをMTと統合した連続的な音声テキスト翻訳システムの実装を通じて、限られた資源とエジプト・アラビア方言の特徴によって生じる課題を克服することを目指している。
確立された指標に対する評価は有望な結果を示し、我々の手法は、最先端の英語翻訳に対して56\%、アラビア語翻訳では9.3\%の大幅な改善をもたらす。
コードスイッチングは音声言語に深く依存しているため、ASRシステムはこの現象を効果的に扱えることが重要である。
この能力は、ビジネス交渉、文化交流、学術談話など、様々な分野におけるシームレスな対話を可能にするために不可欠である。
私たちのモデルとコードはオープンソースリソースとして利用できます。
コード: \url{http://github.com/ahmedheakl/arazn-llm}}, Models: \url{http://huggingface.co/collections/ahmedheakl/arazn-llm-662ceaf12777656607b9524e}
関連論文リスト
- CoSTA: Code-Switched Speech Translation using Aligned Speech-Text Interleaving [61.73180469072787]
インド語から英語のテキストへのコード変更音声の音声翻訳(ST)の問題に焦点をあてる。
本稿では、事前訓練された自動音声認識(ASR)と機械翻訳(MT)モジュールを足場として、新しいエンドツーエンドモデルアーキテクチャCOSTAを提案する。
COSTAは、多くの競合するカスケードおよびエンドツーエンドのマルチモーダルベースラインを3.5BLEUポイントまで上回っている。
論文 参考訳(メタデータ) (2024-06-16T16:10:51Z) - OSN-MDAD: Machine Translation Dataset for Arabic Multi-Dialectal
Conversations on Online Social Media [5.2957928879391]
本稿では,英語のつぶやきを4つのアラビア方言に文脈的に翻訳することで構築した,オンラインソーシャルネットワークに基づく多言語アラビア語データセットを提案する。
その結果,我々のデータセットを用いてトレーニングしたニューラルMTモデルの優れた性能を示した。
論文 参考訳(メタデータ) (2023-09-21T14:58:50Z) - AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。
目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文 参考訳(メタデータ) (2023-09-21T13:20:13Z) - On decoder-only architecture for speech-to-text and large language model
integration [59.49886892602309]
Speech-LLaMAは、音声情報をテキストベースの大規模言語モデルに効果的に組み込む新しいアプローチである。
我々は多言語音声からテキストへの翻訳タスクの実験を行い、強いベースラインよりも大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2023-07-08T06:47:58Z) - Beyond Arabic: Software for Perso-Arabic Script Manipulation [67.31374614549237]
ペルソ・アラビア文字を使用する言語の書き起こしシステムを操作するための有限状態トランスデューサ(FST)コンポーネントとそれに対応するユーティリティのセットを提供する。
ライブラリはまた、単純なFSTベースのロマン化と文字変換も提供する。
論文 参考訳(メタデータ) (2023-01-26T20:37:03Z) - End-to-End Speech Translation of Arabic to English Broadcast News [2.375764121997739]
音声翻訳(英: speech translation, ST)とは、ソース言語の音声信号を外国語のテキストに翻訳する作業である。
本稿では,最初のアラビア語から英語への翻訳システムであるブロードキャストニュースの開発に向けた取り組みについて述べる。
論文 参考訳(メタデータ) (2022-12-11T11:35:46Z) - LAE: Language-Aware Encoder for Monolingual and Multilingual ASR [87.74794847245536]
言語固有の情報を混在させることにより,両状況に対処する新しい言語対応エンコーダ (LAE) アーキテクチャを提案する。
マンダリン・イングリッシュ・コードスウィッチ音声を用いた実験により,LAEはフレームレベルで異なる言語を識別できることが示唆された。
論文 参考訳(メタデータ) (2022-06-05T04:03:12Z) - Arabic Code-Switching Speech Recognition using Monolingual Data [13.513655231184261]
自動音声認識(ASR)におけるコードスイッチングは,グローバル化による重要な課題である。
最近の多言語ASRの研究は、モノリンガルシステムに対する潜在的な改善を示している。
我々は,大規模ASR実験を通じて,ASRの多言語モデリングに関連する重要な課題について検討した。
論文 参考訳(メタデータ) (2021-07-04T08:40:49Z) - Towards One Model to Rule All: Multilingual Strategy for Dialectal
Code-Switching Arabic ASR [11.363966269198064]
自己アテンションに基づくコンストラクタアーキテクチャを用いて,多言語対応の大規模ASRを設計する。
我々はアラビア語(Ar)、英語(En)、フランス語(Fr)を用いてシステムを訓練した。
以上の結果から,最先端のモノリンガル方言アラビア語およびコードスイッチングアラビアASRよりも優れた結果が得られた。
論文 参考訳(メタデータ) (2021-05-31T08:20:38Z) - Meta-Transfer Learning for Code-Switched Speech Recognition [72.84247387728999]
低リソース環境下でのコード切替音声認識システムにおける学習を伝達するメタトランスファー学習法を提案する。
本モデルでは,コードスイッチングデータに最適化を条件付けることにより,個々の言語を識別し,混合言語音声をよりよく認識できるように変換する。
論文 参考訳(メタデータ) (2020-04-29T14:27:19Z) - TArC: Incrementally and Semi-Automatically Collecting a Tunisian Arabish
Corpus [3.8580784887142774]
本稿では,第1次チュニジア・アラブ人コーパス(TArC)の構成過程について述べる。
アラビア語(アラビア語: Arabizi)は、アラビア語の方言をラテン文字とアリスモグラフ(文字として使われる数字)で自発的に符号化したものである。
論文 参考訳(メタデータ) (2020-03-20T22:29:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。