Fugu-MT 論文翻訳(概要): ArzEn-LLM: Code-Switched Egyptian Arabic-English Translation and Speech Recognition Using LLMs

論文の概要: ArzEn-LLM: Code-Switched Egyptian Arabic-English Translation and Speech Recognition Using LLMs

arxiv url: http://arxiv.org/abs/2406.18120v1
Date: Wed, 26 Jun 2024 07:19:51 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-27 14:18:49.906958
Title: ArzEn-LLM: Code-Switched Egyptian Arabic-English Translation and Speech Recognition Using LLMs
Title（参考訳）: ArzEn-LLM:LLMを用いたコード変換エジプト英語翻訳と音声認識
Authors: Ahmed Heakl, Youssef Zaghloul, Mennatullah Ali, Rania Hossam, Walid Gomaa,
Abstract要約: 本稿では,機械翻訳(MT)と自動音声認識(ASR)システムの複雑さについて検討する。我々は、コード変更されたエジプトのアラビア語を英語またはエジプトのアラビア語に翻訳することに重点を置いている。本稿では,LLama や Gemma などの大規模言語モデルを用いて,これらのシステムの開発に使用される手法を提案する。
参考スコア（独自算出の注目度）: 1.6381055567716192
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Motivated by the widespread increase in the phenomenon of code-switching between Egyptian Arabic and English in recent times, this paper explores the intricacies of machine translation (MT) and automatic speech recognition (ASR) systems, focusing on translating code-switched Egyptian Arabic-English to either English or Egyptian Arabic. Our goal is to present the methodologies employed in developing these systems, utilizing large language models such as LLama and Gemma. In the field of ASR, we explore the utilization of the Whisper model for code-switched Egyptian Arabic recognition, detailing our experimental procedures including data preprocessing and training techniques. Through the implementation of a consecutive speech-to-text translation system that integrates ASR with MT, we aim to overcome challenges posed by limited resources and the unique characteristics of the Egyptian Arabic dialect. Evaluation against established metrics showcases promising results, with our methodologies yielding a significant improvement of $56\%$ in English translation over the state-of-the-art and $9.3\%$ in Arabic translation. Since code-switching is deeply inherent in spoken languages, it is crucial that ASR systems can effectively handle this phenomenon. This capability is crucial for enabling seamless interaction in various domains, including business negotiations, cultural exchanges, and academic discourse. Our models and code are available as open-source resources. Code: \url{http://github.com/ahmedheakl/arazn-llm}}, Models: \url{http://huggingface.co/collections/ahmedheakl/arazn-llm-662ceaf12777656607b9524e}.
Abstract（参考訳）: 近年のエジプト・アラビア語と英語のコードスイッチング現象の広範化にともなって、機械翻訳(MT)と自動音声認識(ASR)システムの複雑さを探求し、コードスイッチしたエジプト・アラビア語を英語またはエジプト・アラビア語に翻訳することに焦点を当てた。本研究の目的は,LLama や Gemma などの大規模言語モデルを用いて,これらのシステム開発に使用される方法論を提示することである。 ASR の分野では,Whisper モデルをコード変更によるエジプトのアラビア語認識に利用し,データ前処理やトレーニング技術を含む実験手順を詳述する。 ASRをMTと統合した連続的な音声テキスト翻訳システムの実装を通じて、限られた資源とエジプト・アラビア方言の特徴によって生じる課題を克服することを目指している。確立された指標に対する評価は有望な結果を示し、我々の手法は、最先端の英語翻訳に対して56\%、アラビア語翻訳では9.3\%の大幅な改善をもたらす。コードスイッチングは音声言語に深く依存しているため、ASRシステムはこの現象を効果的に扱えることが重要である。この能力は、ビジネス交渉、文化交流、学術談話など、様々な分野におけるシームレスな対話を可能にするために不可欠である。私たちのモデルとコードはオープンソースリソースとして利用できます。コード: \url{http://github.com/ahmedheakl/arazn-llm}}, Models: \url{http://huggingface.co/collections/ahmedheakl/arazn-llm-662ceaf12777656607b9524e}

関連論文リスト

dziribot: rag based intelligent conversational agent for algerian arabic dialect [0.0]
本稿では,これらの課題を克服するために特別に設計された対話型ハイブリッドエージェントDziriBOTを紹介する。特殊自然言語理解(NLU)と検索拡張生成(RAG)を統合した多層アーキテクチャを提案する。実験により,DziriBERTモデルが最先端性能を実現することを示す。
論文参考訳（メタデータ） (2026-02-02T16:11:32Z)
MuDRiC: Multi-Dialect Reasoning for Arabic Commonsense Validation [30.670712065855902]
複数の方言を組み込んだ拡張アラビア・コモンセンスデータセットである MuDRiC を導入し,(ii) アラビア・コモンセンス推論にグラフ畳み込みネットワーク(GCN)を適応させる新しい手法を提案する。我々の研究は、その複雑なバリエーションを扱うための基礎的データセットと新しい方法の両方を提供することで、アラビア語の自然言語理解を強化する。
論文参考訳（メタデータ） (2025-08-18T17:42:53Z)
Enhanced Arabic Text Retrieval with Attentive Relevance Scoring [12.053940320312355]
アラビア語は自然言語処理と情報検索に特に挑戦している。アラビア語の国際的重要性は高まっているが、NLPの研究やベンチマークの資源では未だに不足している。本稿ではアラビア語に特化した拡張されたDense Passage Retrievalフレームワークを提案する。
論文参考訳（メタデータ） (2025-07-31T10:18:28Z)
Advancing Arabic Reverse Dictionary Systems: A Transformer-Based Approach with Dataset Construction Guidelines [0.8944616102795021]
本研究では,アラビア語の自然言語処理における限界を,効果的なアラビア語逆辞書(RD)システムによって解決する。幾何学的に減少する層を特徴とするセミエンコーダニューラルネットワークアーキテクチャを用いたトランスフォーマーに基づく新しいアプローチを提案する。本手法は、包括的なデータセット構築プロセスを導入し、アラビア辞書定義の形式的品質基準を確立する。
論文参考訳（メタデータ） (2025-04-30T09:56:36Z)
Second Language (Arabic) Acquisition of LLMs via Progressive Vocabulary Expansion [55.27025066199226]
本稿では,アラブ世界における大規模言語モデル(LLM)の民主化の必要性に対処する。アラビア語のLLMの実用的な目的の1つは、復号を高速化するトークン化器にアラビア語固有の語彙を使用することである。第二言語(アラビア語)による人への獲得の間に語彙学習に触発されたAraLLaMAは、進歩的な語彙拡張を採用している。
論文参考訳（メタデータ） (2024-12-16T19:29:06Z)
Advanced Arabic Alphabet Sign Language Recognition Using Transfer Learning and Transformer Models [0.0]
本稿では、トランスファー学習とトランスフォーマーモデルを組み合わせたディープラーニング手法を用いて、アラビア語 Alphabet Sign Language 認識手法を提案する。本稿では,ArSL2018 と AASL の2つの公開データセット上で,異なる変種の性能について検討する。実験の結果、提案手法は、ArSL2018とAASLでそれぞれ99.6%、99.43%の精度で高い精度を得られることが示されている。
論文参考訳（メタデータ） (2024-10-01T13:39:26Z)
SCOPE: Sign Language Contextual Processing with Embedding from LLMs [49.5629738637893]
世界中の約7000万人の聴覚障害者が使用する手話は、視覚的および文脈的な情報を伝える視覚言語である。視覚に基づく手話認識(SLR)と翻訳(SLT)の現在の手法は、限られたデータセットの多様性と文脈に関連のある情報の無視により、対話シーンに苦慮している。 SCOPEは、コンテキスト認識型ビジョンベースSLRおよびSLTフレームワークである。
論文参考訳（メタデータ） (2024-09-02T08:56:12Z)
Exploring Retrieval Augmented Generation in Arabic [0.0]
Retrieval Augmented Generation (RAG) は自然言語処理において強力な技術である。本稿ではアラビア文字に対するRAGの実装と評価について事例研究を行う。
論文参考訳（メタデータ） (2024-08-14T10:03:28Z)
ATHAR: A High-Quality and Diverse Dataset for Classical Arabic to English Translation [1.8109081066789847]
古典アラビア語は重要な時代であり、アラブ文化、哲学、科学文学の黄金時代を包含している。我々は古典アラビア語の翻訳データセットが不足していることを特定し、スコープやトピックに制限されることが多い。 ATHARデータセットは66,000の高品質のアラビア語から英語への翻訳サンプルからなる。
論文参考訳（メタデータ） (2024-07-29T09:45:34Z)
CoSTA: Code-Switched Speech Translation using Aligned Speech-Text Interleaving [61.73180469072787]
インド語から英語のテキストへのコード変更音声の音声翻訳(ST)の問題に焦点をあてる。本稿では、事前訓練された自動音声認識(ASR)と機械翻訳(MT)モジュールを足場として、新しいエンドツーエンドモデルアーキテクチャCOSTAを提案する。 COSTAは、多くの競合するカスケードおよびエンドツーエンドのマルチモーダルベースラインを3.5BLEUポイントまで上回っている。
論文参考訳（メタデータ） (2024-06-16T16:10:51Z)
OSN-MDAD: Machine Translation Dataset for Arabic Multi-Dialectal Conversations on Online Social Media [5.2957928879391]
本稿では,英語のつぶやきを4つのアラビア方言に文脈的に翻訳することで構築した,オンラインソーシャルネットワークに基づく多言語アラビア語データセットを提案する。その結果,我々のデータセットを用いてトレーニングしたニューラルMTモデルの優れた性能を示した。
論文参考訳（メタデータ） (2023-09-21T14:58:50Z)
AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文参考訳（メタデータ） (2023-09-21T13:20:13Z)
On decoder-only architecture for speech-to-text and large language model integration [59.49886892602309]
Speech-LLaMAは、音声情報をテキストベースの大規模言語モデルに効果的に組み込む新しいアプローチである。我々は多言語音声からテキストへの翻訳タスクの実験を行い、強いベースラインよりも大幅に改善されたことを示す。
論文参考訳（メタデータ） (2023-07-08T06:47:58Z)
Beyond Arabic: Software for Perso-Arabic Script Manipulation [67.31374614549237]
ペルソ・アラビア文字を使用する言語の書き起こしシステムを操作するための有限状態トランスデューサ(FST)コンポーネントとそれに対応するユーティリティのセットを提供する。ライブラリはまた、単純なFSTベースのロマン化と文字変換も提供する。
論文参考訳（メタデータ） (2023-01-26T20:37:03Z)
LAE: Language-Aware Encoder for Monolingual and Multilingual ASR [87.74794847245536]
言語固有の情報を混在させることにより,両状況に対処する新しい言語対応エンコーダ (LAE) アーキテクチャを提案する。マンダリン・イングリッシュ・コードスウィッチ音声を用いた実験により,LAEはフレームレベルで異なる言語を識別できることが示唆された。
論文参考訳（メタデータ） (2022-06-05T04:03:12Z)
Towards One Model to Rule All: Multilingual Strategy for Dialectal Code-Switching Arabic ASR [11.363966269198064]
自己アテンションに基づくコンストラクタアーキテクチャを用いて,多言語対応の大規模ASRを設計する。我々はアラビア語(Ar)、英語(En)、フランス語(Fr)を用いてシステムを訓練した。以上の結果から,最先端のモノリンガル方言アラビア語およびコードスイッチングアラビアASRよりも優れた結果が得られた。
論文参考訳（メタデータ） (2021-05-31T08:20:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。