論文の概要: Arabizi vs LLMs: Can the Genie Understand the Language of Aladdin?
- arxiv url: http://arxiv.org/abs/2502.20973v1
- Date: Fri, 28 Feb 2025 11:37:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-03 13:42:29.441991
- Title: Arabizi vs LLMs: Can the Genie Understand the Language of Aladdin?
- Title(参考訳): アラジ語対LLM: ジェニー語はアラジン語を理解することができるか?
- Authors: Perla Al Almaoui, Pierrette Bouillon, Simon Hengchen,
- Abstract要約: アラビジはラテン文字と数字を含むアラビア語のハイブリッド形である。
機械翻訳には形式的な構造が欠如しているため、大きな課題がある。
本研究は、アラビジ語を現代標準アラビア語と英語の両方に翻訳する際のモデルの性能について検討する。
- 参考スコア(独自算出の注目度): 0.4751886527142778
- License:
- Abstract: In this era of rapid technological advancements, communication continues to evolve as new linguistic phenomena emerge. Among these is Arabizi, a hybrid form of Arabic that incorporates Latin characters and numbers to represent the spoken dialects of Arab communities. Arabizi is widely used on social media and allows people to communicate in an informal and dynamic way, but it poses significant challenges for machine translation due to its lack of formal structure and deeply embedded cultural nuances. This case study arises from a growing need to translate Arabizi for gisting purposes. It evaluates the capacity of different LLMs to decode and translate Arabizi, focusing on multiple Arabic dialects that have rarely been studied up until now. Using a combination of human evaluators and automatic metrics, this research project investigates the model's performance in translating Arabizi into both Modern Standard Arabic and English. Key questions explored include which dialects are translated most effectively and whether translations into English surpass those into Arabic.
- Abstract(参考訳): 急速な技術進歩の時代には、新たな言語現象が出現するにつれて、コミュニケーションは進化し続けている。
アラビジ語はアラビア語の混成形であり、ラテン文字と数字をアラビア語の方言を表すために用いている。
アラビジはソーシャルメディアで広く使われており、非公式でダイナミックなコミュニケーションが可能であるが、形式的な構造が欠如し、文化的ニュアンスが深く埋め込まれているため、機械翻訳にとって大きな課題となっている。
このケーススタディは、ジャムの目的のためにアラビジ語を翻訳する必要性が高まっていることから生じる。
アラビジ語を解読し翻訳する様々なLLMの能力を評価しており、これまではほとんど研究されなかった複数のアラビア方言に焦点を当てている。
本研究は,ヒト評価器と自動測定器の組み合わせを用いて,アラビジ語を現代標準アラビア語と英語に翻訳する際のモデルの性能について検討する。
主な疑問は、どの方言が最も効果的に翻訳されるか、英語への翻訳がアラビア語への翻訳を上回っているかである。
関連論文リスト
- AIN: The Arabic INclusive Large Multimodal Model [71.29419186696138]
AIN (英語: AIN) は、英語とアラビア語で卓越するように設計された英語とアラビア語のバイリンガルLMMである。
AINは最先端のアラビア語のパフォーマンスを実証する一方で、英語の視覚能力も優れている。
AINの優れた能力は、先進的なマルチモーダル生成AIツールでアラビア語話者を強化するための重要なステップである。
論文 参考訳(メタデータ) (2025-01-31T18:58:20Z) - A Survey of Code-switched Arabic NLP: Progress, Challenges, and Future Directions [33.45834558604992]
我々は、コードスイッチされたアラビア語NLPの分野における現在の文献についてレビューする。
地域全体でのコードスイッチングが広まっており、言語技術を開発する際には、これらの言語的ニーズに対処することが不可欠である。
論文 参考訳(メタデータ) (2025-01-23T06:46:23Z) - On The Origin of Cultural Biases in Language Models: From Pre-training Data to Linguistic Phenomena [10.263201685476492]
本稿では,言語モデル(LM)におけるエンティティ関連文化バイアスの起源を明らかにすることを目的とする。
アラビア文化や西洋文化に関連する58,086のエンティティと367の自然文脈をマスキングしたエンティティのアラビア・英語の並列ベンチマークであるCAMeL-2を紹介する。
CAMeL-2を用いた評価では、アラビア語と比較して英語で試験すると、LMによる文化間のパフォーマンスギャップが減少することがわかった。
論文 参考訳(メタデータ) (2025-01-08T18:15:47Z) - Second Language (Arabic) Acquisition of LLMs via Progressive Vocabulary Expansion [55.27025066199226]
本稿では,アラブ世界における大規模言語モデル(LLM)の民主化の必要性に対処する。
アラビア語のLLMの実用的な目的の1つは、復号を高速化するトークン化器にアラビア語固有の語彙を使用することである。
第二言語(アラビア語)による人への獲得の間に語彙学習に触発されたAraLLaMAは、進歩的な語彙拡張を採用している。
論文 参考訳(メタデータ) (2024-12-16T19:29:06Z) - AraDiCE: Benchmarks for Dialectal and Cultural Capabilities in LLMs [22.121471902726892]
本稿ではアラビア方言と文化評価のベンチマークであるAraDiCEを紹介する。
湾岸地域、エジプト地域、レバント地域の文化意識を評価するために設計された最初のきめ細かいベンチマーク。
論文 参考訳(メタデータ) (2024-09-17T17:59:25Z) - ALLaM: Large Language Models for Arabic and English [9.881560166505452]
アラビア語技術(ALT)のエコシステムを支える一連の大規模言語モデルであるアラビア大言語モデル(ALaM: Arabic Large Language Model)を提示する。
我々の自己回帰デコーダのみのアーキテクチャモデルは、語彙拡張と事前訓練による第二言語習得が、原語(英語)で破滅的な忘れをすることなく、新しい言語(アラビア語)へのモデルを操る方法を示している。
人間の嗜好と広範囲なアライメントは,品質アライメントの低い大規模モデルと比較して言語モデルの性能を著しく向上させることができることを示す。
論文 参考訳(メタデータ) (2024-07-22T05:35:17Z) - Bilingual Adaptation of Monolingual Foundation Models [48.859227944759986]
単言語大言語モデル(LLM)を他の言語に適応させる効率的な手法を提案する。
2段階のアプローチは、語彙を拡張し、埋め込み行列のみをトレーニングすることから始まります。
アラビア語と英語のコーパスを混ぜて継続的に事前訓練することで、このモデルは英語の習熟度を維持しつつ、アラビア語の能力を獲得している。
論文 参考訳(メタデータ) (2024-07-13T21:09:38Z) - ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic [51.922112625469836]
アラビア語における最初のマルチタスク言語理解ベンチマークである、データセット名を提案する。
我々のデータは、現代標準アラビア語(MSA)における40のタスクと14,575のマルチチョイス質問で構成されており、地域の母語話者と協調して慎重に構築されている。
35モデルについて評価した結果,特にオープンソースモデルにおいて,改善の余地がかなり高いことが判明した。
論文 参考訳(メタデータ) (2024-02-20T09:07:41Z) - AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。
目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文 参考訳(メタデータ) (2023-09-21T13:20:13Z) - Beyond Arabic: Software for Perso-Arabic Script Manipulation [67.31374614549237]
ペルソ・アラビア文字を使用する言語の書き起こしシステムを操作するための有限状態トランスデューサ(FST)コンポーネントとそれに対応するユーティリティのセットを提供する。
ライブラリはまた、単純なFSTベースのロマン化と文字変換も提供する。
論文 参考訳(メタデータ) (2023-01-26T20:37:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。