論文の概要: How Well Do LLMs Understand Tunisian Arabic?
- arxiv url: http://arxiv.org/abs/2511.16683v1
- Date: Wed, 12 Nov 2025 15:23:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-07 19:06:32.220324
- Title: How Well Do LLMs Understand Tunisian Arabic?
- Title(参考訳): LLMはいかにチュニジアのアラビア語を理解するか?
- Authors: Mohamed Mahdi,
- Abstract要約: 大規模言語モデル(LLM)は、今日のAIエージェントを駆動するエンジンである。
しかし、チュニジア語のような低資源言語を理解できる産業規模のLLMの能力はしばしば見過ごされている。
このことは、何百万人ものチュニジア人が自分の言語でAIと完全に対話することを排除し、フランス語や英語に圧力をかけるリスクを無視する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large Language Models (LLMs) are the engines driving today's AI agents. The better these models understand human languages, the more natural and user-friendly the interaction with AI becomes, from everyday devices like computers and smartwatches to any tool that can act intelligently. Yet, the ability of industrial-scale LLMs to comprehend low-resource languages, such as Tunisian Arabic (Tunizi), is often overlooked. This neglect risks excluding millions of Tunisians from fully interacting with AI in their own language, pushing them toward French or English. Such a shift not only threatens the preservation of the Tunisian dialect but may also create challenges for literacy and influence younger generations to favor foreign languages. In this study, we introduce a novel dataset containing parallel Tunizi, standard Tunisian Arabic, and English translations, along with sentiment labels. We benchmark several popular LLMs on three tasks: transliteration, translation, and sentiment analysis. Our results reveal significant differences between models, highlighting both their strengths and limitations in understanding and processing Tunisian dialects. By quantifying these gaps, this work underscores the importance of including low-resource languages in the next generation of AI systems, ensuring technology remains accessible, inclusive, and culturally grounded.
- Abstract(参考訳): 大規模言語モデル(LLM)は、今日のAIエージェントを駆動するエンジンである。
これらのモデルが人間の言語を理解するほど、コンピューターやスマートウォッチのような日常的なデバイスから、インテリジェントに動作可能なツールまで、AIとの対話がより自然でユーザーフレンドリになる。
しかし、チュニジア・アラビア語(トゥニツィ語)のような低資源言語を理解するための産業規模のLLMの能力はしばしば見過ごされている。
このことは、何百万人ものチュニジア人が自分の言語でAIと完全に対話することを排除し、フランス語や英語に圧力をかけるリスクを無視する。
このような変化はチュニジア方言の保存を脅かすだけでなく、リテラシーの課題を生じさせ、若い世代に外国語を好ませる可能性がある。
本研究では,チュニジア語,標準チュニジア語,英語の翻訳と感情ラベルを併用した新しいデータセットを提案する。
我々は、音訳、翻訳、感情分析の3つのタスクについて、いくつかの人気のあるLCMをベンチマークする。
以上の結果から,チュニジア方言の理解と処理における長所と短所の両方が明らかとなった。
これらのギャップを定量化することにより、この研究は、次世代AIシステムに低リソース言語を含めることの重要性を強調し、テクノロジーがアクセスしやすく、包括的で、文化的基盤を保ち続けることを保証する。
関連論文リスト
- The Landscape of Arabic Large Language Models (ALLMs): A New Era for Arabic Language Technology [12.32863495152587]
アラビア世界は、アラビア語固有の大規模言語モデルを開発する上で、異なる課題に直面している。
本稿では、ALMの発端から現在までの軌跡について考察する。
また、アラブ世界におけるALLMの課題と機会についても論じる。
論文 参考訳(メタデータ) (2025-06-02T05:45:19Z) - Generative AI, Pragmatics, and Authenticity in Second Language Learning [0.0]
生成的AI(Artificial Intelligence)を言語学習と教育に統合する上で、明らかなメリットがある。
しかし、AIシステムが人間の言語に耐える方法のため、人間と同じ社会的認識を持つ言語を使えるような、生きた経験が欠けている。
言語や文化のバイアスは、そのトレーニングデータに基づいて構築されており、主に英語であり、主に西洋の情報源から来ている。
論文 参考訳(メタデータ) (2024-10-18T11:58:03Z) - SeaLLMs 3: Open Foundation and Chat Multilingual Large Language Models for Southeast Asian Languages [77.75535024869224]
東南アジアの言語に合わせたSeaLLMsモデルファミリーの最新版SeaLLMs 3を紹介します。
SeaLLMs 3は、英語、中国語、インドネシア語、ベトナム語、タイ語、タガログ語、マレー語、ビルマ語、クメール語、ラオス語、タミル語、ジャワ語など、この地域で話される言語全般をカバーすることで、このギャップを埋めることを目指している。
我々のモデルは、世界的知識、数学的推論、翻訳、命令の追従といったタスクに優れており、同様の大きさのモデルで最先端の性能を達成する。
論文 参考訳(メタデータ) (2024-07-29T03:26:22Z) - How do Large Language Models Handle Multilingualism? [81.15060972112563]
本研究では,大規模言語モデル(LLM)が多言語モデルをどのように扱うかを検討する。
LLMはまずクエリを理解し、タスク解決のために多言語入力を英語に変換する。
中間層では、英語を思考に用い、自己意識とフィードフォワード構造を持つ多言語知識を取り入れている。
論文 参考訳(メタデータ) (2024-02-29T02:55:26Z) - Arabic Sentiment Analysis with Noisy Deep Explainable Model [48.22321420680046]
本稿では,アラビア語の感情分類フレームワークを提案する。
提案フレームワークは,局所的な代理説明可能なモデルをトレーニングすることで,特定の予測を説明することができる。
アラビアサデータセットの公開ベンチマーク実験を行った。
論文 参考訳(メタデータ) (2023-09-24T19:26:53Z) - AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。
目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文 参考訳(メタデータ) (2023-09-21T13:20:13Z) - Neural Machine Translation for the Indigenous Languages of the Americas:
An Introduction [102.13536517783837]
アメリカ大陸のほとんどの言語は、もしあるならば、並列データと単言語データしか持たない。
これらの言語におけるNLPコミュニティの関心が高まった結果、最近の進歩、発見、オープンな質問について論じる。
論文 参考訳(メタデータ) (2023-06-11T23:27:47Z) - Understanding Natural Language Understanding Systems. A Critical
Analysis [91.81211519327161]
自然言語理解システム(Natural Language Understanding (NLU) system)としても知られる usguillemotright(英語版) のようなギユモトレフトークを持つ機械の開発は、人工知能の聖杯(英語版) (AI) である。
しかし、Gillemottalking machineguillemotrightを構築することができるという信頼は、次世代のNLUシステムによってもたらされたものよりも強かった。
私たちは新しい時代の夜明けに、ついに砂利が我々に近づいたのか?
論文 参考訳(メタデータ) (2023-03-01T08:32:55Z) - TEET! Tunisian Dataset for Toxic Speech Detection [0.0]
チュニジア方言は、MSA、タマジット、イタリア語、フランス語など、他の多くの言語と組み合わせられている。
リッチな言語であるため、大規模な注釈付きデータセットが欠如しているため、NLP問題への対処は困難である。
本稿では,約10kのコメントからなる注釈付きデータセットを提案する。
論文 参考訳(メタデータ) (2021-10-11T14:00:08Z) - A Panoramic Survey of Natural Language Processing in the Arab World [12.064637486695485]
自然言語(英: natural language)とは、意図的な人間の計画や設計を伴わない、象徴的なコミュニケーション(書面、署名、書面)のシステムを指す用語である。
自然言語処理(NLP)は、音声認識や合成、機械翻訳、光学文字認識(OCR)、感情分析(SA)、質問応答、対話システムなどの応用を構築するために自然言語をモデル化することに焦点を当てた人工知能(AI)のサブフィールドである。
論文 参考訳(メタデータ) (2020-11-25T10:45:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。