論文の概要: Camelira: An Arabic Multi-Dialect Morphological Disambiguator
- arxiv url: http://arxiv.org/abs/2211.16807v1
- Date: Wed, 30 Nov 2022 08:02:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 16:50:51.012652
- Title: Camelira: An Arabic Multi-Dialect Morphological Disambiguator
- Title(参考訳): Camelira: アラビア語の多次元形態的曖昧さ
- Authors: Ossama Obeid, Go Inoue, Nizar Habash
- Abstract要約: カメリラ (Camelira) は、アラビア語の多言語形態的曖昧化ツールである。
アラビア語の現代標準アラビア語、エジプト語、ガルフ語、レバンタ語という4つの変種をカバーしている。
Cameliraは、研究者や言語学習者が様々な言語情報を調べることができる、ユーザフレンドリーなWebインターフェースを提供する。
- 参考スコア(独自算出の注目度): 12.3044949125913
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Camelira, a web-based Arabic multi-dialect morphological
disambiguation tool that covers four major variants of Arabic: Modern Standard
Arabic, Egyptian, Gulf, and Levantine. Camelira offers a user-friendly web
interface that allows researchers and language learners to explore various
linguistic information, such as part-of-speech, morphological features, and
lemmas. Our system also provides an option to automatically choose an
appropriate dialect-specific disambiguator based on the prediction of a dialect
identification component. Camelira is publicly accessible at
http://camelira.camel-lab.com.
- Abstract(参考訳): 現代標準アラビア語、エジプト語、メキシコ湾、レバンティンの4つの主要な変種をカバーする、webベースのアラビア語のマルチダイアレクト形態素曖昧化ツールであるcamliraについて紹介する。
Cameliraは、研究者や言語学習者が音声の一部、形態的特徴、レムマなど様々な言語情報を探索できる、ユーザフレンドリーなWebインターフェースを提供する。
本システムでは,方言識別成分の予測に基づいて,適切な方言固有の曖昧さを自動選択するオプションも提供する。
Cameliraはhttp://camelira.camel-lab.comで公開されている。
関連論文リスト
- A Novel Dialect-Aware Framework for the Classification of Arabic Dialects and Emotions [0.0]
アラビア語における感情検出の現在の研究は、異なる方言で感情がどのように表現されるかについての認識を欠いている。
この研究は、与えられたテキストからアラビア語の方言や感情を識別し、予測できる新しいフレームワークを構築する。
アラビア方言の分類では88.9%の精度を達成し、最先端の結果を6.45ポイント上回った。
論文 参考訳(メタデータ) (2025-02-13T10:05:44Z) - A Survey of Code-switched Arabic NLP: Progress, Challenges, and Future Directions [33.45834558604992]
我々は、コードスイッチされたアラビア語NLPの分野における現在の文献についてレビューする。
地域全体でのコードスイッチングが広まっており、言語技術を開発する際には、これらの言語的ニーズに対処することが不可欠である。
論文 参考訳(メタデータ) (2025-01-23T06:46:23Z) - Second Language (Arabic) Acquisition of LLMs via Progressive Vocabulary Expansion [55.27025066199226]
本稿では,アラブ世界における大規模言語モデル(LLM)の民主化の必要性に対処する。
アラビア語のLLMの実用的な目的の1つは、復号を高速化するトークン化器にアラビア語固有の語彙を使用することである。
第二言語(アラビア語)による人への獲得の間に語彙学習に触発されたAraLLaMAは、進歩的な語彙拡張を採用している。
論文 参考訳(メタデータ) (2024-12-16T19:29:06Z) - Bilingual Adaptation of Monolingual Foundation Models [48.859227944759986]
単言語大言語モデル(LLM)を他の言語に適応させる効率的な手法を提案する。
2段階のアプローチは、語彙を拡張し、埋め込み行列のみをトレーニングすることから始まります。
アラビア語と英語のコーパスを混ぜて継続的に事前訓練することで、このモデルは英語の習熟度を維持しつつ、アラビア語の能力を獲得している。
論文 参考訳(メタデータ) (2024-07-13T21:09:38Z) - Exploiting Dialect Identification in Automatic Dialectal Text Normalization [9.320305816520422]
我々は、方言アラビア語を標準オーソグラフィー(CODA)に標準化することを目指している。
我々はCODAフィケーションのタスクに基づいて,新たに開発されたシーケンス・ツー・シーケンスのモデルをベンチマークした。
方言識別情報を使用することで,すべての方言のパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2024-07-03T11:30:03Z) - ZAEBUC-Spoken: A Multilingual Multidialectal Arabic-English Speech Corpus [8.96693684560691]
ZAEBUC-Spokenは多言語多言語対応アラビア語-英語音声コーパスである。
コーパスは自動音声認識(ASR)のための課題セットを提供する
我々は、既存の転写ガイドラインからインスピレーションを得て、会話音声、コードスイッチング、両方の言語の正書法といった問題を扱う一連のガイドラインを提示する。
論文 参考訳(メタデータ) (2024-03-27T01:19:23Z) - AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。
目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文 参考訳(メタデータ) (2023-09-21T13:20:13Z) - DADA: Dialect Adaptation via Dynamic Aggregation of Linguistic Rules [64.93179829965072]
DADAは、多言語対応のSAE訓練モデルに対するモジュラーアプローチである。
DADAは単一タスクと命令言語モデルの両方に有効であることを示す。
論文 参考訳(メタデータ) (2023-05-22T18:43:31Z) - Beyond Arabic: Software for Perso-Arabic Script Manipulation [67.31374614549237]
ペルソ・アラビア文字を使用する言語の書き起こしシステムを操作するための有限状態トランスデューサ(FST)コンポーネントとそれに対応するユーティリティのセットを提供する。
ライブラリはまた、単純なFSTベースのロマン化と文字変換も提供する。
論文 参考訳(メタデータ) (2023-01-26T20:37:03Z) - Automatic Arabic Dialect Identification Systems for Written Texts: A
Survey [0.0]
アラビア語の方言識別は自然言語処理の特定のタスクであり、与えられたテキストのアラビア語方言を自動的に予測することを目的としている。
本稿では,アラビア語の方言識別研究をテキストで包括的に調査する。
本稿では、従来の機械学習手法、ディープラーニングアーキテクチャ、アラビア方言識別のための複雑な学習アプローチについてレビューする。
論文 参考訳(メタデータ) (2020-09-26T15:33:16Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。