論文の概要: Camelira: An Arabic Multi-Dialect Morphological Disambiguator
- arxiv url: http://arxiv.org/abs/2211.16807v1
- Date: Wed, 30 Nov 2022 08:02:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 16:50:51.012652
- Title: Camelira: An Arabic Multi-Dialect Morphological Disambiguator
- Title(参考訳): Camelira: アラビア語の多次元形態的曖昧さ
- Authors: Ossama Obeid, Go Inoue, Nizar Habash
- Abstract要約: カメリラ (Camelira) は、アラビア語の多言語形態的曖昧化ツールである。
アラビア語の現代標準アラビア語、エジプト語、ガルフ語、レバンタ語という4つの変種をカバーしている。
Cameliraは、研究者や言語学習者が様々な言語情報を調べることができる、ユーザフレンドリーなWebインターフェースを提供する。
- 参考スコア(独自算出の注目度): 12.3044949125913
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Camelira, a web-based Arabic multi-dialect morphological
disambiguation tool that covers four major variants of Arabic: Modern Standard
Arabic, Egyptian, Gulf, and Levantine. Camelira offers a user-friendly web
interface that allows researchers and language learners to explore various
linguistic information, such as part-of-speech, morphological features, and
lemmas. Our system also provides an option to automatically choose an
appropriate dialect-specific disambiguator based on the prediction of a dialect
identification component. Camelira is publicly accessible at
http://camelira.camel-lab.com.
- Abstract(参考訳): 現代標準アラビア語、エジプト語、メキシコ湾、レバンティンの4つの主要な変種をカバーする、webベースのアラビア語のマルチダイアレクト形態素曖昧化ツールであるcamliraについて紹介する。
Cameliraは、研究者や言語学習者が音声の一部、形態的特徴、レムマなど様々な言語情報を探索できる、ユーザフレンドリーなWebインターフェースを提供する。
本システムでは,方言識別成分の予測に基づいて,適切な方言固有の曖昧さを自動選択するオプションも提供する。
Cameliraはhttp://camelira.camel-lab.comで公開されている。
関連論文リスト
- ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic [53.1913348687902]
アラビア語に対する最初のマルチタスク言語理解ベンチマークであるアラビアMMLUを提示する。
我々のデータは、現代標準アラビア語(MSA)における40のタスクと14,575の多重選択質問からなる。
35モデルについて評価した結果,特にオープンソースモデルにおいて,改善の余地がかなり高いことが判明した。
論文 参考訳(メタデータ) (2024-02-20T09:07:41Z) - ALDi: Quantifying the Arabic Level of Dialectness of Text [17.37857915257019]
我々は、アラビア語話者が方言のスペクトルを知覚し、文レベルでアラビア方言レベル(ALDi)として機能すると主張している。
AOC-ALDiの詳細な分析を行い、訓練したモデルが他のコーパスの方言のレベルを効果的に識別できることを示す。
論文 参考訳(メタデータ) (2023-10-20T18:07:39Z) - Jais and Jais-chat: Arabic-Centric Foundation and Instruction-Tuned Open
Generative Large Language Models [57.76998376458017]
私たちはJaisとJais-chatを紹介します。これは、最先端のアラビア中心の新たな基礎であり、命令で調整されたオープンな生成型大言語モデル(LLMs)です。
モデルはGPT-3デコーダのみのアーキテクチャに基づいており、アラビア語と英語のテキストが混在している。
本稿では、トレーニング、チューニング、安全性アライメント、モデルの評価について詳述する。
論文 参考訳(メタデータ) (2023-08-30T17:07:17Z) - DADA: Dialect Adaptation via Dynamic Aggregation of Linguistic Rules [64.93179829965072]
DADAは、多言語対応のSAE訓練モデルに対するモジュラーアプローチである。
DADAは単一タスクと命令言語モデルの両方に有効であることを示す。
論文 参考訳(メタデータ) (2023-05-22T18:43:31Z) - Beyond Arabic: Software for Perso-Arabic Script Manipulation [67.31374614549237]
ペルソ・アラビア文字を使用する言語の書き起こしシステムを操作するための有限状態トランスデューサ(FST)コンポーネントとそれに対応するユーティリティのセットを提供する。
ライブラリはまた、単純なFSTベースのロマン化と文字変換も提供する。
論文 参考訳(メタデータ) (2023-01-26T20:37:03Z) - Urdu Morphology, Orthography and Lexicon Extraction [0.0]
本稿では,Urdu言語の実装をソフトウェアAPIとして記述する。
我々は、正書法、形態学、辞書の抽出を扱う。
論文 参考訳(メタデータ) (2022-04-06T20:14:01Z) - Interpreting Arabic Transformer Models [18.98681439078424]
我々は、アラビア語の様々な種類に基づいて訓練された、アラビア語の事前訓練されたモデルにおいて、言語情報がどのように符号化されているかを探る。
MSA(現代の標準アラビア語)に基づく2つの形態的タグ付けタスクと、方言のPOSタグ付けタスクと、方言の識別タスクである。
論文 参考訳(メタデータ) (2022-01-19T06:32:25Z) - Joint Modeling of Code-Switched and Monolingual ASR via Conditional
Factorization [75.98664099579392]
本稿では,バイリンガル音声認識を構成するモノリンガルとコードスウィッチのサブタスクの可能性を共同でモデル化するための一般的な枠組みを提案する。
単言語およびコード切替コーパス間のバイリンガル・マンダリン・イングリッシュ音声認識における提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2021-11-29T23:14:54Z) - Automatic Arabic Dialect Identification Systems for Written Texts: A
Survey [0.0]
アラビア語の方言識別は自然言語処理の特定のタスクであり、与えられたテキストのアラビア語方言を自動的に予測することを目的としている。
本稿では,アラビア語の方言識別研究をテキストで包括的に調査する。
本稿では、従来の機械学習手法、ディープラーニングアーキテクチャ、アラビア方言識別のための複雑な学習アプローチについてレビューする。
論文 参考訳(メタデータ) (2020-09-26T15:33:16Z) - Can Multilingual Language Models Transfer to an Unseen Dialect? A Case
Study on North African Arabizi [2.76240219662896]
本研究では,多言語モデルによる未知の方言の処理能力について検討する。
弊社のケーススタディは、北アフリカアラビアのユーザ生成を例に挙げる。
ゼロショットおよび教師なし適応シナリオでは、多言語言語モデルがそのような未知の方言に変換できることが示される。
論文 参考訳(メタデータ) (2020-05-01T11:29:23Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。