Fugu-MT 論文翻訳(概要): Camelira: An Arabic Multi-Dialect Morphological Disambiguator

論文の概要: Camelira: An Arabic Multi-Dialect Morphological Disambiguator

arxiv url: http://arxiv.org/abs/2211.16807v1
Date: Wed, 30 Nov 2022 08:02:11 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-01 16:50:51.012652
Title: Camelira: An Arabic Multi-Dialect Morphological Disambiguator
Title（参考訳）: Camelira: アラビア語の多次元形態的曖昧さ
Authors: Ossama Obeid, Go Inoue, Nizar Habash
Abstract要約: カメリラ (Camelira) は、アラビア語の多言語形態的曖昧化ツールである。アラビア語の現代標準アラビア語、エジプト語、ガルフ語、レバンタ語という4つの変種をカバーしている。 Cameliraは、研究者や言語学習者が様々な言語情報を調べることができる、ユーザフレンドリーなWebインターフェースを提供する。
参考スコア（独自算出の注目度）: 12.3044949125913
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present Camelira, a web-based Arabic multi-dialect morphological disambiguation tool that covers four major variants of Arabic: Modern Standard Arabic, Egyptian, Gulf, and Levantine. Camelira offers a user-friendly web interface that allows researchers and language learners to explore various linguistic information, such as part-of-speech, morphological features, and lemmas. Our system also provides an option to automatically choose an appropriate dialect-specific disambiguator based on the prediction of a dialect identification component. Camelira is publicly accessible at http://camelira.camel-lab.com.
Abstract（参考訳）: 現代標準アラビア語、エジプト語、メキシコ湾、レバンティンの4つの主要な変種をカバーする、webベースのアラビア語のマルチダイアレクト形態素曖昧化ツールであるcamliraについて紹介する。 Cameliraは、研究者や言語学習者が音声の一部、形態的特徴、レムマなど様々な言語情報を探索できる、ユーザフレンドリーなWebインターフェースを提供する。本システムでは,方言識別成分の予測に基づいて,適切な方言固有の曖昧さを自動選択するオプションも提供する。 Cameliraはhttp://camelira.camel-lab.comで公開されている。

関連論文リスト

Aladdin-FTI @ AMIYA Three Wishes for Arabic NLP: Fidelity, Diglossia, and Multidialectal Generation [1.817669530501506]
アラビア語の方言は、自然言語処理 (NLP) 研究において、長い間あまり表現されていない。 LLM(Large Language Models)のようなこの分野の最近の進歩は、このギャップに対処するための有望な道を提供する。本稿では,AMIYA共有タスクへの提案であるAladdin-FTIについて述べる。
論文参考訳（メタデータ） (2026-02-18T09:15:20Z)
DialectalArabicMMLU: Benchmarking Dialectal Capabilities in Arabic and Multilingual Language Models [54.10223256792762]
アラビア方言における大規模言語モデル(LLM)の性能評価のための新しいベンチマークであるDialectalArabicMMLUを提案する。 MMLU-Redux フレームワークを手動で翻訳し、3K 個の質問応答対を5つの主要な方言に適応することで拡張する。
論文参考訳（メタデータ） (2025-10-31T15:17:06Z)
A Novel Dialect-Aware Framework for the Classification of Arabic Dialects and Emotions [0.0]
アラビア語における感情検出の現在の研究は、異なる方言で感情がどのように表現されるかについての認識を欠いている。この研究は、与えられたテキストからアラビア語の方言や感情を識別し、予測できる新しいフレームワークを構築する。アラビア方言の分類では88.9%の精度を達成し、最先端の結果を6.45ポイント上回った。
論文参考訳（メタデータ） (2025-02-13T10:05:44Z)
A Survey of Code-switched Arabic NLP: Progress, Challenges, and Future Directions [33.45834558604992]
我々は、コードスイッチされたアラビア語NLPの分野における現在の文献についてレビューする。地域全体でのコードスイッチングが広まっており、言語技術を開発する際には、これらの言語的ニーズに対処することが不可欠である。
論文参考訳（メタデータ） (2025-01-23T06:46:23Z)
Second Language (Arabic) Acquisition of LLMs via Progressive Vocabulary Expansion [55.27025066199226]
本稿では,アラブ世界における大規模言語モデル(LLM)の民主化の必要性に対処する。アラビア語のLLMの実用的な目的の1つは、復号を高速化するトークン化器にアラビア語固有の語彙を使用することである。第二言語(アラビア語)による人への獲得の間に語彙学習に触発されたAraLLaMAは、進歩的な語彙拡張を採用している。
論文参考訳（メタデータ） (2024-12-16T19:29:06Z)
ALLaM: Large Language Models for Arabic and English [9.881560166505452]
アラビア語技術(ALT)のエコシステムを支える一連の大規模言語モデルであるアラビア大言語モデル(ALaM: Arabic Large Language Model)を提示する。我々の自己回帰デコーダのみのアーキテクチャモデルは、語彙拡張と事前訓練による第二言語習得が、原語(英語)で破滅的な忘れをすることなく、新しい言語(アラビア語)へのモデルを操る方法を示している。人間の嗜好と広範囲なアライメントは,品質アライメントの低い大規模モデルと比較して言語モデルの性能を著しく向上させることができることを示す。
論文参考訳（メタデータ） (2024-07-22T05:35:17Z)
Bilingual Adaptation of Monolingual Foundation Models [48.859227944759986]
単言語大言語モデル(LLM)を他の言語に適応させる効率的な手法を提案する。 2段階のアプローチは、語彙を拡張し、埋め込み行列のみをトレーニングすることから始まります。アラビア語と英語のコーパスを混ぜて継続的に事前訓練することで、このモデルは英語の習熟度を維持しつつ、アラビア語の能力を獲得している。
論文参考訳（メタデータ） (2024-07-13T21:09:38Z)
Exploiting Dialect Identification in Automatic Dialectal Text Normalization [9.320305816520422]
我々は、方言アラビア語を標準オーソグラフィー(CODA)に標準化することを目指している。我々はCODAフィケーションのタスクに基づいて,新たに開発されたシーケンス・ツー・シーケンスのモデルをベンチマークした。方言識別情報を使用することで,すべての方言のパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (2024-07-03T11:30:03Z)
ZAEBUC-Spoken: A Multilingual Multidialectal Arabic-English Speech Corpus [8.96693684560691]
ZAEBUC-Spokenは多言語多言語対応アラビア語-英語音声コーパスである。コーパスは自動音声認識(ASR)のための課題セットを提供する我々は、既存の転写ガイドラインからインスピレーションを得て、会話音声、コードスイッチング、両方の言語の正書法といった問題を扱う一連のガイドラインを提示する。
論文参考訳（メタデータ） (2024-03-27T01:19:23Z)
AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文参考訳（メタデータ） (2023-09-21T13:20:13Z)
Jais and Jais-chat: Arabic-Centric Foundation and Instruction-Tuned Open Generative Large Language Models [57.76998376458017]
私たちはJaisとJais-chatを紹介します。これは、最先端のアラビア中心の新たな基礎であり、命令で調整されたオープンな生成型大言語モデル(LLMs)です。モデルはGPT-3デコーダのみのアーキテクチャに基づいており、アラビア語と英語のテキストが混在している。本稿では、トレーニング、チューニング、安全性アライメント、モデルの評価について詳述する。
論文参考訳（メタデータ） (2023-08-30T17:07:17Z)
DADA: Dialect Adaptation via Dynamic Aggregation of Linguistic Rules [64.93179829965072]
DADAは、多言語対応のSAE訓練モデルに対するモジュラーアプローチである。 DADAは単一タスクと命令言語モデルの両方に有効であることを示す。
論文参考訳（メタデータ） (2023-05-22T18:43:31Z)
Beyond Arabic: Software for Perso-Arabic Script Manipulation [67.31374614549237]
ペルソ・アラビア文字を使用する言語の書き起こしシステムを操作するための有限状態トランスデューサ(FST)コンポーネントとそれに対応するユーティリティのセットを提供する。ライブラリはまた、単純なFSTベースのロマン化と文字変換も提供する。
論文参考訳（メタデータ） (2023-01-26T20:37:03Z)
Interpreting Arabic Transformer Models [18.98681439078424]
我々は、アラビア語の様々な種類に基づいて訓練された、アラビア語の事前訓練されたモデルにおいて、言語情報がどのように符号化されているかを探る。 MSA(現代の標準アラビア語)に基づく2つの形態的タグ付けタスクと、方言のPOSタグ付けタスクと、方言の識別タスクである。
論文参考訳（メタデータ） (2022-01-19T06:32:25Z)
Automatic Arabic Dialect Identification Systems for Written Texts: A Survey [0.0]
アラビア語の方言識別は自然言語処理の特定のタスクであり、与えられたテキストのアラビア語方言を自動的に予測することを目的としている。本稿では,アラビア語の方言識別研究をテキストで包括的に調査する。本稿では、従来の機械学習手法、ディープラーニングアーキテクチャ、アラビア方言識別のための複雑な学習アプローチについてレビューする。
論文参考訳（メタデータ） (2020-09-26T15:33:16Z)
Bridging Linguistic Typology and Multilingual Machine Translation with Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。我々の表現は類型学を組み込み、言語関係と相関関係を強化する。次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文参考訳（メタデータ） (2020-04-30T16:25:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。