論文の概要: CommonMorph: Participatory Morphological Documentation Platform
- arxiv url: http://arxiv.org/abs/2604.04515v1
- Date: Mon, 06 Apr 2026 08:27:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:19.1445
- Title: CommonMorph: Participatory Morphological Documentation Platform
- Title(参考訳): CommonMorph: 参加型形態資料プラットフォーム
- Authors: Aso Mahmudi, Sina Ahmadi, Kemal Kurniawan, Rico Sennrich, Eduard Hovy, Ekaterina Vylomova,
- Abstract要約: textttCommonMorphは、形態的データ収集開発を合理化する包括的なプラットフォームである。
専門的な言語定義、コントリビュータの誘惑、コミュニティの検証が組み込まれている。
融合、凝集、根とパターンの形態を含む様々な形態体系に対応している。
- 参考スコア(独自算出の注目度): 27.536522954572103
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Collecting and annotating morphological data present significant challenges, requiring linguistic expertise, methodological rigour, and substantial resources. These barriers are particularly acute for low-resource languages and varieties. To accelerate this process, we introduce \texttt{CommonMorph}, a comprehensive platform that streamlines morphological data collection development through a three-tiered approach: expert linguistic definition, contributor elicitation, and community validation. The platform minimises manual work by incorporating active learning, annotation suggestions, and tools to import and adapt materials from related languages. It accommodates diverse morphological systems, including fusional, agglutinative, and root-and-pattern morphologies. Its open-source design and UniMorph-compatible outputs ensure accessibility and interoperability with NLP tools. Our platform is accessible at https://common-morph.com, offering a replicable model for preserving linguistic diversity through collaborative technology.
- Abstract(参考訳): 形態データの収集と注釈は、言語学の専門知識、方法論の厳密さ、重要な資源を必要とする重要な課題である。
これらの障壁は、低リソース言語や品種にとって特に深刻である。
このプロセスを加速するために, 専門言語定義, コントリビュータの誘惑, コミュニティの検証という3段階のアプローチを通じて, 形態的データ収集開発を効率化する包括的プラットフォームである \textt{CommonMorph} を紹介した。
このプラットフォームは、アクティブな学習、アノテーションの提案、および関連する言語から材料をインポートし、適応するためのツールを組み込むことで、手作業の最小化を図っている。
融合、凝集、根とパターンの形態を含む様々な形態体系に対応している。
オープンソース設計とUniMorph互換の出力により、NLPツールとのアクセシビリティと相互運用性が保証される。
私たちのプラットフォームはhttps://common-morph.comでアクセス可能で、協調技術による言語多様性の保存のためのレプリカブルなモデルを提供しています。
関連論文リスト
- chDzDT: Word-level morphology-aware language model for Algerian social media text [0.0]
chDzDT(chDzDT)は、アルジェリア語の形態に合わせた文字レベルの事前訓練言語モデルである。
トークン境界や標準化された正書法に依存することなく、孤立した単語で訓練される。
複数のスクリプトと言語的バリエーションをカバーしており、結果としてかなりの事前学習の作業負荷が生じる。
論文 参考訳(メタデータ) (2025-09-01T21:09:55Z) - CMULAB: An Open-Source Framework for Training and Deployment of Natural Language Processing Models [59.91221728187576]
本稿では,NLPモデルのモデル展開と連続的なヒューマン・イン・ザ・ループの微調整を簡単にするオープンソースフレームワークであるCMU言語バックエンドを紹介する。
CMULABは、マルチ言語モデルのパワーを活用して、音声認識、OCR、翻訳、構文解析などの既存のツールを新しい言語に迅速に適応し、拡張することができる。
論文 参考訳(メタデータ) (2024-04-03T02:21:46Z) - Low-resource neural machine translation with morphological modeling [3.3721926640077804]
ニューラルマシン翻訳(NMT)における形態的モデリングは、オープン語彙機械翻訳を実現するための有望なアプローチである。
低リソース環境における複雑な形態をモデル化するためのフレームワークソリューションを提案する。
パブリックドメインのパラレルテキストを用いた英訳であるKinyarwandaについて,提案手法の評価を行った。
論文 参考訳(メタデータ) (2024-04-03T01:31:41Z) - UniMorph 4.0: Universal Morphology [104.69846084893298]
本稿は,過去2年間のいくつかの前線における展開と改善について述べる。
多くの言語学者による共同作業により、30の絶滅危惧言語を含む67の新しい言語が追加された。
前回のUniMorphリリースに合わせて,16言語で形態素セグメンテーションを施したデータベースも拡張した。
論文 参考訳(メタデータ) (2022-05-07T09:19:02Z) - Modeling Target-Side Morphology in Neural Machine Translation: A
Comparison of Strategies [72.56158036639707]
形態的に豊かな言語は機械翻訳に困難をもたらす。
多数の異なる屈折する単語曲面は、より大きな語彙を必要とする。
いくつかの頻度の低い用語は、通常、トレーニングコーパスには現れない。
言語的合意は、出力文中の屈折語形間の文法的カテゴリを正しく一致させる必要がある。
論文 参考訳(メタデータ) (2022-03-25T10:13:20Z) - Morphological Processing of Low-Resource Languages: Where We Are and
What's Next [23.7371787793763]
注釈付きリソースが最小か全くない言語に適したアプローチに焦点を合わせます。
我々は、言語の形態を原文だけで理解する、論理的な次の課題に取り組む準備が整っていると論じる。
論文 参考訳(メタデータ) (2022-03-16T19:47:04Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z) - A Simple Joint Model for Improved Contextual Neural Lemmatization [60.802451210656805]
本稿では,20言語で最先端の成果を得られる,単純結合型ニューラルモデルを提案する。
本論文では,トレーニングと復号化に加えて,本モデルについて述べる。
論文 参考訳(メタデータ) (2019-04-04T02:03:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。