論文の概要: GLeMM: A large-scale multilingual dataset for morphological research
- arxiv url: http://arxiv.org/abs/2604.12442v1
- Date: Tue, 14 Apr 2026 08:29:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.341442
- Title: GLeMM: A large-scale multilingual dataset for morphological research
- Title(参考訳): GLeMM:形態学研究のための大規模多言語データセット
- Authors: Hathout Nabil, Basilio Calderone, Fiammetta Namer, Franck Sajous,
- Abstract要約: GLeMMは、形態学における実験とデータ駆動記述のために設計された派生資源である。
研究者は、単語形成における形の役割や意味など、難しい問題に対処することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In derivational morphology, what mechanisms govern the variation in form-meaning relations between words? The answers to this type of questions are typically based on intuition and on observations drawn from limited data, even when a wide range of languages is considered. Many of these studies are difficult to replicate and generalize. To address this issue, we present GLeMM, a new derivational resource designed for experimentation and data-driven description in morphology. GLeMM is characterized by (i) its large size, (ii) its extensive coverage (currently amounting to seven European languages, i.e., German, English, Spanish, French, Italian, Polish, Russian, (iii) its fully automated design, identical across all languages, (iv) the automatic annotation of morphological features on each entry, as well as (v) the encoding of semantic descriptions for a significant subset of these entries. It enables researchers to address difficult questions, such as the role of form and meaning in word-formation, and to develop and experimentally test computational methods that identify the structures of derivational morphology. The article describes how GLeMM is created using Wiktionary articles and presents various case studies illustrating possible applications of the resource.
- Abstract(参考訳): 派生形態学において、単語間の形式的意味関係の変動を制御しているメカニズムは何か?
この種の質問に対する回答は、典型的には直観と限られたデータから引き出された観察に基づいており、たとえ幅広い言語が検討されているとしてもである。
これらの研究の多くは複製と一般化が難しい。
この問題に対処するために,形態学における実験とデータ駆動記述のための新しい派生資源であるGLeMMを提案する。
GLeMMは特徴的である
(i)その大きさ。
(II)その広範な範囲(現在、ドイツ語、英語、スペイン語、フランス語、イタリア語、ポーランド語、ロシア語)
(三)全言語で同一の完全自動設計。
(四)各項目の形態的特徴の自動アノテーション及び
(v)これらの項目のかなりの部分に対する意味記述の符号化
研究者は、単語形成における形態と意味の役割のような難しい問題に対処し、導出形態学の構造を識別する計算方法を開発し、実験的に検証することができる。
この記事では、GLeMMがWiktionaryの記事でどのように作成されているかを説明し、リソースの適用可能性を説明するさまざまなケーススタディを示す。
関連論文リスト
- Polish phonology and morphology through the lens of distributional semantics [0.05729426778193397]
本研究では,ポーランド語の音韻的構造と形態的構造と意味との関係について,分布意味論を用いて検討する。
意味ベクトルが音素文字列などの語彙下言語単位の情報を取得することを示す。
埋め込みを用いた識別的語彙モデルによる計算モデリングは、理解と生産の精度の高い予測を可能にすると論じる。
論文 参考訳(メタデータ) (2026-03-31T19:26:13Z) - A Morphology-Based Investigation of Positional Encodings [46.667985003225496]
形態と語順は密接に結びついており、後者は位置符号化によってトランスフォーマーモデルに組み込まれている。
言語の形態的複雑さと、事前訓練された言語モデルにおける位置エンコーディングの利用との間には相関があるのだろうか?
本研究は,22の言語と5の下流タスクを対象とする,この問題に対処する最初の研究である。
論文 参考訳(メタデータ) (2024-04-06T07:10:47Z) - UniMorph 4.0: Universal Morphology [104.69846084893298]
本稿は,過去2年間のいくつかの前線における展開と改善について述べる。
多くの言語学者による共同作業により、30の絶滅危惧言語を含む67の新しい言語が追加された。
前回のUniMorphリリースに合わせて,16言語で形態素セグメンテーションを施したデータベースも拡張した。
論文 参考訳(メタデータ) (2022-05-07T09:19:02Z) - Quantifying Synthesis and Fusion and their Impact on Machine Translation [79.61874492642691]
自然言語処理(NLP)では、一般に、融合や凝集のような厳密な形態を持つ言語全体をラベル付けする。
本研究では,単語とセグメントレベルで形態型を定量化することにより,そのようなクレームの剛性を低減することを提案する。
本研究では, 英語, ドイツ語, トルコ語の非教師なし・教師付き形態素分割法について検討する一方, 融合ではスペイン語を用いた半自動手法を提案する。
そして、機械翻訳品質と単語(名詞と動詞)における合成・融合の程度との関係を分析する。
論文 参考訳(メタデータ) (2022-05-06T17:04:58Z) - Morphology Without Borders: Clause-Level Morphological Annotation [8.559428282730021]
形態学を単語レベルではなく節レベルの現象と考えることを提案する。
我々は,英語,ドイツ語,トルコ語,ヘブライ語という4つの類型的に異なる言語を対象として,節レベルの形態に関する新しいデータセットを提供する。
実験の結果,節レベルタスクは各単語レベルタスクよりも格段に難しいが,言語間では同等に複雑であることがわかった。
論文 参考訳(メタデータ) (2022-02-25T17:20:28Z) - Linguistic Typology Features from Text: Inferring the Sparse Features of
World Atlas of Language Structures [73.06435180872293]
我々は、バイト埋め込みと畳み込み層に基づく繰り返しニューラルネットワーク予測器を構築する。
様々な言語型の特徴を確実に予測できることを示す。
論文 参考訳(メタデータ) (2020-04-30T21:00:53Z) - Evaluating Transformer-Based Multilingual Text Classification [55.53547556060537]
我々は,NLPツールが構文的・形態学的に異なる言語で不平等に機能すると主張している。
実験研究を支援するために,単語順と形態的類似度指標を算出した。
論文 参考訳(メタデータ) (2020-04-29T03:34:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。