論文の概要: Mapping 'when'-clauses in Latin American and Caribbean languages: an experiment in subtoken-based typology
- arxiv url: http://arxiv.org/abs/2404.18257v1
- Date: Sun, 28 Apr 2024 17:43:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-30 15:25:56.899647
- Title: Mapping 'when'-clauses in Latin American and Caribbean languages: an experiment in subtoken-based typology
- Title(参考訳): ラテンアメリカとカリブ海の言語における「いつ」クロースをマッピングする:サブトケンに基づくタイポロジーの実験
- Authors: Nilo Pedrazzini,
- Abstract要約: 本稿は,ラテンアメリカとカリブ海の言語間における時間的順序付け("when'-clauses")の表現の変動について考察する。
この地域の言語に基づいて計算された確率論的意味写像を提示し、レックス化されたコネクタのみを使用する多くの世界の言語に対する偏見を避ける。
このアプローチにより、レックス化されたコネクタに加えて、形態的節間リンク装置をキャプチャでき、時間的部分座標のタイプ論的変動の大規模かつ戦略に依存しない分析を行うことができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Languages can encode temporal subordination lexically, via subordinating conjunctions, and morphologically, by marking the relation on the predicate. Systematic cross-linguistic variation among the former can be studied using well-established token-based typological approaches to token-aligned parallel corpora. Variation among different morphological means is instead much harder to tackle and therefore more poorly understood, despite being predominant in several language groups. This paper explores variation in the expression of generic temporal subordination ('when'-clauses) among the languages of Latin America and the Caribbean, where morphological marking is particularly common. It presents probabilistic semantic maps computed on the basis of the languages of the region, thus avoiding bias towards the many world's languages that exclusively use lexified connectors, incorporating associations between character $n$-grams and English $when$. The approach allows capturing morphological clause-linkage devices in addition to lexified connectors, paving the way for larger-scale, strategy-agnostic analyses of typological variation in temporal subordination.
- Abstract(参考訳): 言語は、関係を述語にマークすることで、時間的順序付けを語彙的に、接続を順序付けし、形態的にエンコードすることができる。
前者間の体系的相互言語的変異は、トークン整列並列コーパスに対するよく確立されたトークンベースの類型的アプローチを用いて研究することができる。
異なる形態的手段の違いは、いくつかの言語群で支配的であるにもかかわらず、それに取り組むのが非常に難しく、従って理解が不十分である。
本稿では,ラテンアメリカとカリブ海の言語において,形態的マーキングが特に一般的である時間的順序付け("when'-clauses")の表現の変動について検討する。
これは、地域の言語に基づいて計算された確率論的意味写像を示し、これにより、レキシファイドコネクターのみを使用する多くの世界の言語に対するバイアスを回避し、文字$n$-gramsと英語$when$の関連を組み込む。
このアプローチは, 時間的部分座標のタイプ論的変動を, 大規模かつ戦略に依存しない解析方法として, 辞書化されたコネクタに加えて, 形態的節リンク装置の取得を可能にする。
関連論文リスト
- How Important Is Tokenization in French Medical Masked Language Models? [7.866517623371908]
自然言語処理(NLP)分野において,サブワードトークン化が主流となっている。
本稿では,フランス生物医学領域におけるサブワードトークン化の複雑さを,多種多様なNLPタスクにまたがって探究する。
従来のトークン化手法に形態素に富んだ単語セグメンテーションを統合するオリジナルトークン化戦略を導入する。
論文 参考訳(メタデータ) (2024-02-22T23:11:08Z) - Complex systems approach to natural language [0.0]
複雑性科学の観点から、自然言語の研究で使用される主要な方法論概念を概説する。
定量的言語学における3つの主要な複雑性関連研究動向を概説する。
論文 参考訳(メタデータ) (2024-01-05T12:01:26Z) - Exploring Linguistic Probes for Morphological Generalization [11.568042812213712]
これらのプローブを3つの形態学的に異なる言語で検証したところ、3つの主要な形態素インフレクション系が共役類に対して異なる一般化戦略と正書法および音韻的に書き起こされた入力上の特徴集合を用いているという証拠が得られた。
論文 参考訳(メタデータ) (2023-10-20T17:45:30Z) - Analogy in Contact: Modeling Maltese Plural Inflection [4.83828446399992]
マルタ特異名詞の音韻論と語源が形態過程を予測する程度を定量化する。
結果は、音韻学的圧力が予測力を持つマルタ・レキシコンの組織を形成することを示している。
論文 参考訳(メタデータ) (2023-05-20T20:16:57Z) - Quantifying Synthesis and Fusion and their Impact on Machine Translation [79.61874492642691]
自然言語処理(NLP)では、一般に、融合や凝集のような厳密な形態を持つ言語全体をラベル付けする。
本研究では,単語とセグメントレベルで形態型を定量化することにより,そのようなクレームの剛性を低減することを提案する。
本研究では, 英語, ドイツ語, トルコ語の非教師なし・教師付き形態素分割法について検討する一方, 融合ではスペイン語を用いた半自動手法を提案する。
そして、機械翻訳品質と単語(名詞と動詞)における合成・融合の程度との関係を分析する。
論文 参考訳(メタデータ) (2022-05-06T17:04:58Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - Constructing a Family Tree of Ten Indo-European Languages with
Delexicalized Cross-linguistic Transfer Patterns [57.86480614673034]
我々は,デレクシカル化転送を,解釈可能なツリー・ツー・ストリングパターンとツリー・ツー・ツリーパターンとして定式化する。
これにより、言語間移動を定量的に探索し、第二言語習得の問い合わせを拡張することができる。
論文 参考訳(メタデータ) (2020-07-17T15:56:54Z) - Linguistic Typology Features from Text: Inferring the Sparse Features of
World Atlas of Language Structures [73.06435180872293]
我々は、バイト埋め込みと畳み込み層に基づく繰り返しニューラルネットワーク予測器を構築する。
様々な言語型の特徴を確実に予測できることを示す。
論文 参考訳(メタデータ) (2020-04-30T21:00:53Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z) - Evaluating Transformer-Based Multilingual Text Classification [55.53547556060537]
我々は,NLPツールが構文的・形態学的に異なる言語で不平等に機能すると主張している。
実験研究を支援するために,単語順と形態的類似度指標を算出した。
論文 参考訳(メタデータ) (2020-04-29T03:34:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。