論文の概要: A Morphology-Based Investigation of Positional Encodings
- arxiv url: http://arxiv.org/abs/2404.04530v1
- Date: Sat, 6 Apr 2024 07:10:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-09 20:49:00.354407
- Title: A Morphology-Based Investigation of Positional Encodings
- Title(参考訳): 形態素に基づく位置符号化の検討
- Authors: Poulami Ghosh, Shikhar Vashishth, Raj Dabre, Pushpak Bhattacharyya,
- Abstract要約: 形態学的に多様な言語と5種類の下流タスクについて検討した。
主な実験は、微調整時の位置符号化の効果を無効化することである。
その結果,言語の形態的複雑さが増大するにつれて,位置符号化の重要性が低下することが示唆された。
- 参考スコア(独自算出の注目度): 46.667985003225496
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: How does the importance of positional encoding in pre-trained language models (PLMs) vary across languages with different morphological complexity? In this paper, we offer the first study addressing this question, encompassing 23 morphologically diverse languages and 5 different downstream tasks. We choose two categories of tasks: syntactic tasks (part-of-speech tagging, named entity recognition, dependency parsing) and semantic tasks (natural language inference, paraphrasing). We consider language-specific BERT models trained on monolingual corpus for our investigation. The main experiment consists of nullifying the effect of positional encoding during fine-tuning and investigating its impact across various tasks and languages. Our findings demonstrate that the significance of positional encoding diminishes as the morphological complexity of a language increases. Across all experiments, we observe clustering of languages according to their morphological typology - with analytic languages at one end and synthetic languages at the opposite end.
- Abstract(参考訳): プレトレーニング言語モデル(PLM)における位置符号化の重要性は、形態的複雑さの異なる言語によってどのように異なるのか?
本稿では,23の形態的多様言語と5つの異なる下流タスクを含む,この問題に対処する最初の研究について述べる。
構文的タスク(音声タグ付け、エンティティ認識、依存性解析)と意味的タスク(自然言語推論、パラフレージング)の2つのカテゴリを選択します。
単言語コーパスで学習した言語固有のBERTモデルについて検討した。
主な実験は、微調整中の位置符号化の効果を無効化し、様々なタスクや言語に対する影響を調べることである。
その結果,言語の形態的複雑さが増大するにつれて,位置符号化の重要性が低下することが示唆された。
すべての実験において, 解析言語を一方の端に, 合成言語を反対の端に配置し, 形態的類型に基づく言語クラスタリングを観察する。
関連論文リスト
- Training Neural Networks as Recognizers of Formal Languages [87.06906286950438]
形式言語理論は、特に認識者に関するものである。
代わりに、非公式な意味でのみ類似したプロキシタスクを使用するのが一般的である。
ニューラルネットワークを文字列のバイナリ分類器として直接訓練し評価することで、このミスマッチを補正する。
論文 参考訳(メタデータ) (2024-11-11T16:33:25Z) - On the Role of Morphological Information for Contextual Lemmatization [7.106986689736827]
6言語における文脈補間器の開発における形態情報の役割について検討する。
バスク語、トルコ語、ロシア語、チェコ語、スペイン語、英語。
実験により、ドメイン外で最高のレマタイザは、単純な UPOS タグを使ったものか、形態学なしで訓練されたものであることが示唆されている。
論文 参考訳(メタデータ) (2023-02-01T12:47:09Z) - UniMorph 4.0: Universal Morphology [104.69846084893298]
本稿は,過去2年間のいくつかの前線における展開と改善について述べる。
多くの言語学者による共同作業により、30の絶滅危惧言語を含む67の新しい言語が追加された。
前回のUniMorphリリースに合わせて,16言語で形態素セグメンテーションを施したデータベースも拡張した。
論文 参考訳(メタデータ) (2022-05-07T09:19:02Z) - Modeling Target-Side Morphology in Neural Machine Translation: A
Comparison of Strategies [72.56158036639707]
形態的に豊かな言語は機械翻訳に困難をもたらす。
多数の異なる屈折する単語曲面は、より大きな語彙を必要とする。
いくつかの頻度の低い用語は、通常、トレーニングコーパスには現れない。
言語的合意は、出力文中の屈折語形間の文法的カテゴリを正しく一致させる必要がある。
論文 参考訳(メタデータ) (2022-03-25T10:13:20Z) - Morphological Processing of Low-Resource Languages: Where We Are and
What's Next [23.7371787793763]
注釈付きリソースが最小か全くない言語に適したアプローチに焦点を合わせます。
我々は、言語の形態を原文だけで理解する、論理的な次の課題に取り組む準備が整っていると論じる。
論文 参考訳(メタデータ) (2022-03-16T19:47:04Z) - Morphology Without Borders: Clause-Level Morphological Annotation [8.559428282730021]
形態学を単語レベルではなく節レベルの現象と考えることを提案する。
我々は,英語,ドイツ語,トルコ語,ヘブライ語という4つの類型的に異なる言語を対象として,節レベルの形態に関する新しいデータセットを提供する。
実験の結果,節レベルタスクは各単語レベルタスクよりも格段に難しいが,言語間では同等に複雑であることがわかった。
論文 参考訳(メタデータ) (2022-02-25T17:20:28Z) - The Impact of Positional Encodings on Multilingual Compression [3.454503173118508]
元のトランスアーキテクチャで使われる正弦波の位置エンコーディングに対して、いくつかの修正が提案されている。
まず、これらの修正はモノリンガル言語モデルを改善する傾向にあるが、いずれの修正もより良いマルチリンガル言語モデルをもたらすものではないことを示す。
論文 参考訳(メタデータ) (2021-09-11T23:22:50Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z) - A Simple Joint Model for Improved Contextual Neural Lemmatization [60.802451210656805]
本稿では,20言語で最先端の成果を得られる,単純結合型ニューラルモデルを提案する。
本論文では,トレーニングと復号化に加えて,本モデルについて述べる。
論文 参考訳(メタデータ) (2019-04-04T02:03:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。