論文の概要: CLAR: A Cross-Lingual Argument Regularizer for Semantic Role Labeling
- arxiv url: http://arxiv.org/abs/2011.04732v1
- Date: Mon, 9 Nov 2020 20:16:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-28 01:09:26.961517
- Title: CLAR: A Cross-Lingual Argument Regularizer for Semantic Role Labeling
- Title(参考訳): CLAR:セマンティックロールラベリングのための言語間引数正規化器
- Authors: Ishan Jindal, Yunyao Li, Siddhartha Brahma, and Huaiyu Zhu
- Abstract要約: CLAR(Cross-Lingual Argument Regularizer)と呼ばれる手法を提案する。
CLARは言語間の言語アノテーションの類似性を識別し、この情報を利用して対象言語引数をマッピングする。
実験の結果、CLARは低リソース言語に対する単言語および多言語ベースラインよりも、複数の言語でのSRL性能を一貫して改善することが示された。
- 参考スコア(独自算出の注目度): 17.756625082528142
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Semantic role labeling (SRL) identifies predicate-argument structure(s) in a
given sentence. Although different languages have different argument
annotations, polyglot training, the idea of training one model on multiple
languages, has previously been shown to outperform monolingual baselines,
especially for low resource languages. In fact, even a simple combination of
data has been shown to be effective with polyglot training by representing the
distant vocabularies in a shared representation space. Meanwhile, despite the
dissimilarity in argument annotations between languages, certain argument
labels do share common semantic meaning across languages (e.g. adjuncts have
more or less similar semantic meaning across languages). To leverage such
similarity in annotation space across languages, we propose a method called
Cross-Lingual Argument Regularizer (CLAR). CLAR identifies such linguistic
annotation similarity across languages and exploits this information to map the
target language arguments using a transformation of the space on which source
language arguments lie. By doing so, our experimental results show that CLAR
consistently improves SRL performance on multiple languages over monolingual
and polyglot baselines for low resource languages.
- Abstract(参考訳): 意味的役割ラベル付け(SRL)は、ある文中の述語-代名詞構造を識別する。
異なる言語には異なる引数アノテーションがあるが、複数の言語で1つのモデルをトレーニングする多言語訓練(Polyglot training)は、以前はモノリンガルベースライン(特に低リソース言語)よりも優れていた。
実際、データの単純な組み合わせでさえも、共有表現空間における遠隔語彙を表現することで多言語訓練に有効であることが示されている。
一方、言語間の引数アノテーションの相違にもかかわらず、特定の引数ラベルは言語間で共通の意味を共有している(例えば、副詞は言語間でほぼ同様の意味を持っている)。
言語間のアノテーション空間におけるこのような類似性を活用するために,CLAR (Cross-Lingual Argument Regularizer) と呼ばれる手法を提案する。
CLARは言語間でそのような言語アノテーションの類似性を識別し、この情報を利用してターゲット言語引数を、ソース言語引数が属する空間の変換を用いてマッピングする。
これにより、CLARは低リソース言語に対するモノリンガルおよびポリグロットベースラインよりも、複数の言語でのSRL性能を一貫して改善することを示す。
関連論文リスト
- Tomato, Tomahto, Tomate: Measuring the Role of Shared Semantics among Subwords in Multilingual Language Models [88.07940818022468]
エンコーダのみの多言語言語モデル(mLM)におけるサブワード間の共有セマンティクスの役割を測る第一歩を踏み出した。
意味的に類似したサブワードとその埋め込みをマージして「意味トークン」を形成する。
グループ化されたサブワードの検査では 様々な意味的類似性を示します
論文 参考訳(メタデータ) (2024-11-07T08:38:32Z) - The Role of Language Imbalance in Cross-lingual Generalisation: Insights from Cloned Language Experiments [57.273662221547056]
本研究では,言語間一般化の非直感的な新規ドライバである言語不均衡について検討する。
学習中に支配的な言語が存在することが、あまり頻度の低い言語の性能を高めることを観察する。
分析を実言語に拡張するにつれ、頻繁な言語は依然として恩恵を受けていますが、言語不均衡が言語間の一般化を引き起こすかどうかは決定的ではありません。
論文 参考訳(メタデータ) (2024-04-11T17:58:05Z) - MYTE: Morphology-Driven Byte Encoding for Better and Fairer Multilingual Language Modeling [70.34758460372629]
多様な言語にまたがる一貫した大きさのセグメントで同一情報をエンコードする新しいパラダイムを導入する。
MYTEは99の言語すべてに対して短いエンコーディングを生成する。
これにより、多言語LMの性能が向上し、多言語間でのパープレキシティギャップが減少する。
論文 参考訳(メタデータ) (2024-03-15T21:21:11Z) - Discovering Low-rank Subspaces for Language-agnostic Multilingual
Representations [38.56175462620892]
ML-LM(ML-LM)は,ゼロショット言語間移動の顕著な能力を示す。
多言語埋め込み空間から言語固有の要素を投影する新しい視点を提案する。
本手法を適用すれば,ML-LMよりも一貫した改善が期待できることを示す。
論文 参考訳(メタデータ) (2024-01-11T09:54:11Z) - The Geometry of Multilingual Language Model Representations [25.880639246639323]
我々は,言語知覚情報を各言語で符号化しながら,多言語モデルが共有多言語表現空間をどのように維持するかを評価する。
部分空間は、中層全体で比較的安定な言語感受性軸に沿って異なり、これらの軸はトークン語彙などの情報を符号化する。
言語感受性および言語ニュートラル軸に投影された表現を可視化し,言語族と音声クラスタを識別し,スパイラル,トーラス,トークン位置情報を表す曲線を可視化する。
論文 参考訳(メタデータ) (2022-05-22T23:58:24Z) - Does Transliteration Help Multilingual Language Modeling? [0.0]
多言語言語モデルに対する音訳の効果を実証的に測定する。
私たちは、世界で最もスクリプトの多様性が高いIndic言語にフォーカスしています。
比較的高いソースコード言語に悪影響を及ぼすことなく、低リソース言語にトランスリテラゼーションが有効であることに気付きました。
論文 参考訳(メタデータ) (2022-01-29T05:48:42Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - Revisiting Language Encoding in Learning Multilingual Representations [70.01772581545103]
言語埋め込みを置き換えるクロスリンガル言語投影(Cross-lingual Language Projection, XLP)と呼ばれる新しいアプローチを提案する。
XLPは単語埋め込みを言語固有の意味空間に投影し、投影された埋め込みはTransformerモデルに供給される。
実験により、xlpは広範囲の多言語ベンチマークデータセットのモデル性能を自由かつ著しく向上できることが示された。
論文 参考訳(メタデータ) (2021-02-16T18:47:10Z) - On the Language Neutrality of Pre-trained Multilingual Representations [70.93503607755055]
語彙意味論に関して,多言語文脈埋め込みの言語中立性を直接的に検討する。
その結果、文脈埋め込みは言語ニュートラルであり、概して静的な単語型埋め込みよりも情報的であることがわかった。
本稿では,言語識別における最先端の精度に到達し,並列文の単語アライメントのための統計的手法の性能を一致させる方法について述べる。
論文 参考訳(メタデータ) (2020-04-09T19:50:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。