論文の概要: Cross-Lingual Adaptation Using Universal Dependencies
- arxiv url: http://arxiv.org/abs/2003.10816v2
- Date: Sat, 28 Mar 2020 17:09:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 08:58:32.048637
- Title: Cross-Lingual Adaptation Using Universal Dependencies
- Title(参考訳): ユニバーサル依存を用いた言語間適応
- Authors: Nasrin Taghizadeh and Heshaam Faili
- Abstract要約: 複雑なNLPタスクのためのUD構文解析木を用いて訓練されたモデルは、非常に異なる言語を特徴付けることができることを示す。
UD解析木に基づいて,木カーネルを用いた複数のモデルを開発し,これらのモデルが英語データセットでトレーニングされた場合,他の言語のデータを正しく分類できることを示す。
- 参考スコア(独自算出の注目度): 1.027974860479791
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We describe a cross-lingual adaptation method based on syntactic parse trees
obtained from the Universal Dependencies (UD), which are consistent across
languages, to develop classifiers in low-resource languages. The idea of UD
parsing is to capture similarities as well as idiosyncrasies among
typologically different languages. In this paper, we show that models trained
using UD parse trees for complex NLP tasks can characterize very different
languages. We study two tasks of paraphrase identification and semantic
relation extraction as case studies. Based on UD parse trees, we develop
several models using tree kernels and show that these models trained on the
English dataset can correctly classify data of other languages e.g. French,
Farsi, and Arabic. The proposed approach opens up avenues for exploiting UD
parsing in solving similar cross-lingual tasks, which is very useful for
languages that no labeled data is available for them.
- Abstract(参考訳): 本稿では,言語間一貫性のある共通依存関係(ud)から得られる構文解析木に基づく言語間適応法を記述し,低リソース言語における分類器の開発を行った。
UD構文解析の考え方は、類型的に異なる言語間の類似性や慣用的類似性を捉えることである。
本稿では,複雑なNLPタスクのためのUD解析木を用いて訓練されたモデルが,非常に異なる言語を特徴付けることを示す。
ケーススタディとして,パラフレーズ識別と意味的関係抽出の2つの課題を検討した。
ud解析木に基づいて,木カーネルを用いたモデルをいくつか開発し,英語データセットでトレーニングされたモデルがフランス語,ファルシ語,アラビア語などの他の言語のデータを正しく分類できることを示す。
提案されたアプローチは、同様の言語間タスクを解決するためにud解析を利用するための道を開きます。
関連論文リスト
- Multilingual Nonce Dependency Treebanks: Understanding how Language Models represent and process syntactic structure [15.564927804136852]
SPUD (Semantically Perturbed Universal Dependencies) は、Universal Dependencies (UD) コーパスのためのナンスツリーバンクを作成するためのフレームワークである。
我々は、アラビア語、英語、フランス語、ドイツ語、ロシア語でナンスデータを作成し、SPUDツリーバンクの2つのユースケースを実証する。
論文 参考訳(メタデータ) (2023-11-13T17:36:58Z) - Assessment of Pre-Trained Models Across Languages and Grammars [7.466159270333272]
シーケンスラベリングとしてパースをキャストすることで,構成構造と依存性構造を復元することを目的としている。
その結果、事前学習された単語ベクトルは、依存関係よりも構文の連続表現を好まないことが明らかとなった。
プレトレーニングデータ中の言語の発生は、単語ベクトルから構文を回復する際のタスクデータ量よりも重要である。
論文 参考訳(メタデータ) (2023-09-20T09:23:36Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - Multilingual Syntax-aware Language Modeling through Dependency Tree
Conversion [12.758523394180695]
本研究では,9つの変換法と5つの言語にまたがるニューラル言語モデル(LM)の性能への影響について検討する。
平均して、私たちの最高のモデルのパフォーマンスは、すべての言語で最悪の選択に対して、19パーセントの精度向上を示しています。
我々の実験は、正しい木形式を選ぶことの重要性を強調し、情報的な決定を下すための洞察を提供する。
論文 参考訳(メタデータ) (2022-04-19T03:56:28Z) - Models and Datasets for Cross-Lingual Summarisation [78.56238251185214]
対象言語における多文要約に関連付けられたソース言語において,長い文書を含む言語間要約コーパスを提案する。
コーパスは、チェコ語、英語、フランス語、ドイツ語の4つの言語について、12の言語対と指示をカバーしている。
言語対応のウィキペディアのタイトルから、主節と記事の本体を組み合わせることで、ウィキペディアから言語横断的な文書要約インスタンスを導出する。
論文 参考訳(メタデータ) (2022-02-19T11:55:40Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - Examining Cross-lingual Contextual Embeddings with Orthogonal Structural
Probes [0.2538209532048867]
オルソゴン構造プローブ(Limisiewicz and Marevcek, 2021)では、特定の言語的特徴についてこの疑問に答えることができる。
InmBERTの文脈表現を符号化した構文(UD)と語彙(WordNet)構造情報を9つの多言語で評価した。
ゼロショットと少数ショットのクロスランガル構文解析にこの結果を適用した。
論文 参考訳(メタデータ) (2021-09-10T15:03:11Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - GATE: Graph Attention Transformer Encoder for Cross-lingual Relation and
Event Extraction [107.8262586956778]
言語に依存しない文表現を学習するために、普遍的な依存解析を伴うグラフ畳み込みネットワーク(GCN)を導入する。
GCNは、長い範囲の依存関係を持つ単語をモデル化するのに苦労する。
そこで本研究では,構文的距離の異なる単語間の依存関係を学習するための自己認識機構を提案する。
論文 参考訳(メタデータ) (2020-10-06T20:30:35Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z) - A Hybrid Approach to Dependency Parsing: Combining Rules and Morphology
with Deep Learning [0.0]
本稿では,特に訓練データ量に制限のある言語に対して,依存関係解析の2つのアプローチを提案する。
第1のアプローチは、最先端のディープラーニングとルールベースのアプローチを組み合わせ、第2のアプローチは、形態情報をネットワークに組み込む。
提案手法はトルコ語向けに開発されたが、他の言語にも適用可能である。
論文 参考訳(メタデータ) (2020-02-24T08:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。