Fugu-MT 論文翻訳(概要): Crosslingual Transfer Learning for Low-Resource Languages Based on Multilingual Colexification Graphs

論文の概要: Crosslingual Transfer Learning for Low-Resource Languages Based on Multilingual Colexification Graphs

arxiv url: http://arxiv.org/abs/2305.12818v1
Date: Mon, 22 May 2023 08:20:23 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-23 17:31:13.357986
Title: Crosslingual Transfer Learning for Low-Resource Languages Based on Multilingual Colexification Graphs
Title（参考訳）: マルチリンガル・コレキシフィケーショングラフに基づく低リソース言語のためのクロスリンガル・トランスファー学習
Authors: Yihong Liu, Haotian Ye, Leonie Weissweiler, Hinrich Sch\"utze
Abstract要約: 比較言語学におけるコレキシフィケーション(英: Colexification)とは、2つ以上の異なる意味を持つ語彙形式の現象を指す。本論文では,ColexNetとColexNet+という照合パターンから多言語グラフを構築する手法を提案する。我々は,1,335言語にまたがる2,000以上の概念の照合パターンを,注釈のない並列コーパスから直接同定する。
参考スコア（独自算出の注目度）: 0.2752817022620644
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Colexification in comparative linguistics refers to the phenomenon of a lexical form conveying two or more distinct meanings. In this paper, we propose simple and effective methods to build multilingual graphs from colexification patterns: ColexNet and ColexNet+. ColexNet's nodes are concepts and its edges are colexifications. In ColexNet+, concept nodes are in addition linked through intermediate nodes, each representing an ngram in one of 1,334 languages. We use ColexNet+ to train high-quality multilingual embeddings $\overrightarrow{\mbox{ColexNet+}}$ that are well-suited for transfer learning scenarios. Existing work on colexification patterns relies on annotated word lists. This limits scalability and usefulness in NLP. In contrast, we identify colexification patterns of more than 2,000 concepts across 1,335 languages directly from an unannotated parallel corpus. In our experiments, we first show that ColexNet has a high recall on CLICS, a dataset of crosslingual colexifications. We then evaluate $\overrightarrow{\mbox{ColexNet+}}$ on roundtrip translation, verse retrieval and verse classification and show that our embeddings surpass several baselines in a transfer learning setting. This demonstrates the benefits of colexification for multilingual NLP.
Abstract（参考訳）: 比較言語学におけるコレキシフィケーション(英: Colexification)とは、2つ以上の異なる意味を持つ語彙形式の現象を指す。本稿では,colexnet と colexnet+ のコレクサフィケーションパターンから多言語グラフを構築するための簡易かつ効果的な手法を提案する。 ColexNetのノードは概念であり、エッジは照合である。 ColexNet+では、概念ノードは中間ノードを介してリンクされ、それぞれ1,334言語のうちの1つのngramを表す。 colexnet+を使って、転送学習シナリオに適した$\overrightarrow{\mbox{colexnet+}}$の高品質な多言語埋め込みをトレーニングしています。既存のコネクティフィケーションパターンの研究は、注釈付き単語リストに依存している。これはnlpのスケーラビリティと有用性を制限する。対照的に,1,335言語にまたがる2000以上の概念の共語彙パターンを,無記名並列コーパスから直接同定する。実験では,ColexNetが言語間照合のデータセットであるCLICSを高いリコールをしていることを示す。次に、$\overrightarrow{\mbox{colexnet+}}$ on roundtrip translation, verse search and verse classificationを評価し、我々の埋め込みがトランスファー学習設定において複数のベースラインを超えることを示す。これは多言語NLPにおけるコレキシフィケーションの利点を示す。

関連論文リスト

Advancing the Database of Cross-Linguistic Colexifications with New Workflows and Data [1.087459729391301]
複数の意味を持つ単語の比較研究のための高度なデータベースを提案する。新バージョンには、データのハンドリング、選択、表示の改善が含まれている。我々は,新たな言語横断的コレキシフィケーションデータベースが,エキサイティングな新しい研究を刺激する可能性があると結論づける。
論文参考訳（メタデータ） (2025-03-14T13:22:09Z)
Partial Colexifications Improve Concept Embeddings [1.3351610617039973]
概念埋め込みを有意義な方法で改善するために,部分的コレキシフィケーションがいかに有効かを示す。学習した埋め込みは、語彙的類似度評価、セマンティックシフトの記録例、および単語関連データに対して評価される。
論文参考訳（メタデータ） (2025-02-13T19:58:00Z)
Inference of Partial Colexifications from Multilingual Wordlists [3.096615629099617]
科学的構成としてのコレキシフィケーションは操作が容易であり、学者はコレキシフィケーションパターンを推測することができる。本研究では,部分的照合処理に対する新しいアプローチを提案する。
論文参考訳（メタデータ） (2023-02-01T20:22:20Z)
Meta-X$_{NLG}$: A Meta-Learning Approach Based on Language Clustering for Zero-Shot Cross-Lingual Transfer and Generation [11.155430893354769]
本稿では,類型的に多様な言語から共有可能な構造を学習するためのメタラーニングフレームワークを提案する。まず、まず言語表現に基づいて言語をクラスタ化し、各クラスタのセントロイド言語を識別する。メタ学習アルゴリズムは、全てのセントロイド言語で訓練され、ゼロショット設定で他の言語で評価される。
論文参考訳（メタデータ） (2022-03-19T05:22:07Z)
Examining Cross-lingual Contextual Embeddings with Orthogonal Structural Probes [0.2538209532048867]
オルソゴン構造プローブ(Limisiewicz and Marevcek, 2021)では、特定の言語的特徴についてこの疑問に答えることができる。 InmBERTの文脈表現を符号化した構文(UD)と語彙(WordNet)構造情報を9つの多言語で評価した。ゼロショットと少数ショットのクロスランガル構文解析にこの結果を適用した。
論文参考訳（メタデータ） (2021-09-10T15:03:11Z)
Learning Contextualised Cross-lingual Word Embeddings and Alignments for Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文参考訳（メタデータ） (2020-10-27T22:24:01Z)
XL-WiC: A Multilingual Benchmark for Evaluating Semantic Contextualization [98.61159823343036]
単語の意味を正確にモデル化する能力を評価するために,Word-in-Context データセット (WiC) を提案する。我々は、XL-WiCという大規模なマルチ言語ベンチマークを提案し、12の新しい言語でゴールドスタンダードを特徴付けました。実験結果から、ターゲット言語にタグ付けされたインスタンスが存在しない場合でも、英語データのみにトレーニングされたモデルは、競争力のあるパフォーマンスが得られることが示された。
論文参考訳（メタデータ） (2020-10-13T15:32:00Z)
A Multi-Perspective Architecture for Semantic Code Search [58.73778219645548]
テキストマッチングのための新しい多言語間ニューラルネットワークを提案する。 CoNaLaデータセットを用いた実験により,提案したモデルでは,従来の手法よりも優れた性能が得られることが示された。
論文参考訳（メタデータ） (2020-05-06T04:46:11Z)
XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文参考訳（メタデータ） (2020-05-01T12:22:33Z)
On the Language Neutrality of Pre-trained Multilingual Representations [70.93503607755055]
語彙意味論に関して,多言語文脈埋め込みの言語中立性を直接的に検討する。その結果、文脈埋め込みは言語ニュートラルであり、概して静的な単語型埋め込みよりも情報的であることがわかった。本稿では,言語識別における最先端の精度に到達し,並列文の単語アライメントのための統計的手法の性能を一致させる方法について述べる。
論文参考訳（メタデータ） (2020-04-09T19:50:32Z)
Multi-SimLex: A Large-Scale Evaluation of Multilingual and Cross-Lingual Lexical Semantic Similarity [67.36239720463657]
Multi-SimLexは、12の異なる言語のデータセットをカバーする大規模な語彙リソースと評価ベンチマークである。各言語データセットは、意味的類似性の語彙的関係に注釈付けされ、1,888のセマンティック・アライメント・コンセプト・ペアを含む。言語間の概念の整合性のため、66の言語間セマンティック類似性データセットを提供する。
論文参考訳（メタデータ） (2020-03-10T17:17:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。