論文の概要: Cross-Lingual Constituency Parsing for Middle High German: A
Delexicalized Approach
- arxiv url: http://arxiv.org/abs/2308.04645v1
- Date: Wed, 9 Aug 2023 01:02:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-10 15:31:39.207642
- Title: Cross-Lingual Constituency Parsing for Middle High German: A
Delexicalized Approach
- Title(参考訳): 中高地ドイツ語における言語横断構文解析--語彙化アプローチ
- Authors: Ercong Nie, Helmut Schmid, Hinrich Sch\"utze
- Abstract要約: 本研究は現実的な条件下で$mathbfM$iddle $mathbfG$erman $mathbfMHG$の選挙区を構築することに焦点を当てる。
MHG と $mathbfM$odern $mathbfG$erman $mathbfMG$ の言語的連続性と構造的類似性と MG ツリーバンクリソースの豊富さを利用する。
われわれはMHGテストセットにおいて,F1スコア67.3%を達成し,優れた性能を示した。
- 参考スコア(独自算出の注目度): 0.3437656066916039
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Constituency parsing plays a fundamental role in advancing natural language
processing (NLP) tasks. However, training an automatic syntactic analysis
system for ancient languages solely relying on annotated parse data is a
formidable task due to the inherent challenges in building treebanks for such
languages. It demands extensive linguistic expertise, leading to a scarcity of
available resources. To overcome this hurdle, cross-lingual transfer techniques
which require minimal or even no annotated data for low-resource target
languages offer a promising solution. In this study, we focus on building a
constituency parser for $\mathbf{M}$iddle $\mathbf{H}$igh $\mathbf{G}$erman
$\mathbf{MHG}$ under realistic conditions, where no annotated MHG treebank is
available for training. In our approach, we leverage the linguistic continuity
and structural similarity between MHG and $\mathbf{M}$odern $\mathbf{G}$erman
$\mathbf{MG}$, along with the abundance of MG treebank resources. Specifically,
by employing the $\mathit{delexicalization}$ method, we train a constituency
parser on MG parse datasets and perform cross-lingual transfer to MHG parsing.
Our delexicalized constituency parser demonstrates remarkable performance on
the MHG test set, achieving an F1-score of 67.3%. It outperforms the best
zero-shot cross-lingual baseline by a margin of 28.6% points. These encouraging
results underscore the practicality and potential for automatic syntactic
analysis in other ancient languages that face similar challenges as MHG.
- Abstract(参考訳): 選挙区解析は自然言語処理(NLP)タスクの進行に重要な役割を果たしている。
しかし,注釈付きパースデータのみに頼った古代語の自動構文解析システムの訓練は,木バンクの構築に固有の課題のため,非常に難しい課題である。
言語的な専門知識が必要であり、利用可能な資源が不足している。
このハードルを克服するために、低リソースのターゲット言語に注釈付きデータを最小または全く必要としない言語間転送技術は、有望な解決策を提供する。
本研究では,実環境下でのMHGツリーバンクのアノテートがなければ,$\mathbf{M}$iddle $\mathbf{H}$igh $\mathbf{G}$erman $\mathbf{MHG}$に対する選挙区パーサの構築に焦点をあてる。
提案手法では,MHGと$\mathbf{M}$odern $\mathbf{G}$erman $\mathbf{MG}$の言語的連続性と構造的類似性を,MGツリーバンク資源の豊富さとともに活用する。
具体的には、$\mathit{delexicalization}$メソッドを用いることで、MGパースデータセット上の選挙区パーサをトレーニングし、MHGパースへの言語間転送を行う。
われわれは,MHGテストセットにおいて,F1スコア67.3%を達成し,顕著な性能を示した。
ゼロショットクロスランガルベースラインでは28.6%の差で最高の成績を残している。
これらの奨励的な結果は、MHGと同じような課題に直面している他の古代言語における自動構文解析の実践性と可能性を示している。
関連論文リスト
- SynDARin: Synthesising Datasets for Automated Reasoning in Low-Resource Languages [44.85501254683431]
質問回答データセットは、コレクションと手動アノテーションのコストと難しさのため、英語以外の言語では不十分である。
低リソース言語向けQAデータセットの生成と検証を行う方法である$textbfS$yn$textbfDAR$inを提案する。
論文 参考訳(メタデータ) (2024-06-20T15:49:28Z) - LAMPAT: Low-Rank Adaption for Multilingual Paraphrasing Using Adversarial Training [19.173992333194683]
パラフレーズ(英: Paraphrase)とは、異なる単語や文構造を用いて同じ意味を伝えるテキストである。
これまでの研究は機械翻訳の知識を活用し、ゼロショット機械翻訳によるパラフレーズを同じ言語で生成してきた。
単言語データセットが人間に似た多文を生成するのに十分である最初の教師なし多言語パラフレーズモデル LAMPAT を提案する。
論文 参考訳(メタデータ) (2024-01-09T04:19:16Z) - Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations [59.056367787688146]
本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。
我々は10の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
翻訳を利用して、10個の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
論文 参考訳(メタデータ) (2023-10-31T08:09:20Z) - Mitigating Data Imbalance and Representation Degeneration in
Multilingual Machine Translation [103.90963418039473]
Bi-ACLは、MNMTモデルの性能を向上させるために、ターゲット側モノリンガルデータとバイリンガル辞書のみを使用するフレームワークである。
Bi-ACLは、長い尾の言語でも、高リソースの言語でも、より効果的であることを示す。
論文 参考訳(メタデータ) (2023-05-22T07:31:08Z) - Meta-Learning a Cross-lingual Manifold for Semantic Parsing [75.26271012018861]
新しい言語をサポートするためにセマンティックをローカライズするには、効果的な言語間一般化が必要である。
本稿では,言語間移動において,最大サンプル効率で注釈付きセマンティックを学習するための一階メタ学習アルゴリズムを提案する。
ATIS上の6つの言語にまたがる結果は、ステップの組み合わせによって、各新言語におけるソーストレーニングデータの10パーセントを正確なセマンティクスでサンプリングできることを示している。
論文 参考訳(メタデータ) (2022-09-26T10:42:17Z) - ZmBART: An Unsupervised Cross-lingual Transfer Framework for Language
Generation [4.874780144224057]
自然言語生成のための言語間移動は、比較的研究が進められている。
NLGの4つのタスク(テキスト要約、質問生成、ニュース見出し生成、イントラクタ生成)と3つの構文的に多様な言語について検討する。
並列あるいは擬似並列/バックトランスレートデータを使用しない教師なし言語間言語生成フレームワーク(ZmBART)を提案する。
論文 参考訳(メタデータ) (2021-06-03T05:08:01Z) - Zero-Shot Cross-lingual Semantic Parsing [56.95036511882921]
7つのテスト言語に対する並列データを持たないゼロショット問題として,言語間セマンティックパーシングについて検討した。
英文論理形式ペアデータのみを用いて解析知識を付加言語に転送するマルチタスクエンコーダデコーダモデルを提案する。
このシステムは、ゼロショット解析を潜時空間アライメント問題としてフレーム化し、事前訓練されたモデルを改善し、最小のクロスリンガル転送ペナルティで論理形式を生成することができる。
論文 参考訳(メタデータ) (2021-04-15T16:08:43Z) - RNNs can generate bounded hierarchical languages with optimal memory [113.73133308478612]
RNNは、自然言語構文の足場を反映した境界階層言語を効率的に生成できることを示す。
Dyck-($k$,$m$)は、よくネストされた括弧($k$型)と$m$バウンドされたネスト深さの言語である。
明示的な構成により,$O(m log k)$ hidden units の RNN がメモリの指数的削減に十分であることを示す。
論文 参考訳(メタデータ) (2020-10-15T04:42:29Z) - Bootstrapping a Crosslingual Semantic Parser [74.99223099702157]
我々は、英語のような単一の言語で訓練された意味を、最小限のアノテーションで新しい言語や複数のドメインに適用する。
我々は、機械翻訳がトレーニングデータの適切な代用であるかどうかを問うとともに、英語、パラフレーズ、多言語事前学習モデルとの併用トレーニングを用いて、ブートストラップを調査するように拡張する。
論文 参考訳(メタデータ) (2020-04-06T12:05:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。