論文の概要: Lexicalized Constituency Parsing for Middle Dutch: Low-resource Training and Cross-Domain Generalization
- arxiv url: http://arxiv.org/abs/2601.07008v1
- Date: Sun, 11 Jan 2026 17:48:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.114229
- Title: Lexicalized Constituency Parsing for Middle Dutch: Low-resource Training and Cross-Domain Generalization
- Title(参考訳): 中オランダのレキシカル化選挙区パーシング--低資源教育とクロスドメイン・ジェネラル化
- Authors: Yiming Liang, Fang Zhao,
- Abstract要約: 我々はトランスフォーマーベースの選挙区を低資源の歴史的言語であるミドル・ダッチに適用する。
我々は,高資源補助語による共同訓練によってF1スコアが最大0.73まで増加し,オランダ語に近い言語からの最大の利益が得られたことを示す。
- 参考スコア(独自算出の注目度): 9.793385469393728
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent years have seen growing interest in applying neural networks and contextualized word embeddings to the parsing of historical languages. However, most advances have focused on dependency parsing, while constituency parsing for low-resource historical languages like Middle Dutch has received little attention. In this paper, we adapt a transformer-based constituency parser to Middle Dutch, a highly heterogeneous and low-resource language, and investigate methods to improve both its in-domain and cross-domain performance. We show that joint training with higher-resource auxiliary languages increases F1 scores by up to 0.73, with the greatest gains achieved from languages that are geographically and temporally closer to Middle Dutch. We further evaluate strategies for leveraging newly annotated data from additional domains, finding that fine-tuning and data combination yield comparable improvements, and our neural parser consistently outperforms the currently used PCFG-based parser for Middle Dutch. We further explore feature-separation techniques for domain adaptation and demonstrate that a minimum threshold of approximately 200 examples per domain is needed to effectively enhance cross-domain performance.
- Abstract(参考訳): 近年、ニューラルネットワークや文脈化された単語の埋め込みを歴史的言語の構文解析に適用することへの関心が高まっている。
しかし、ほとんどの進歩は依存関係解析に焦点を合わせており、中オランダ語のような低リソースの歴史的言語に対する選挙区解析はほとんど注目されていない。
本稿では,トランスフォーマーベースの選挙区パーサを,高度に異質で低リソースな言語であるミドル・ダッチに適用し,ドメイン内性能とクロスドメイン性能を両立させる手法について検討する。
我々は,高リソース補助言語を用いた共同学習がF1スコアを最大0.73まで増加させ,地理的に時間的にオランダ語に近い言語から得られる最大の利益を示す。
我々はさらに、追加ドメインからの注釈付きデータを活用する戦略を評価し、微調整とデータの組み合わせが同等の改善をもたらすことを発見し、我々のニューラルパーザは、現在中オランダで使われているPCFGベースのパーサよりも一貫して優れていることを確かめた。
さらに,ドメイン適応のための機能分離手法について検討し,ドメイン間性能を効果的に向上させるためには,ドメインあたり200個のサンプルの最小しきい値が必要であることを示す。
関連論文リスト
- Cross-domain Chinese Sentence Pattern Parsing [67.1381983012038]
文パターン構造解析(SPS)は、主に言語教育に使用される構文解析法である。
既存のSPSは教科書のコーパスに大きく依存しており、クロスドメイン機能に欠ける。
本稿では,大規模言語モデル(LLM)を自己学習フレームワーク内で活用する革新的な手法を提案する。
論文 参考訳(メタデータ) (2024-02-26T05:30:48Z) - End-to-End Lip Reading in Romanian with Cross-Lingual Domain Adaptation
and Lateral Inhibition [2.839471733237535]
我々は、Wild LRRoと呼ばれる、表現不足の短いルーマニア語のデータセット上で、いくつかのアーキテクチャと最適化を解析する。
提案手法,すなわち,言語間ドメイン適応とラベルなしビデオを用いて,最先端の検索結果を得る。
また、神経阻害機構にインスパイアされた層を付加する性能も評価した。
論文 参考訳(メタデータ) (2023-10-07T15:36:58Z) - Robust Sentiment Analysis for Low Resource languages Using Data
Augmentation Approaches: A Case Study in Marathi [0.9553673944187253]
感情分析は、テキストデータに表される感情を理解する上で重要な役割を果たす。
低リソース言語における感情分析の研究努力には大きなギャップがある。
本稿では,低リソースのIndic言語であるMarathiに対するデータ拡張アプローチについて概説する。
論文 参考訳(メタデータ) (2023-10-01T17:09:31Z) - Improving Retrieval Augmented Neural Machine Translation by Controlling
Source and Fuzzy-Match Interactions [15.845071122977158]
本稿では,トップkのドメイン内ファジィマッチングが元文に現れるRAT(Retrieval Augmented Translation)のアイデアに基づいて構築する。
本稿では,ソース文とトップkファジィなターゲット言語マッチング間のインタラクションを制御する新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-10-10T23:33:15Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - Domain Adaptation for Semantic Parsing [68.81787666086554]
本稿では,ドメイン適応のための新しいセマンティクスを提案する。このセマンティクスでは,ソースドメインと比較して,対象ドメインのアノテーション付きデータがはるかに少ない。
我々のセマンティックな利点は、2段階の粗大なフレームワークから得ており、2段階の異なる正確な処理を提供できる。
ベンチマークデータセットの実験により、我々の手法はいくつかの一般的なドメイン適応戦略より一貫して優れていることが示された。
論文 参考訳(メタデータ) (2020-06-23T14:47:41Z) - Dynamic Data Selection and Weighting for Iterative Back-Translation [116.14378571769045]
本稿では,反復的バックトランスレーションモデルのためのカリキュラム学習戦略を提案する。
我々は、ドメイン適応、低リソース、高リソースMT設定に関するモデルを評価する。
実験の結果,提案手法は競争基準値よりも最大1.8 BLEU点の改善を達成できた。
論文 参考訳(メタデータ) (2020-04-07T19:49:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。