論文の概要: Transfer Learning for an Endangered Slavic Variety: Dependency Parsing in Pomak Across Contact-Shaped Dialects
- arxiv url: http://arxiv.org/abs/2603.28033v1
- Date: Mon, 30 Mar 2026 04:54:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.234443
- Title: Transfer Learning for an Endangered Slavic Variety: Dependency Parsing in Pomak Across Contact-Shaped Dialects
- Title(参考訳): 絶滅危惧種スラヴ品種の移動学習--接点型方言間のポマクの係り受け解析
- Authors: Sercan Karakaş,
- Abstract要約: 我々はトルコで話されている諸種(ウズンクプル)に焦点を当て、既存のポマク・ユニバーサル依存ツリーバンクの方言間の移動について、どの程度の依存性が十分に訓練されているかを尋ねる。
650の文を手動で注釈付けしたトルコ語版Pomakコーパスを導入し,小さながら微調整を目標とした場合の精度が著しく向上することを示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents new resources and baselines for Dependency Parsing in Pomak, an endangered Eastern South Slavic language with substantial dialectal variation and no widely adopted standard. We focus on the variety spoken in Turkey (Uzunköprü) and ask how well a dependency parser trained on the existing Pomak Universal Dependencies treebank, which was built primarily from the variety that is spoken in Greece, transfers across dialects. We run two experimental phases. First, we train a parser on the Greek-variety UD data and evaluate zero-shot transfer to Turkish-variety Pomak, quantifying the impact of phonological and morphosyntactic differences. Second, we introduce a new manually annotated Turkish-variety Pomak corpus of 650 sentences and show that, despite its small size, targeted fine-tuning substantially improves accuracy; performance is further boosted by cross-variety transfer learning that combines the two dialects.
- Abstract(参考訳): 本稿では,ポマク語における係り受け解析のための新たな資源と基盤について述べる。
我々はトルコで話されている諸種(ウズンケプリ)に注目し、ギリシャで話されている諸種から構築された既存のポマク・ユニバーサル・依存ツリーバンク(英語版)で訓練された依存パーサーが、方言をまたいだ移動によってどれだけうまく訓練されているかを尋ねる。
実験段階は2つある。
まず,ギリシャ変量UDデータに基づいてパーサーを訓練し,トルコ変量Pomakへのゼロショット転送を評価し,音韻学的および形態的差異の影響を定量化する。
第2に,手動で注釈付きトルコ語変種ポマクコーパスを650文導入し,その小ささにもかかわらず,標的とした微調整が精度を大幅に向上することを示す。
関連論文リスト
- A Computational Approach to Analyzing Language Change and Variation in the Constructed Language Toki Pona [0.8057006406834466]
本研究では,約120のコア語を持つ構築言語である Toki Pona の言語変化と変化について検討する。
以上の結果から,社会言語学的な要因が土岐ポナにも自然言語と同様の影響を及ぼし,地域社会が利用する言語体系も自然に進化していくことが示唆された。
論文 参考訳(メタデータ) (2025-08-14T00:26:43Z) - Improving Low-Resource Machine Translation via Cross-Linguistic Transfer from Typologically Similar High-Resource Languages [0.0]
本研究では,低リソース機械翻訳におけるトランスファー学習の言語間効果について検討した。
異なる家系にまたがる5つの言語対について実験を行った。
その結果,トランスファー学習はすべてのペアの翻訳品質を一貫して向上させることがわかった。
論文 参考訳(メタデータ) (2024-12-27T16:34:56Z) - Breaking the Script Barrier in Multilingual Pre-Trained Language Models with Transliteration-Based Post-Training Alignment [50.27950279695363]
転送性能は、低リソースのターゲット言語が高リソースのソース言語とは異なるスクリプトで書かれている場合、しばしば妨げられる。
本論文は,この問題に対処するために翻訳を用いた最近の研究に触発されて,翻訳に基づくポストプレトレーニングアライメント(PPA)手法を提案する。
論文 参考訳(メタデータ) (2024-06-28T08:59:24Z) - Modeling Orthographic Variation in Occitan's Dialects [3.038642416291856]
大規模多言語モデルは、前処理時のスペル正規化の必要性を最小限に抑える。
以上の結果から,複数言語モデルでは,前処理時のスペル正規化の必要性が最小限に抑えられていることが示唆された。
論文 参考訳(メタデータ) (2024-04-30T07:33:51Z) - Syntactic Language Change in English and German: Metrics, Parsers, and Convergences [56.47832275431858]
本論文は,過去160年間の議会討論のコーパスを用いて,英語とドイツ語の統語的言語変化のダイアクロニックな傾向を考察する。
私たちは、広く使われているStanford Coreと、新しい4つの選択肢を含む5つの依存関係をベースとしています。
文長分布の尾部では,構文的尺度の変化が頻繁であることが明らかとなった。
論文 参考訳(メタデータ) (2024-02-18T11:46:16Z) - Cross-Linguistic Syntactic Difference in Multilingual BERT: How Good is
It and How Does It Affect Transfer? [50.48082721476612]
マルチリンガルBERT (mBERT) は, 言語間シンタクティックな機能を示した。
我々は,mBERTから引き起こされる文法的関係の分布を,24言語に類型的に異なる文脈で検討した。
論文 参考訳(メタデータ) (2022-12-21T09:44:08Z) - Multi-VALUE: A Framework for Cross-Dialectal English NLP [49.55176102659081]
マルチディレクト (Multi-Dilect) は、50の英語方言にまたがる制御可能なルールベースの翻訳システムである。
ストレステストは、非標準方言の先行モデルに対する顕著な性能格差を示す。
私たちはチカノやインド英語のネイティブスピーカーと提携して、人気のあるCoQAタスクの新しいゴールドスタンダード版をリリースしています。
論文 参考訳(メタデータ) (2022-12-15T18:17:01Z) - Gender Bias in Multilingual Embeddings and Cross-Lingual Transfer [101.58431011820755]
多言語埋め込みにおけるジェンダーバイアスとNLPアプリケーションの伝達学習への影響について検討する。
我々は、バイアス分析のための多言語データセットを作成し、多言語表現におけるバイアスの定量化方法をいくつか提案する。
論文 参考訳(メタデータ) (2020-05-02T04:34:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。