論文の概要: UD-KSL Treebank v1.3: A semi-automated framework for aligning XPOS-extracted units with UPOS tags
- arxiv url: http://arxiv.org/abs/2506.09009v2
- Date: Wed, 11 Jun 2025 05:35:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-12 16:13:48.091973
- Title: UD-KSL Treebank v1.3: A semi-automated framework for aligning XPOS-extracted units with UPOS tags
- Title(参考訳): UD-KSL Treebank v1.3: XPOS抽出ユニットをUTPタグで整列する半自動化フレームワーク
- Authors: Hakyung Sung, Gyu-Ho Shin, Chanyoung Lee, You Kyung Sung, Boo Kyung Jung,
- Abstract要約: 本稿では,XPOS 配列から形態素合成構造を同定し,それらの構造を対応する UPOS カテゴリと整合させるセミ言語フレームワークを提案する。
我々はまた、議論的なエッセイから2,998の新たな文を注釈付けすることで、既存のL2-韓国コーパスを広げる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The present study extends recent work on Universal Dependencies annotations for second-language (L2) Korean by introducing a semi-automated framework that identifies morphosyntactic constructions from XPOS sequences and aligns those constructions with corresponding UPOS categories. We also broaden the existing L2-Korean corpus by annotating 2,998 new sentences from argumentative essays. To evaluate the impact of XPOS-UPOS alignments, we fine-tune L2-Korean morphosyntactic analysis models on datasets both with and without these alignments, using two NLP toolkits. Our results indicate that the aligned dataset not only improves consistency across annotation layers but also enhances morphosyntactic tagging and dependency-parsing accuracy, particularly in cases of limited annotated data.
- Abstract(参考訳): 本研究は,XPOS 配列から形態素合成構造を識別し,それらの構造を対応する UPOS カテゴリと整合させる半自動フレームワークを導入することによって,韓国語における第2言語(L2) のユニバーサル依存アノテーションに関する最近の研究を拡張した。
我々はまた、議論的なエッセイから2,998の新しい文を注釈付けすることで、既存のL2-韓国コーパスを広げる。
XPOS-UPOSアライメントの効果を評価するため、2つのNLPツールキットを用いてL2-韓国形態素解析モデルを構築した。
以上の結果から,アライメントデータセットはアノテーション層間の一貫性を向上するだけでなく,特にアノテートデータに制限のある場合には,モルフォシンタクティックタグや依存性パーシングの精度を向上させることが示唆された。
関連論文リスト
- Split Matching for Inductive Zero-shot Semantic Segmentation [52.90218623214213]
Zero-shot Semantic (ZSS)は、トレーニング中にアノテートされていないカテゴリをセグメントすることを目的としている。
ハンガリーのマッチングを2つのコンポーネントに分離する新しい割当て戦略であるSplit Matching (SM)を提案する。
SMは、インダクティブZSS設定の下で最初に分離されたハンガリー語マッチングを導入し、2つの標準ベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2025-05-08T07:56:30Z) - Second language Korean Universal Dependency treebank v1.2: Focus on data augmentation and annotation scheme refinement [0.0]
第2言語(L2)韓国万国依存(UD)ツリーバンクを5,454文手書きで拡張する。
韓国語の3つのモデルを微調整し、ドメイン内およびドメイン外L2-韓国のデータセット上での性能を評価する。
論文 参考訳(メタデータ) (2025-03-18T20:42:42Z) - KPC-cF: Aspect-Based Sentiment Analysis via Implicit-Feature Alignment with Corpus Filtering [0.0]
本研究は,韓国語などの低リソース言語におけるABSAの直感的で効果的な枠組みを提案する。
翻訳されたベンチマークと未ラベルの韓国データを統合することで、予測ラベルを最適化する。
英語のABSAと比較すると,F1スコアと精度に約3%の差が認められた。
論文 参考訳(メタデータ) (2024-06-29T07:01:51Z) - Dual-Alignment Pre-training for Cross-lingual Sentence Embedding [79.98111074307657]
本稿では,言語間文埋め込みのためのDAP(Dual-alignment pre-training)フレームワークを提案する。
そこで本研究では,一方の文脈化トークン表現を用いて翻訳相手を再構成する,新しい表現翻訳学習(RTL)タスクを提案する。
我々の手法は文の埋め込みを大幅に改善できる。
論文 参考訳(メタデータ) (2023-05-16T03:53:30Z) - VECO 2.0: Cross-lingual Language Model Pre-training with
Multi-granularity Contrastive Learning [56.47303426167584]
複数粒度アライメントを持つコントラスト学習に基づく言語間事前学習モデルVECO2.0を提案する。
具体的には、シーケンス・ツー・シーケンスアライメントが誘導され、並列対の類似性を最大化し、非並列対を最小化する。
トークン・ツー・トークンのアライメントは、シソーラス辞書を介して発掘された同義トークンと、バイリンガルな例の他の未使用トークンとのギャップを埋めるために統合される。
論文 参考訳(メタデータ) (2023-04-17T12:23:41Z) - Generalized Funnelling: Ensemble Learning and Heterogeneous Document
Embeddings for Cross-Lingual Text Classification [78.83284164605473]
emphFunnelling (Fun)は、最近提案された言語間テキスト分類手法である。
Emph Generalized Funnelling (gFun) はFunの一般化である。
gFunは、Funや最先端のベースラインよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2021-09-17T23:33:04Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - X2Parser: Cross-Lingual and Cross-Domain Framework for Task-Oriented
Compositional Semantic Parsing [51.81533991497547]
タスク指向コンポジションセマンティックパーシング(TCSP)は複雑なネストされたユーザクエリを処理する。
本報告では,TCSPの変換可能なクロスランガルとクロスドメインを比較した。
本稿では,フラット化意図とスロット表現を別々に予測し,両方の予測タスクをシーケンスラベリング問題にキャストすることを提案する。
論文 参考訳(メタデータ) (2021-06-07T16:40:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。