論文の概要: Second language Korean Universal Dependency treebank v1.2: Focus on data augmentation and annotation scheme refinement
- arxiv url: http://arxiv.org/abs/2503.14718v1
- Date: Tue, 18 Mar 2025 20:42:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 15:24:17.359249
- Title: Second language Korean Universal Dependency treebank v1.2: Focus on data augmentation and annotation scheme refinement
- Title(参考訳): 第2言語 韓国のユニバーサル依存ツリーバンク v1.2:データ拡張とアノテーションスキームの改良に焦点を当てて
- Authors: Hakyung Sung, Gyu-Ho Shin,
- Abstract要約: 第2言語(L2)韓国万国依存(UD)ツリーバンクを5,454文手書きで拡張する。
韓国語の3つのモデルを微調整し、ドメイン内およびドメイン外L2-韓国のデータセット上での性能を評価する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: We expand the second language (L2) Korean Universal Dependencies (UD) treebank with 5,454 manually annotated sentences. The annotation guidelines are also revised to better align with the UD framework. Using this enhanced treebank, we fine-tune three Korean language models and evaluate their performance on in-domain and out-of-domain L2-Korean datasets. The results show that fine-tuning significantly improves their performance across various metrics, thus highlighting the importance of using well-tailored L2 datasets for fine-tuning first-language-based, general-purpose language models for the morphosyntactic analysis of L2 data.
- Abstract(参考訳): 第2言語(L2)韓国万国依存(UD)ツリーバンクを5,454文手書きで拡張する。
UDフレームワークとの整合性を改善するため、アノテーションガイドラインも改訂されている。
この拡張ツリーバンクを用いて、韓国語モデル3つを微調整し、ドメイン内およびドメイン外L2-韓国のデータセット上での性能を評価する。
その結果,L2データのモルフォシンタクティック解析のための言語モデルとして,高度に調整されたL2データセットを使用することの重要性が示唆された。
関連論文リスト
- LLM-based Translation Inference with Iterative Bilingual Understanding [52.46978502902928]
大規模言語モデル(LLM)の言語間機能に基づいた,新しい反復的バイリンガル理解翻訳法を提案する。
LLMの言語横断的能力により、ソース言語とターゲット言語を別々にコンテキスト理解することが可能になる。
提案したIBUTは、いくつかの強力な比較法より優れている。
論文 参考訳(メタデータ) (2024-10-16T13:21:46Z) - Multilingual Nonce Dependency Treebanks: Understanding how Language Models represent and process syntactic structure [15.564927804136852]
SPUD (Semantically Perturbed Universal Dependencies) は、Universal Dependencies (UD) コーパスのためのナンスツリーバンクを作成するためのフレームワークである。
我々は、アラビア語、英語、フランス語、ドイツ語、ロシア語でナンスデータを作成し、SPUDツリーバンクの2つのユースケースを実証する。
論文 参考訳(メタデータ) (2023-11-13T17:36:58Z) - Improving Domain-Specific Retrieval by NLI Fine-Tuning [64.79760042717822]
本稿では、自然言語推論(NLI)データの微調整の可能性を調べ、情報検索とランキングを改善する。
コントラスト損失とNLIデータを利用した教師あり手法により細調整された単言語文エンコーダと多言語文エンコーダを併用する。
この結果から,NLIの微調整によりタスクおよび言語間のモデルの性能が向上し,単言語モデルと多言語モデルが改良される可能性が示唆された。
論文 参考訳(メタデータ) (2023-08-06T12:40:58Z) - Data Augmentation for Machine Translation via Dependency Subtree
Swapping [0.0]
依存関係のサブツリースワップによるデータ拡張のための汎用フレームワークを提案する。
我々は、ソースとターゲット文の依存関係解析木から対応するサブツリーを抽出し、ビセントスに置換して拡張サンプルを作成する。
我々は,IWSLTテキスト翻訳データセットとHunglish2コーパスを用いて,両方向の4つの言語対に関する資源制約実験を行った。
論文 参考訳(メタデータ) (2023-07-13T19:00:26Z) - LyS_ACoru\~na at SemEval-2022 Task 10: Repurposing Off-the-Shelf Tools
for Sentiment Analysis as Semantic Dependency Parsing [10.355938901584567]
本稿では,バイファイン・セマンティック・依存性を用いた構造化感情分析の課題に対処する。
i)1つのツリーバンクでのトレーニング、(ii)異なる言語から来るツリーバンクのトレーニングによってセットアップを緩和する。
i) 他の言語で利用可能なツリーバンクを単語レベルで翻訳して、騒々しく、文法的にも、注釈付きのデータを得る。
評価後の段階では、英語のすべてのツリーを単純にマージする言語間モデルも訓練した。
論文 参考訳(メタデータ) (2022-04-27T10:21:28Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z) - GATE: Graph Attention Transformer Encoder for Cross-lingual Relation and
Event Extraction [107.8262586956778]
言語に依存しない文表現を学習するために、普遍的な依存解析を伴うグラフ畳み込みネットワーク(GCN)を導入する。
GCNは、長い範囲の依存関係を持つ単語をモデル化するのに苦労する。
そこで本研究では,構文的距離の異なる単語間の依存関係を学習するための自己認識機構を提案する。
論文 参考訳(メタデータ) (2020-10-06T20:30:35Z) - Examination and Extension of Strategies for Improving Personalized
Language Modeling via Interpolation [59.35932511895986]
我々は,グローバルLSTMベースのオーサリングモデルをユーザ個人化n-gramモデルで補間することにより,ユーザレベルでのオフラインメトリクスの改善を示す。
利用者の80%以上がパープレキシティのリフトを受けており、ユーザー当たり平均5.2%がパープレキシティのリフトを受け取っている。
論文 参考訳(メタデータ) (2020-06-09T19:29:41Z) - Analysis of the Penn Korean Universal Dependency Treebank (PKT-UD):
Manual Revision to Build Robust Parsing Model in Korean [15.899449418195106]
我々は最初に、PKT-UD(Penn Korean Universal Treebank)に関する重要な問題についてオープンする。
我々は、よりクリーンなUDアノテーションを作成するために、コーパス全体を手動で修正することで、これらの問題に対処する。
UDコーパスの他の部分との互換性については、音声タグと依存関係関係を広範囲に修正する。
論文 参考訳(メタデータ) (2020-05-26T17:46:46Z) - Self-Attention with Cross-Lingual Position Representation [112.05807284056337]
位置符号化(PE)は、自然言語処理タスクの単語順序情報を保存し、入力シーケンスの固定位置インデックスを生成する。
語順が異なるため、言語間の位置関係をモデル化することは、SANがこの問題に取り組むのに役立つ。
我々は、入力文のバイリンガル認識潜在構造をモデル化するために、言語間位置表現によるSANを拡大する。
論文 参考訳(メタデータ) (2020-04-28T05:23:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。