論文の概要: Syntactic Transfer to Kyrgyz Using the Treebank Translation Method
- arxiv url: http://arxiv.org/abs/2412.13146v1
- Date: Tue, 17 Dec 2024 18:12:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 13:59:21.300921
- Title: Syntactic Transfer to Kyrgyz Using the Treebank Translation Method
- Title(参考訳): 木バンク変換法によるキルギスへの構文移動
- Authors: Anton Alekseev, Alina Tillabaeva, Gulnara Dzh. Kabaeva, Sergey I. Nikolenko,
- Abstract要約: 本研究では,キルギスにおける統語コーパスの開発過程を簡略化する手法を提案する。
本稿では,木バンクの翻訳手法に基づく構文アノテーションをトルコ語からキルギス語に翻訳するツールを提案する。
- 参考スコア(独自算出の注目度): 5.011924788933374
- License:
- Abstract: The Kyrgyz language, as a low-resource language, requires significant effort to create high-quality syntactic corpora. This study proposes an approach to simplify the development process of a syntactic corpus for Kyrgyz. We present a tool for transferring syntactic annotations from Turkish to Kyrgyz based on a treebank translation method. The effectiveness of the proposed tool was evaluated using the TueCL treebank. The results demonstrate that this approach achieves higher syntactic annotation accuracy compared to a monolingual model trained on the Kyrgyz KTMU treebank. Additionally, the study introduces a method for assessing the complexity of manual annotation for the resulting syntactic trees, contributing to further optimization of the annotation process.
- Abstract(参考訳): 低リソース言語であるキルギス語は、高品質な構文コーパスを作成するために多大な努力を必要とする。
本研究では,キルギスにおける統語コーパスの開発過程を簡略化する手法を提案する。
本稿では,木バンクの翻訳手法に基づく構文アノテーションをトルコ語からキルギス語に翻訳するツールを提案する。
提案ツールの有効性をTueCLツリーバンクを用いて評価した。
結果は,キルギスKTMUツリーバンクで訓練された単言語モデルと比較して,構文的アノテーションの精度が高いことを示す。
さらに,本研究では,構文木に対する手動アノテーションの複雑さを評価する手法を導入し,アノテーションプロセスのさらなる最適化に寄与する。
関連論文リスト
- BoolQuestions: Does Dense Retrieval Understand Boolean Logic in Language? [88.29075896295357]
まず,現在の検索システムが,言語に暗示されるブール論理を理解できるかを検討する。
広範な実験結果から,現在の高密度検索システムはブール論理を十分に理解していないという結論を導いた。
本研究では,研究コミュニティの強力な基盤となるコントラスト的連続学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-19T05:19:53Z) - Dependency Annotation of Ottoman Turkish with Multilingual BERT [0.0]
本研究は,トルコ語で最初のダンシーツリーバンクのための,事前訓練された大規模言語モデルに基づくアノテーション手法について紹介する。
結果として得られたツリーバンクは、オスマン帝国の文書を自動解析し、この歴史的遺産に埋め込まれた言語的豊かさを解放する。
論文 参考訳(メタデータ) (2024-02-22T17:58:50Z) - Unifying Structure and Language Semantic for Efficient Contrastive
Knowledge Graph Completion with Structured Entity Anchors [0.3913403111891026]
知識グラフ補完(KGC)の目標は、すでに知られている訓練された事実を用いて、KGの欠落したリンクを予測することである。
本稿では,帰納的推論の力を失うことなく,構造情報と言語意味を効果的に統一する手法を提案する。
論文 参考訳(メタデータ) (2023-11-07T11:17:55Z) - Scalable Learning of Latent Language Structure With Logical Offline
Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。
追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文 参考訳(メタデータ) (2023-05-31T16:47:20Z) - HanoiT: Enhancing Context-aware Translation via Selective Context [95.93730812799798]
コンテキスト対応ニューラルネットワーク翻訳は、文書レベルのコンテキストを使用して翻訳品質を改善することを目的としている。
無関係または自明な単語は、いくつかのノイズをもたらし、モデルが現在の文と補助的な文脈の関係を学ぶのを邪魔する可能性がある。
そこで本稿では,階層的選択機構を備えたエンド・ツー・エンドのエンコーダ・デコーダモデルを提案する。
論文 参考訳(メタデータ) (2023-01-17T12:07:13Z) - LyS_ACoru\~na at SemEval-2022 Task 10: Repurposing Off-the-Shelf Tools
for Sentiment Analysis as Semantic Dependency Parsing [10.355938901584567]
本稿では,バイファイン・セマンティック・依存性を用いた構造化感情分析の課題に対処する。
i)1つのツリーバンクでのトレーニング、(ii)異なる言語から来るツリーバンクのトレーニングによってセットアップを緩和する。
i) 他の言語で利用可能なツリーバンクを単語レベルで翻訳して、騒々しく、文法的にも、注釈付きのデータを得る。
評価後の段階では、英語のすべてのツリーを単純にマージする言語間モデルも訓練した。
論文 参考訳(メタデータ) (2022-04-27T10:21:28Z) - Chinese Lexical Simplification [29.464388721085548]
中国の語彙単純化(CLS)に関する研究は行われていない。
アノテーション取得の難しさを回避するため,我々はCLSの最初のベンチマークデータセットを手作業で作成する。
複雑な単語の代用候補を生成するために,5種類のメソッドをベースラインとして提示する。
論文 参考訳(メタデータ) (2020-10-14T12:55:36Z) - Syntactic Structure Distillation Pretraining For Bidirectional Encoders [49.483357228441434]
本稿では,BERTプレトレーニングに構文バイアスを注入するための知識蒸留手法を提案する。
我々は,構文的 LM から単語の周辺分布を抽出する。
本研究は,大量のデータを利用する表現学習者においても,構文バイアスの利点を示すものである。
論文 参考訳(メタデータ) (2020-05-27T16:44:01Z) - Exploiting Syntactic Structure for Better Language Modeling: A Syntactic
Distance Approach [78.77265671634454]
我々はマルチタスクの目的、すなわち、モデルが単語を同時に予測し、また「シンタクティック距離」と呼ばれる形態で真実解析木を解析する。
Penn Treebank と Chinese Treebank のデータセットによる実験結果から,地上の真理解析木を追加の訓練信号として提供すると,そのモデルはより低いパープレキシティを実現し,より良い品質で木を誘導できることが示された。
論文 参考訳(メタデータ) (2020-05-12T15:35:00Z) - Reference Language based Unsupervised Neural Machine Translation [108.64894168968067]
教師なしの神経機械翻訳は ほぼ完全に パラレルコーパスの呪いを和らげる
我々はUNMTのための新しい参照言語ベースのフレームワークであるRUNMTを提案し、参照言語はソースと並列コーパスを共有するのみである。
実験の結果,一つの補助言語のみを用いる強いベースラインよりもUNMTの品質が向上することが確認された。
論文 参考訳(メタデータ) (2020-04-05T08:28:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。