論文の概要: Thai Universal Dependency Treebank
- arxiv url: http://arxiv.org/abs/2405.07586v1
- Date: Mon, 13 May 2024 09:48:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-14 14:24:56.608793
- Title: Thai Universal Dependency Treebank
- Title(参考訳): タイのユニバーサル依存ツリーバンク
- Authors: Panyur Sriwirote, Wei Qi Leong, Charin Polpanumas, Santhawat Thanyawong, William Chandra Tjhi, Wirote Aroonmanakun, Attapol T. Rutherford,
- Abstract要約: 我々は,3,627本の木からなるタイ国最大のツリーバンクであるタイ・ユニバーサル・依存性ツリーバンク(TUD)について,UD(Universal Dependency)フレームワークに従って紹介する。
次に、事前学習したエンコーダを組み込んだ依存性解析モデルをベンチマークし、タイのPUDとTUDでトレーニングする。
その結果、我々のモデルのほとんどは、以前の論文で報告された他のモデルよりも優れており、タイの依存するコンポーネントの最適な選択についての洞察を提供することができることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic dependency parsing of Thai sentences has been underexplored, as evidenced by the lack of large Thai dependency treebanks with complete dependency structures and the lack of a published systematic evaluation of state-of-the-art models, especially transformer-based parsers. In this work, we address these problems by introducing Thai Universal Dependency Treebank (TUD), a new largest Thai treebank consisting of 3,627 trees annotated in accordance with the Universal Dependencies (UD) framework. We then benchmark dependency parsing models that incorporate pretrained transformers as encoders and train them on Thai-PUD and our TUD. The evaluation results show that most of our models can outperform other models reported in previous papers and provide insight into the optimal choices of components to include in Thai dependency parsers. The new treebank and every model's full prediction generated in our experiment are made available on a GitHub repository for further study.
- Abstract(参考訳): タイ語の文の自動係り受け解析は、完全な従属構造を持つタイ語の従属木バンクの欠如や、最先端のモデル、特にトランスフォーマーベースのパーサーの体系的な評価の欠如など、調査が過小評価されている。
本研究は,3,627本の木からなるタイ国最大のツリーバンクであるThai Universal Dependency Treebank (TUD)を導入し,これらの課題に対処するものである。
次に、事前学習したトランスフォーマーをエンコーダとして組み込んだ依存性解析モデルをベンチマークし、タイのPUDとTUDでトレーニングする。
評価の結果、我々のモデルのほとんどは、以前の論文で報告された他のモデルよりも優れており、タイの依存性解析に含めるコンポーネントの最適な選択についての洞察を提供することができる。
新しいtreebankと、我々の実験で生成されたすべてのモデルの完全な予測は、さらなる研究のためにGitHubリポジトリで公開されている。
関連論文リスト
- Modern Neighborhood Components Analysis: A Deep Tabular Baseline Two Decades Later [59.88557193062348]
我々は、インスタンス間のセマンティックな類似性をキャプチャする線形射影を学習するために設計された古典的近傍成分分析(NCA)を再考する。
学習目的の調整や深層学習アーキテクチャの統合といった微調整は,NAAの性能を著しく向上させることがわかった。
また,提案したModernNCAの効率性と予測精度を向上する,近隣のサンプリング戦略も導入する。
論文 参考訳(メタデータ) (2024-07-03T16:38:57Z) - Dependency Annotation of Ottoman Turkish with Multilingual BERT [0.0]
本研究は,トルコ語で最初のダンシーツリーバンクのための,事前訓練された大規模言語モデルに基づくアノテーション手法について紹介する。
結果として得られたツリーバンクは、オスマン帝国の文書を自動解析し、この歴史的遺産に埋め込まれた言語的豊かさを解放する。
論文 参考訳(メタデータ) (2024-02-22T17:58:50Z) - Enhancements to the BOUN Treebank Reflecting the Agglutinative Nature of
Turkish [0.6514569292630354]
我々は,ユビキタス依存の枠組みから外れることなく,非正規形態表現の欠如,高度に生産的な派生過程,およびBOUNツリーバンクにおけるトルコ語の同期形態表現の欠如の問題を解決することを目的としている。
特定の補題を分割し、派生を表すためにUDフレームワークのMISC(miscellaneous)タブを使うことによって、新しいアノテーションの慣習が導入された。
LSTMベースの依存関係で再アノテーションされたツリーバンクの表現機能をテストし、BoAT Toolの更新版が導入された。
論文 参考訳(メタデータ) (2022-07-24T17:56:27Z) - Unsupervised and Few-shot Parsing from Pretrained Language Models [56.33247845224995]
本研究では,事前学習言語モデルで学習した自己注意重み行列に基づいて,アウトアソシエーションスコアを算出した教師なし構成的パーシングモデルを提案する。
教師なしモデルからいくつかの注釈付き木を用いた数ショット構文解析モデルに拡張し、解析のためのより優れた線形射影行列を学習する。
FPIOは20本の注釈付き木で訓練され、50本の注釈付き木で訓練された過去の数枚の構文解析よりも優れていた。
論文 参考訳(メタデータ) (2022-06-10T10:29:15Z) - Out-of-Domain Evaluation of Finnish Dependency Parsing [0.8957681069740162]
多くの実世界のアプリケーションでは、モデルが適用されるデータはトレーニングデータの特徴と大きく異なる場合がある。
本稿では,フィンランドのアウト・オブ・ドメイン解析に焦点をあて,新しいUDフィンランド語アウト・オブ・ドメインツリーバンクを導入する。
本稿では,3つのUDツリーバンクから利用可能なセクションレベル情報を利用した領域外評価について述べる。
論文 参考訳(メタデータ) (2022-04-22T10:34:19Z) - AutoBERT-Zero: Evolving BERT Backbone from Scratch [94.89102524181986]
そこで本稿では,提案するハイブリッドバックボーンアーキテクチャを自動検索するOP-NASアルゴリズムを提案する。
提案するOP-NASの効率を向上させるために,探索アルゴリズムと候補モデルの評価を最適化する。
実験の結果、検索されたアーキテクチャ(AutoBERT-Zero)は、様々な下流タスクにおいてBERTとそのバリエーションの異なるモデル容量を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-07-15T16:46:01Z) - Linguistic dependencies and statistical dependence [76.89273585568084]
文脈における単語の確率を推定するために,事前学習した言語モデルを用いる。
最大CPMI木は非文脈PMI推定値から抽出した木よりも言語的依存関係によく対応していることがわかった。
論文 参考訳(メタデータ) (2021-04-18T02:43:37Z) - Constructing Taxonomies from Pretrained Language Models [52.53846972667636]
本稿では,事前学習した言語モデルを用いて分類木(WordNetなど)を構築する手法を提案する。
我々のアプローチは2つのモジュールから構成されており、1つは親関係を予測し、もう1つはそれらの予測を木に調整する。
我々は、WordNetからサンプリングされたサブツリーでモデルをトレーニングし、重複しないWordNetサブツリーでテストする。
論文 参考訳(メタデータ) (2020-10-24T07:16:21Z) - Recursive Top-Down Production for Sentence Generation with Latent Trees [77.56794870399288]
自然および合成言語に対する文脈自由文法の生成特性をモデル化する。
潜伏二分木構造にN$の葉を持つ動的プログラミングアルゴリズムを提案する。
また,Multi30kデータセットを用いたドイツ語と英語の翻訳実験を行った。
論文 参考訳(メタデータ) (2020-10-09T17:47:16Z) - Analysis of the Penn Korean Universal Dependency Treebank (PKT-UD):
Manual Revision to Build Robust Parsing Model in Korean [15.899449418195106]
我々は最初に、PKT-UD(Penn Korean Universal Treebank)に関する重要な問題についてオープンする。
我々は、よりクリーンなUDアノテーションを作成するために、コーパス全体を手動で修正することで、これらの問題に対処する。
UDコーパスの他の部分との互換性については、音声タグと依存関係関係を広範囲に修正する。
論文 参考訳(メタデータ) (2020-05-26T17:46:46Z) - Universal Dependencies according to BERT: both more specific and more
general [4.63257209402195]
本研究は,自己意図からラベル付き依存木を抽出することにより,BERTが捉えた構文抽象の形式と範囲を分析することに焦点を当てる。
BERTとUD(Universal Dependencies)アノテーションを明示的に比較することにより,これらの知見を拡張し,一対一で一致しないことが多いことを示す。
このアプローチは,従来の作業よりもはるかに一貫性のある依存性ツリーを生成し,BERTの構文的抽象化をよりうまく説明できることを示す。
論文 参考訳(メタデータ) (2020-04-30T07:48:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。