論文の概要: Dependency Annotation of Ottoman Turkish with Multilingual BERT
- arxiv url: http://arxiv.org/abs/2402.14743v2
- Date: Thu, 22 Aug 2024 11:29:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-23 19:35:21.531477
- Title: Dependency Annotation of Ottoman Turkish with Multilingual BERT
- Title(参考訳): 多言語BERTによるトルコ語の係り受けアノテーション
- Authors: Şaziye Betül Özateş, Tarık Emre Tıraş, Efe Eren Genç, Esma Fatıma Bilgin Taşdemir,
- Abstract要約: 本研究は,トルコ語で最初のダンシーツリーバンクのための,事前訓練された大規模言語モデルに基づくアノテーション手法について紹介する。
結果として得られたツリーバンクは、オスマン帝国の文書を自動解析し、この歴史的遺産に埋め込まれた言語的豊かさを解放する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This study introduces a pretrained large language model-based annotation methodology for the first de dency treebank in Ottoman Turkish. Our experimental results show that, iteratively, i) pseudo-annotating data using a multilingual BERT-based parsing model, ii) manually correcting the pseudo-annotations, and iii) fine-tuning the parsing model with the corrected annotations, we speed up and simplify the challenging dependency annotation process. The resulting treebank, that will be a part of the Universal Dependencies (UD) project, will facilitate automated analysis of Ottoman Turkish documents, unlocking the linguistic richness embedded in this historical heritage.
- Abstract(参考訳): 本研究では,トルコ語で初となるデディエンシツリーバンクに対して,事前訓練された大規模言語モデルに基づくアノテーション手法を提案する。
我々の実験結果は、反復的に、
一 多言語BERTに基づく構文解析モデルを用いた疑似注釈データ
二 偽アノテーションを手動で訂正すること。
iii) 修正されたアノテーションでパースモデルを微調整し、依存関係のアノテーションプロセスのスピードアップと単純化を行います。
結果として得られたツリーバンクは、ユニバーサル・依存性(UD)プロジェクトの一部となるもので、オスマン帝国の文書の自動解析を促進し、この歴史的遺産に埋め込まれた言語豊かさを解放する。
関連論文リスト
- Large corpora and large language models: a replicable method for automating grammatical annotation [0.0]
英語評価動詞構築における形式的変化の事例研究に応用された方法論的パイプライン「consider X (as) (to be) Y」を紹介する。
少数のトレーニングデータだけで、保留中のテストサンプルで90%以上の精度でモデルに到達します。
本研究は, 文法的構成と文法的変化および変化に関する幅広いケーススタディに対して, 結果の一般化可能性について論じる。
論文 参考訳(メタデータ) (2024-11-18T03:29:48Z) - Localizing Factual Inconsistencies in Attributable Text Generation [91.981439746404]
本稿では,帰属可能なテキスト生成における事実の不整合をローカライズするための新しい形式であるQASemConsistencyを紹介する。
まず,人間のアノテーションに対するQASemConsistency法の有効性を示す。
そこで我々は,局所的な事実の不整合を自動的に検出するいくつかの手法を実装した。
論文 参考訳(メタデータ) (2024-10-09T22:53:48Z) - Adapting PromptORE for Modern History: Information Extraction from Hispanic Monarchy Documents of the XVIth Century [2.490441444378203]
本稿では,PmptOREを応用して,特殊文書,すなわちスペイン審問による裁判のデジタル写本から関係を抽出する手法を提案する。
提案手法では,予測を行うデータに対して,事前学習対象を持つトランスフォーマーモデルを微調整する。
その結果,Biased PromptOREモデルでは50%の精度向上が得られた。
論文 参考訳(メタデータ) (2024-05-24T13:39:47Z) - Rethinking Masked Language Modeling for Chinese Spelling Correction [70.85829000570203]
言語モデルと誤りモデルという2つの異なるモデルによる共同決定として,中国語のスペル補正(CSC)について検討する。
細調整されたBERTは、言語モデルに不適合なままエラーモデルに過度に適合する傾向にあり、その結果、分布外エラーパターンへの一般化が不十分であることがわかった。
微調整中に入力シーケンスから20%の非エラートークンをランダムにマスキングする非常に単純な戦略は、エラーモデルを犠牲にすることなく、はるかに優れた言語モデルを学ぶのに十分であることを示す。
論文 参考訳(メタデータ) (2023-05-28T13:19:12Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - A Unified Neural Network Model for Readability Assessment with Feature
Projection and Length-Balanced Loss [17.213602354715956]
本稿では,可読性評価のための特徴投影と長さバランス損失を考慮したBERTモデルを提案する。
本モデルは,2つの英語ベンチマークデータセットと1つの中国語教科書データセットを用いて,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-10-19T05:33:27Z) - CROP: Zero-shot Cross-lingual Named Entity Recognition with Multilingual
Labeled Sequence Translation [113.99145386490639]
言語間NERは、整列した言語間表現や機械翻訳結果を通じて、言語間で知識を伝達することができる。
ゼロショット言語間NERを実現するために,クロスランガル・エンティティ・プロジェクション・フレームワーク(CROP)を提案する。
多言語ラベル付きシーケンス翻訳モデルを用いて、タグ付けされたシーケンスをターゲット言語に投影し、ターゲットの原文にラベル付けする。
論文 参考訳(メタデータ) (2022-10-13T13:32:36Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Entity and Evidence Guided Relation Extraction for DocRED [33.69481141963074]
この課題に対して,共同トレーニングフレームワークE2GRE(Entity and Evidence Guided Relation extract)を提案する。
事前訓練された言語モデル(例えばBERT, RoBERTa)への入力としてエンティティ誘導シーケンスを導入する。
これらのエンティティ誘導シーケンスは、事前訓練された言語モデル(LM)がエンティティに関連するドキュメントの領域に集中するのに役立ちます。
我々は最近リリースされた関係抽出のための大規模データセットDocREDに対するE2GREアプローチを評価した。
論文 参考訳(メタデータ) (2020-08-27T17:41:23Z) - Analysis of the Penn Korean Universal Dependency Treebank (PKT-UD):
Manual Revision to Build Robust Parsing Model in Korean [15.899449418195106]
我々は最初に、PKT-UD(Penn Korean Universal Treebank)に関する重要な問題についてオープンする。
我々は、よりクリーンなUDアノテーションを作成するために、コーパス全体を手動で修正することで、これらの問題に対処する。
UDコーパスの他の部分との互換性については、音声タグと依存関係関係を広範囲に修正する。
論文 参考訳(メタデータ) (2020-05-26T17:46:46Z) - Coreferential Reasoning Learning for Language Representation [88.14248323659267]
本稿では,コンテキスト内でコアファーデンシャル関係をキャプチャ可能な新しい言語表現モデルCorefBERTを提案する。
実験の結果,既存のベースラインモデルと比較して,CorefBERTは下流のNLPタスクにおいて一貫した大幅な改善を達成できることがわかった。
論文 参考訳(メタデータ) (2020-04-15T03:57:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。