論文の概要: Latin Treebanks in Review: An Evaluation of Morphological Tagging Across Time
- arxiv url: http://arxiv.org/abs/2408.06675v1
- Date: Tue, 13 Aug 2024 06:55:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-14 18:26:42.292778
- Title: Latin Treebanks in Review: An Evaluation of Morphological Tagging Across Time
- Title(参考訳): ラテンツリーバンクス レビュー: 時間を通しての形態的タグ付けの評価
- Authors: Marisa Hudspeth, Brendan O'Connor, Laure Thompson,
- Abstract要約: 我々は、既存のラテンツリーバンクをレビューし、それらが引き起こしたテキストを識別し、それらの重複を識別し、時間とジャンルにわたってそれらのカバレッジを文書化する。
我々は,POSと形態的特徴タグ付けのクロスタイム解析を行うために,既存の木バンクから抽出した新しい時間分割データを構築した。
- 参考スコア(独自算出の注目度): 4.007209728400268
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Existing Latin treebanks draw from Latin's long written tradition, spanning 17 centuries and a variety of cultures. Recent efforts have begun to harmonize these treebanks' annotations to better train and evaluate morphological taggers. However, the heterogeneity of these treebanks must be carefully considered to build effective and reliable data. In this work, we review existing Latin treebanks to identify the texts they draw from, identify their overlap, and document their coverage across time and genre. We additionally design automated conversions of their morphological feature annotations into the conventions of standard Latin grammar. From this, we build new time-period data splits that draw from the existing treebanks which we use to perform a broad cross-time analysis for POS and morphological feature tagging. We find that BERT-based taggers outperform existing taggers while also being more robust to cross-domain shifts.
- Abstract(参考訳): 現存するラテン・ツリーバンクは、17世紀と様々な文化にまたがる、ラテン語の長い伝統から来ている。
最近の試みは、これらの木バンクのアノテーションを調和させて、形態的タグ付けをより良く訓練し、評価し始めている。
しかし、これらの木バンクの不均一性は、効果的で信頼性の高いデータを構築するために慎重に考慮する必要がある。
本研究では,既存のラテンツリーバンクをレビューして,それらが引き起こしたテキストを識別し,それらの重複を識別し,時間とジャンルにわたってそのカバレッジを文書化する。
我々はまた、それらの形態的特徴アノテーションを標準ラテン文法の規約に自動変換する設計も行っている。
そこで我々は,POSと形態的特徴タグ付けのクロスタイム解析を行うために,既存の木バンクから抽出した新しい時間分割データを構築した。
BERTベースのタグは既存のタグよりも優れており、ドメイン間のシフトに対して堅牢であることに気付きました。
関連論文リスト
- A State-of-the-Art Morphosyntactic Parser and Lemmatizer for Ancient Greek [0.0]
本稿では,古代ギリシアのテクストのテクスチャーとタイザーを同定するための6つのモデルの比較実験について述べる。
注釈付きテキストの主要なコレクションの正規化バージョンは、ランダムに文字を埋め込んだベースラインモデルのDithraxをトレーニングするために使用された。
ベイズ解析によれば、ディトラクスとトニケートの形態は実質的に等価であり、構文はグレタによるトニケートとレマタによって最もよく注釈される。
論文 参考訳(メタデータ) (2024-10-15T20:49:48Z) - Integrating Supertag Features into Neural Discontinuous Constituent Parsing [0.0]
伝統的な選挙区の見解では、構成要素は隣接した単語で構成されており、ドイツ語のような言語で一般的である。
トランジションベースの構文解析は、大きな注釈付きコーパス上で教師あり学習を用いて生のテキストを入力した木を生成する。
論文 参考訳(メタデータ) (2024-10-11T12:28:26Z) - Syntactic Language Change in English and German: Metrics, Parsers, and Convergences [56.47832275431858]
本論文は,過去160年間の議会討論のコーパスを用いて,英語とドイツ語の統語的言語変化のダイアクロニックな傾向を考察する。
私たちは、広く使われているStanford Coreと、新しい4つの選択肢を含む5つの依存関係をベースとしています。
文長分布の尾部では,構文的尺度の変化が頻繁であることが明らかとなった。
論文 参考訳(メタデータ) (2024-02-18T11:46:16Z) - LongFNT: Long-form Speech Recognition with Factorized Neural Transducer [64.75547712366784]
文レベルの長文特徴を語彙予測器の出力と直接融合するLongFNT-Textアーキテクチャを提案する。
また,LongFNT法の有効性を,相対単語誤り率(WER)が19%,GigaSpeechコーパスが12%,LongFNT法が19%であった。
論文 参考訳(メタデータ) (2022-11-17T08:48:27Z) - LyS_ACoru\~na at SemEval-2022 Task 10: Repurposing Off-the-Shelf Tools
for Sentiment Analysis as Semantic Dependency Parsing [10.355938901584567]
本稿では,バイファイン・セマンティック・依存性を用いた構造化感情分析の課題に対処する。
i)1つのツリーバンクでのトレーニング、(ii)異なる言語から来るツリーバンクのトレーニングによってセットアップを緩和する。
i) 他の言語で利用可能なツリーバンクを単語レベルで翻訳して、騒々しく、文法的にも、注釈付きのデータを得る。
評価後の段階では、英語のすべてのツリーを単純にマージする言語間モデルも訓練した。
論文 参考訳(メタデータ) (2022-04-27T10:21:28Z) - More Than Words: Collocation Tokenization for Latent Dirichlet
Allocation Models [71.42030830910227]
モデルが異なる環境でクラスタリングの品質を測定するための新しい指標を提案する。
マージトークンでトレーニングされたトピックは、マージされていないモデルよりも、より明確で、一貫性があり、トピックを区別する効果が高いトピックキーをもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-24T14:08:19Z) - Learning compositional structures for semantic graph parsing [81.41592892863979]
本稿では、AM依存性解析をニューラル潜在変数モデルで直接トレーニングする方法を示す。
本モデルでは,いくつかの言語現象を独自に把握し,教師あり学習に匹敵する精度を達成している。
論文 参考訳(メタデータ) (2021-06-08T14:20:07Z) - MEGA RST Discourse Treebanks with Structure and Nuclearity from Scalable
Distant Sentiment Supervision [30.615883375573432]
本稿では,感情アノテートされたデータセットから遠方からの監視を用いて,談話木バンクを自動的に生成する新しい手法を提案する。
提案手法は,効率的なビーム探索手法を用いて,任意の長さの文書に構造と核性を取り入れた木を生成する。
実験により、MEGA-DTツリーバンクでトレーニングされた談話が、ドメイン間パフォーマンスの有望な向上をもたらすことが示された。
論文 参考訳(メタデータ) (2020-11-05T18:22:38Z) - Constructing a Family Tree of Ten Indo-European Languages with
Delexicalized Cross-linguistic Transfer Patterns [57.86480614673034]
我々は,デレクシカル化転送を,解釈可能なツリー・ツー・ストリングパターンとツリー・ツー・ツリーパターンとして定式化する。
これにより、言語間移動を定量的に探索し、第二言語習得の問い合わせを拡張することができる。
論文 参考訳(メタデータ) (2020-07-17T15:56:54Z) - Treebank Embedding Vectors for Out-of-domain Dependency Parsing [12.226699055857182]
ツリーバンク埋め込みベクタは、特定の言語に対するすべてのツリーバンクをトレーニングデータとして使用すると同時に、モデルが1つのツリーバンクからのトレーニングデータを他のものよりも好むことを可能にする。
この考え方は,(1)訓練で使用する木バンクから来ない文に対して木バンクベクトルを予測する手法を導入すること,(2)テスト中に埋もれた木バンクベクトルから離れて移動するときに何が起こるのかを探索することによる。
論文 参考訳(メタデータ) (2020-05-02T11:33:41Z) - Tree-structured Attention with Hierarchical Accumulation [103.47584968330325]
階層的累積」は解析木構造を一定時間複雑度で自己注意に符号化する。
提案手法は,4つの IWSLT 翻訳タスクと WMT'14 翻訳タスクにおいて,SOTA 法より優れている。
論文 参考訳(メタデータ) (2020-02-19T08:17:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。