論文の概要: Word Segmentation and Morphological Parsing for Sanskrit
- arxiv url: http://arxiv.org/abs/2201.12833v1
- Date: Sun, 30 Jan 2022 14:37:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-01 16:27:15.483562
- Title: Word Segmentation and Morphological Parsing for Sanskrit
- Title(参考訳): サンスクリット語の単語分割と形態解析
- Authors: Jingwen Li, Leander Girrbach
- Abstract要約: 我々はサンスクリット語における単語・形態解析(WSMP)ハッカソンへの参加について述べる。
そこで我々は,単語分割タスクをシーケンスラベリングタスクとして,どのセグメンテーションが導出されるかの編集操作を予測してアプローチする。
本研究では,形態素タグと規則を予測して形態素解析タスクにアプローチし,入力された単語を対応する語幹に変換する。
- 参考スコア(独自算出の注目度): 1.2929576948110548
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We describe our participation in the Word Segmentation and Morphological
Parsing (WSMP) for Sanskrit hackathon. We approach the word segmentation task
as a sequence labelling task by predicting edit operations from which
segmentations are derived. We approach the morphological analysis task by
predicting morphological tags and rules that transform inflected words into
their corresponding stems. Also, we propose an end-to-end trainable pipeline
model for joint segmentation and morphological analysis. Our model performed
best in the joint segmentation and analysis subtask (80.018 F1 score) and
performed second best in the individual subtasks (segmentation: 96.189 F1 score
/ analysis: 69.180 F1 score).
Finally, we analyse errors made by our models and suggest future work and
possible improvements regarding data and evaluation.
- Abstract(参考訳): 我々は,サンスクリットハッカソンにおけるワードセグメンテーションと形態解析(WSMP)への参加について述べる。
単語分割タスクを逐次ラベリングタスクとして,セグメンテーションを導出する編集操作を予測し,単語分割タスクにアプローチする。
形態素解析の課題として,屈折した単語を対応する語幹に変換する形態素タグと規則を予測した。
また,ジョイントセグメンテーションと形態解析のためのエンドツーエンドのトレーニング可能なパイプラインモデルを提案する。
本モデルは,合同セグメンテーション・分析サブタスク (80.018 f1 得点) で最高の成績を示し,個々のサブタスクで 2 番目の成績を示した(セグメンテーション: 96.189 f1 得点 / 分析: 69.180 f1 得点)。
最後に,モデルによる誤りを分析し,データと評価に関する今後の取り組みと改善の可能性を提案する。
関連論文リスト
- Lexically Grounded Subword Segmentation [0.0]
トークン化とサブワードセグメンテーションの3つの革新を提示する。
まず,Morfessorを用いた教師なし形態素解析を事前学習に用いることを提案する。
第二に、単語埋め込み空間に接地したサブワード埋め込みを得る方法を提案する。
第3に,単語ビッグラムモデルに基づく効率的なセグメンテーションアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-19T13:48:19Z) - Labeled Morphological Segmentation with Semi-Markov Models [127.69031138022534]
いくつかのタスクを統一する形態的処理の代替として,ラベル付き形態的セグメンテーションを提案する。
また、形態素タグセットの新しい階層も導入する。
形態素を明示的にモデル化する識別型形態素分割システムであるモデル名を開発した。
論文 参考訳(メタデータ) (2024-04-13T12:51:53Z) - OMG-Seg: Is One Model Good Enough For All Segmentation? [83.17068644513144]
OMG-Segは、タスク固有のクエリと出力を持つトランスフォーマーベースのエンコーダデコーダアーキテクチャである。
OMG-Segは10以上の異なるセグメンテーションタスクをサポートできるが、計算とパラメータのオーバーヘッドを大幅に削減できることを示す。
論文 参考訳(メタデータ) (2024-01-18T18:59:34Z) - Where's the Point? Self-Supervised Multilingual Punctuation-Agnostic
Sentence Segmentation [65.6736056006381]
85言語を対象とした多言語句読解文セグメンテーション法を提案する。
提案手法は,従来の最良文分割ツールを平均6.1%F1ポイントで上回っている。
MTモデルの訓練に使用するセグメンテーションと文のセグメンテーションを一致させる手法を用いて,平均2.3BLEU点の改善を実現する。
論文 参考訳(メタデータ) (2023-05-30T09:49:42Z) - Subword Segmental Machine Translation: Unifying Segmentation and Target
Sentence Generation [7.252933737829635]
サブワードセグメント機械翻訳(SSMT)は、目標文を生成するために共同学習しながら、ターゲット文をセグメント化することを学ぶ。
6つの翻訳方向にわたる実験により、SSMTは形態学的にリッチな凝集言語に対するchrFスコアを改善することが示された。
論文 参考訳(メタデータ) (2023-05-11T17:44:29Z) - Ensembling Instance and Semantic Segmentation for Panoptic Segmentation [0.0]
メソッドはまず、インスタンスセグメンテーションとセマンティックセグメンテーションを別々に実行し、2つを組み合わせてパン光学セグメンテーション結果を生成する。
トレーニングデータにおけるデータ不均衡問題に対処するために,インスタンスセグメンテーションにおけるMask R-CNNのエキスパートモデルをいくつか追加する。
セグメンテーションでは,様々なバックボーンを持つモデルを訓練し,セグメンテーション結果をさらに強化するアンサンブル戦略を用いた。
論文 参考訳(メタデータ) (2023-04-20T14:02:01Z) - Exploring the State-of-the-Art Language Modeling Methods and Data
Augmentation Techniques for Multilingual Clause-Level Morphology [3.8498574327875947]
共有タスクの3つの部分 – 反射,再帰,分析 – について検討する。
データ拡張と組み合わせたトランスフォーマーモデルと、モルフォロジー解析のための最先端の言語モデリング技術を利用する2つのアプローチを主に検討する。
提案手法は,3つのタスクのそれぞれにおいて第1位となり,mT5ベースラインよりも89%,リフレクション80%,分析12%に優れていた。
論文 参考訳(メタデータ) (2022-11-03T11:53:39Z) - Influence Functions for Sequence Tagging Models [49.81774968547377]
影響関数を拡張して、予測を学習ポイントまで追跡し、それらに通知します。
本手法を用いて,系統的アノテーションの誤りを同定し,セグメント効果の実用性を示す。
論文 参考訳(メタデータ) (2022-10-25T17:13:11Z) - Did the Cat Drink the Coffee? Challenging Transformers with Generalized
Event Knowledge [59.22170796793179]
Transformers Language Models (TLMs) を数学的適合のテクトダイナミックな評価のためのベンチマークで検証した。
以上の結果から, TLM は SDM に匹敵する性能が得られることが示された。
しかし、さらなる分析は、TLMがイベント知識の重要な側面を捉えていないことを一貫して示唆している。
論文 参考訳(メタデータ) (2021-07-22T20:52:26Z) - A Differentiable Relaxation of Graph Segmentation and Alignment for AMR
Parsing [75.36126971685034]
我々は、アライメントとセグメンテーションをモデルの潜在変数として扱い、エンドツーエンドのトレーニングの一部としてそれらを誘導する。
また,AMRの個々の構造を扱うために手作りされたLyu2018AMRPAのセグメンテーションルールに依存するモデルにもアプローチした。
論文 参考訳(メタデータ) (2020-10-23T21:22:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。