Fugu-MT 論文翻訳(概要): Word Segmentation and Morphological Parsing for Sanskrit

論文の概要: Word Segmentation and Morphological Parsing for Sanskrit

arxiv url: http://arxiv.org/abs/2201.12833v1
Date: Sun, 30 Jan 2022 14:37:00 GMT
ステータス: 翻訳完了
システム内更新日: 2022-02-01 16:27:15.483562
Title: Word Segmentation and Morphological Parsing for Sanskrit
Title（参考訳）: サンスクリット語の単語分割と形態解析
Authors: Jingwen Li, Leander Girrbach
Abstract要約: 我々はサンスクリット語における単語・形態解析(WSMP)ハッカソンへの参加について述べる。そこで我々は,単語分割タスクをシーケンスラベリングタスクとして,どのセグメンテーションが導出されるかの編集操作を予測してアプローチする。本研究では,形態素タグと規則を予測して形態素解析タスクにアプローチし,入力された単語を対応する語幹に変換する。
参考スコア（独自算出の注目度）: 1.2929576948110548
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: We describe our participation in the Word Segmentation and Morphological Parsing (WSMP) for Sanskrit hackathon. We approach the word segmentation task as a sequence labelling task by predicting edit operations from which segmentations are derived. We approach the morphological analysis task by predicting morphological tags and rules that transform inflected words into their corresponding stems. Also, we propose an end-to-end trainable pipeline model for joint segmentation and morphological analysis. Our model performed best in the joint segmentation and analysis subtask (80.018 F1 score) and performed second best in the individual subtasks (segmentation: 96.189 F1 score / analysis: 69.180 F1 score). Finally, we analyse errors made by our models and suggest future work and possible improvements regarding data and evaluation.
Abstract（参考訳）: 我々は,サンスクリットハッカソンにおけるワードセグメンテーションと形態解析(WSMP)への参加について述べる。単語分割タスクを逐次ラベリングタスクとして,セグメンテーションを導出する編集操作を予測し,単語分割タスクにアプローチする。形態素解析の課題として,屈折した単語を対応する語幹に変換する形態素タグと規則を予測した。また,ジョイントセグメンテーションと形態解析のためのエンドツーエンドのトレーニング可能なパイプラインモデルを提案する。本モデルは,合同セグメンテーション・分析サブタスク (80.018 f1 得点) で最高の成績を示し,個々のサブタスクで 2 番目の成績を示した(セグメンテーション: 96.189 f1 得点 / 分析: 69.180 f1 得点)。最後に,モデルによる誤りを分析し,データと評価に関する今後の取り組みと改善の可能性を提案する。

関連論文リスト

From Smør-re-brød to Subwords: Training LLMs on Danish, One Morpheme at a Time [8.28573483085828]
我々は、デンマークの注釈付き形態素データセットを利用して、形態素分割のための半教師付きモデルを訓練する。デンマーク語の単語をテクスチャ的にセグメント化することで,2つのカスタムな形態素トークン化器を含む4つの異なるトークン化器の評価を行った。その結果、デンマークのBPEトークン化装置が達成した39.28と比べ、F1スコア58.84を達成し、我々のカスタム開発したトークン化装置はモルフォロジーのセグメンテーションを著しく向上させることが判明した。
論文参考訳（メタデータ） (2025-04-02T09:26:02Z)
Lexically Grounded Subword Segmentation [0.0]
トークン化とサブワードセグメンテーションの3つの革新を提示する。まず,Morfessorを用いた教師なし形態素解析を事前学習に用いることを提案する。第二に、単語埋め込み空間に接地したサブワード埋め込みを得る方法を提案する。第3に,単語ビッグラムモデルに基づく効率的なセグメンテーションアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-06-19T13:48:19Z)
Labeled Morphological Segmentation with Semi-Markov Models [127.69031138022534]
いくつかのタスクを統一する形態的処理の代替として,ラベル付き形態的セグメンテーションを提案する。また、形態素タグセットの新しい階層も導入する。形態素を明示的にモデル化する識別型形態素分割システムであるモデル名を開発した。
論文参考訳（メタデータ） (2024-04-13T12:51:53Z)
OMG-Seg: Is One Model Good Enough For All Segmentation? [83.17068644513144]
OMG-Segは、タスク固有のクエリと出力を持つトランスフォーマーベースのエンコーダデコーダアーキテクチャである。 OMG-Segは10以上の異なるセグメンテーションタスクをサポートできるが、計算とパラメータのオーバーヘッドを大幅に削減できることを示す。
論文参考訳（メタデータ） (2024-01-18T18:59:34Z)
Where's the Point? Self-Supervised Multilingual Punctuation-Agnostic Sentence Segmentation [65.6736056006381]
85言語を対象とした多言語句読解文セグメンテーション法を提案する。提案手法は,従来の最良文分割ツールを平均6.1%F1ポイントで上回っている。 MTモデルの訓練に使用するセグメンテーションと文のセグメンテーションを一致させる手法を用いて,平均2.3BLEU点の改善を実現する。
論文参考訳（メタデータ） (2023-05-30T09:49:42Z)
Subword Segmental Machine Translation: Unifying Segmentation and Target Sentence Generation [7.252933737829635]
サブワードセグメント機械翻訳(SSMT)は、目標文を生成するために共同学習しながら、ターゲット文をセグメント化することを学ぶ。 6つの翻訳方向にわたる実験により、SSMTは形態学的にリッチな凝集言語に対するchrFスコアを改善することが示された。
論文参考訳（メタデータ） (2023-05-11T17:44:29Z)
Ensembling Instance and Semantic Segmentation for Panoptic Segmentation [0.0]
メソッドはまず、インスタンスセグメンテーションとセマンティックセグメンテーションを別々に実行し、2つを組み合わせてパン光学セグメンテーション結果を生成する。トレーニングデータにおけるデータ不均衡問題に対処するために,インスタンスセグメンテーションにおけるMask R-CNNのエキスパートモデルをいくつか追加する。セグメンテーションでは,様々なバックボーンを持つモデルを訓練し,セグメンテーション結果をさらに強化するアンサンブル戦略を用いた。
論文参考訳（メタデータ） (2023-04-20T14:02:01Z)
Exploring the State-of-the-Art Language Modeling Methods and Data Augmentation Techniques for Multilingual Clause-Level Morphology [3.8498574327875947]
共有タスクの3つの部分 – 反射,再帰,分析 – について検討する。データ拡張と組み合わせたトランスフォーマーモデルと、モルフォロジー解析のための最先端の言語モデリング技術を利用する2つのアプローチを主に検討する。提案手法は,3つのタスクのそれぞれにおいて第1位となり,mT5ベースラインよりも89%,リフレクション80%,分析12%に優れていた。
論文参考訳（メタデータ） (2022-11-03T11:53:39Z)
Influence Functions for Sequence Tagging Models [49.81774968547377]
影響関数を拡張して、予測を学習ポイントまで追跡し、それらに通知します。本手法を用いて,系統的アノテーションの誤りを同定し,セグメント効果の実用性を示す。
論文参考訳（メタデータ） (2022-10-25T17:13:11Z)
Did the Cat Drink the Coffee? Challenging Transformers with Generalized Event Knowledge [59.22170796793179]
Transformers Language Models (TLMs) を数学的適合のテクトダイナミックな評価のためのベンチマークで検証した。以上の結果から, TLM は SDM に匹敵する性能が得られることが示された。しかし、さらなる分析は、TLMがイベント知識の重要な側面を捉えていないことを一貫して示唆している。
論文参考訳（メタデータ） (2021-07-22T20:52:26Z)
A Differentiable Relaxation of Graph Segmentation and Alignment for AMR Parsing [75.36126971685034]
我々は、アライメントとセグメンテーションをモデルの潜在変数として扱い、エンドツーエンドのトレーニングの一部としてそれらを誘導する。また,AMRの個々の構造を扱うために手作りされたLyu2018AMRPAのセグメンテーションルールに依存するモデルにもアプローチした。
論文参考訳（メタデータ） (2020-10-23T21:22:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。