論文の概要: Using Contextual Information for Sentence-level Morpheme Segmentation
- arxiv url: http://arxiv.org/abs/2403.15436v1
- Date: Fri, 15 Mar 2024 20:12:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-01 02:54:20.856443
- Title: Using Contextual Information for Sentence-level Morpheme Segmentation
- Title(参考訳): 文脈情報を用いた文レベルのモーフェムセグメンテーション
- Authors: Prabin Bhandari, Abhishek Paudel,
- Abstract要約: 形態素セグメンテーションをシーケンス・ツー・シーケンス問題として再定義し、個々の単語を分離するのではなく、文全体を入力として扱う。
その結果,多言語モデルの方が単言語モデルに比べて優れた性能を示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in morpheme segmentation primarily emphasize word-level segmentation, often neglecting the contextual relevance within the sentence. In this study, we redefine the morpheme segmentation task as a sequence-to-sequence problem, treating the entire sentence as input rather than isolating individual words. Our findings reveal that the multilingual model consistently exhibits superior performance compared to monolingual counterparts. While our model did not surpass the performance of the current state-of-the-art, it demonstrated comparable efficacy with high-resource languages while revealing limitations in low-resource language scenarios.
- Abstract(参考訳): 最近の形態素セグメンテーションの進歩は、主に単語レベルのセグメンテーションを強調しており、しばしば文内の文脈的関連性を無視している。
本研究では,形態素分割タスクをシーケンス・ツー・シーケンス問題として再定義し,文全体を個々の単語を分離するのではなく入力として扱う。
その結果,多言語モデルの方が単言語モデルに比べて優れた性能を示した。
我々のモデルは現在の最先端言語の性能を上回りませんでしたが、低リソースの言語シナリオにおける制限を明らかにしながら、高リソースの言語に匹敵する効果を示しました。
関連論文リスト
- Manual Verbalizer Enrichment for Few-Shot Text Classification [1.860409237919611]
acrshortmaveは、クラスラベルの豊か化による動詞化のためのアプローチである。
本モデルでは, 資源を著しく減らしながら, 最先端の成果が得られている。
論文 参考訳(メタデータ) (2024-10-08T16:16:47Z) - TAMS: Translation-Assisted Morphological Segmentation [3.666125285899499]
正準形態素セグメンテーションのためのシーケンス・ツー・シーケンスモデルを提案する。
我々のモデルは、超低リソース設定においてベースラインよりも優れるが、トレーニング分割とより多くのデータとの混合結果が得られる。
高いリソース設定で翻訳を便利にするためには、さらなる作業が必要であるが、我々のモデルは、リソース制約の厳しい設定で、約束を示す。
論文 参考訳(メタデータ) (2024-03-21T21:23:35Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - Sentence Representation Learning with Generative Objective rather than
Contrastive Objective [86.01683892956144]
句再構成に基づく新たな自己教師型学習目標を提案する。
我々の生成学習は、十分な性能向上を達成し、現在の最先端のコントラスト法よりも優れています。
論文 参考訳(メタデータ) (2022-10-16T07:47:46Z) - Dynamic Sliding Window for Meeting Summarization [25.805553277418813]
代表コーパス上での会議記録の言語的特徴を分析し,要約を含む文が会議議題と相関していることを確認した。
そこで本研究では,会議要約のための動的スライディングウインドウ戦略を提案する。
論文 参考訳(メタデータ) (2021-08-31T05:39:48Z) - Narrative Incoherence Detection [76.43894977558811]
本稿では,文間セマンティック理解のための新たなアリーナとして,物語不整合検出の課題を提案する。
複数文の物語を考えると、物語の流れに意味的な矛盾があるかどうかを決定します。
論文 参考訳(メタデータ) (2020-12-21T07:18:08Z) - SLM: Learning a Discourse Language Representation with Sentence
Unshuffling [53.42814722621715]
談話言語表現を学習するための新しい事前学習目的である文レベル言語モデリングを導入する。
本モデルでは,この特徴により,従来のBERTの性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2020-10-30T13:33:41Z) - On Target Segmentation for Direct Speech Translation [20.456325305495966]
サブワードレベルのセグメンテーションは、ニューラルマシン翻訳の最先端となった。
8言語方向と多言語訓練を含む3つのベンチマークで2つの手法を比較した。
サブワードレベルのセグメンテーションは、すべての設定で好意的に比較され、1から3のBLEUポイントの範囲で文字レベルのセグメンテーションを上回っている。
論文 参考訳(メタデータ) (2020-09-10T07:47:01Z) - Toward Better Storylines with Sentence-Level Language Models [54.91921545103256]
本稿では,文章中の次の文を選択する文レベル言語モデルを提案する。
教師なしストーリークローゼタスクにおける最先端の精度によるアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2020-05-11T16:54:19Z) - BURT: BERT-inspired Universal Representation from Twin Structure [89.82415322763475]
BURT (BERT inspired Universal Representation from Twin Structure) は任意の粒度の入力シーケンスに対して普遍的で固定サイズの表現を生成することができる。
提案するBURTは,Siameseネットワークを採用し,自然言語推論データセットから文レベル表現を学習し,パラフレーズ化データセットから単語/フレーズレベル表現を学習する。
我々は,STSタスク,SemEval2013 Task 5(a) など,テキスト類似性タスクの粒度によってBURTを評価する。
論文 参考訳(メタデータ) (2020-04-29T04:01:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。