論文の概要: Segmenting Natural Language Sentences via Lexical Unit Analysis
- arxiv url: http://arxiv.org/abs/2012.05418v3
- Date: Fri, 16 Apr 2021 08:30:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-15 06:28:34.160302
- Title: Segmenting Natural Language Sentences via Lexical Unit Analysis
- Title(参考訳): 語彙単位解析による自然言語文のセグメンテーション
- Authors: Yangming Li, Lemao Liu, Shuming Shi
- Abstract要約: 本稿では,一般シーケンスセグメンテーションタスクのフレームワークであるLexical Unit Analysis(LUA)について述べる。
LUAは有効なセグメンテーション候補をすべてスコアし、動的プログラミング(DP)を用いて最大スコアを抽出する。
我々は,構文的チャンキング,名前付きエンティティ認識(NER),スロットフィリング,中国語単語セグメンテーション,中国語部分音声タグ付け(POS)を含む5つのタスクについて,15のデータセットにまたがって広範な実験を行った。
- 参考スコア(独自算出の注目度): 47.273602658066196
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we present Lexical Unit Analysis (LUA), a framework for general
sequence segmentation tasks. Given a natural language sentence, LUA scores all
the valid segmentation candidates and utilizes dynamic programming (DP) to
extract the maximum scoring one. LUA enjoys a number of appealing properties
such as inherently guaranteeing the predicted segmentation to be valid and
facilitating globally optimal training and inference. Besides, the practical
time complexity of LUA can be reduced to linear time, which is very efficient.
We have conducted extensive experiments on 5 tasks, including syntactic
chunking, named entity recognition (NER), slot filling, Chinese word
segmentation, and Chinese part-of-speech (POS) tagging, across 15 datasets. Our
models have achieved the state-of-the-art performances on 13 of them. The
results also show that the F1 score of identifying long-length segments is
notably improved.
- Abstract(参考訳): 本稿では,一般シーケンスセグメンテーションタスクのためのフレームワークであるlexical unit analysis (lua)を提案する。
自然言語文が与えられた場合、LUAは有効なセグメンテーション候補をすべてスコアし、動的プログラミング(DP)を用いて最大スコアを抽出する。
LUAは、予測セグメンテーションが有効であることを本質的に保証し、グローバルに最適なトレーニングと推論を促進するなど、多くの魅力的な特性を享受している。
さらに、LUAの実用時間の複雑さを線形時間に減らすことができ、非常に効率的である。
我々は,構文的チャンキング,名前付きエンティティ認識(NER),スロットフィリング,中国語単語セグメンテーション,中国語部分音声タグ付け(POS)を含む5つのタスクについて,15のデータセットにわたって広範な実験を行った。
当社のモデルは,13件の最先端のパフォーマンスを達成した。
また, 長いセグメントを同定するF1スコアも顕著に改善された。
関連論文リスト
- Musical Phrase Segmentation via Grammatical Induction [0.0]
様々な音楽的視点の組み合わせを用いて、3つのデータセット上での5つの文法的帰納アルゴリズムの性能を解析する。
実験の結果, LONGESTFIRSTアルゴリズムは3つのデータセットで最高のF1スコアを得ることができた。
論文 参考訳(メタデータ) (2024-05-29T04:04:36Z) - Universal Segmentation at Arbitrary Granularity with Language
Instruction [59.76130089644841]
言語命令のガイダンスを用いて任意の意味レベルでセグメンテーションを行うことができるユニバーサルセグメンテーションモデルUniLSegを提案する。
UniLSegをトレーニングするために、元の多様な分布から統一されたデータ形式にタスク群を再構成し、セグメンテーションターゲットを入力として記述したテキストと対応するマスクを出力する。
論文 参考訳(メタデータ) (2023-12-04T04:47:48Z) - LISA: Reasoning Segmentation via Large Language Model [68.24075852136761]
そこで我々は,新たなセグメンテーションタスク,すなわち推論セグメンテーションを提案する。
このタスクは、複雑で暗黙的なクエリテキストを与えられたセグメンテーションマスクを出力するように設計されている。
提案するLISA: Large Language Instructed Assistantは,マルチモーダル大規模言語モデルの言語生成能力を継承する。
論文 参考訳(メタデータ) (2023-08-01T17:50:17Z) - SLUE Phase-2: A Benchmark Suite of Diverse Spoken Language Understanding
Tasks [88.4408774253634]
音声言語理解(SLU)タスクは、音声研究コミュニティで何十年にもわたって研究されてきた。
SLUタスクベンチマークはそれほど多くはなく、既存のベンチマークの多くは、すべての研究者が自由に利用できないデータを使っている。
最近の研究は、いくつかのタスクにそのようなベンチマークを導入し始めている。
論文 参考訳(メタデータ) (2022-12-20T18:39:59Z) - Pre-training Universal Language Representation [46.51685959045527]
この研究は普遍言語表現学習、すなわち、一様ベクトル空間に非常に多様な長さを持つ言語単位やテキストの異なるレベルの埋め込みを導入している。
我々は、よく設計された事前学習スキームが、効果的に普遍的な言語表現をもたらすことを実証的に検証する。
論文 参考訳(メタデータ) (2021-05-30T09:29:01Z) - LCP-RIT at SemEval-2021 Task 1: Exploring Linguistic Features for
Lexical Complexity Prediction [4.86331990243181]
本稿では,チームLCP-RITによるSemEval-2021 Task 1: Lexical Complexity Prediction (LCP)の提出について述べる。
本システムでは,ロジスティック回帰と幅広い言語的特徴を用いて,このデータセットにおける単一単語の複雑さを予測する。
結果は平均絶対誤差,平均二乗誤差,ピアソン相関,スピアマン相関で評価した。
論文 参考訳(メタデータ) (2021-05-18T18:55:04Z) - Neural Sequence Segmentation as Determining the Leftmost Segments [25.378188980430256]
自然言語文をセグメントレベルで段階的に分割する新しい枠組みを提案する。
セグメンテーションのすべてのステップにおいて、残りのシーケンスの一番左のセグメントを認識する。
3つのデータセットにまたがる構文的チャンキングと中国語のパート・オブ・スパイチ・タギングに関する広範な実験を行った。
論文 参考訳(メタデータ) (2021-04-15T03:35:03Z) - Learning Universal Representations from Word to Sentence [89.82415322763475]
この研究は普遍的な表現学習、すなわち一様ベクトル空間における言語単位の異なるレベルへの埋め込みを導入し、探求する。
本稿では, 単語, 句, 文の観点から, 類似したデータセットを構築するためのアプローチを提案する。
適切なトレーニング設定を組み込んだよく訓練されたトランスフォーマーモデルが、効果的に普遍的な表現が得られることを実証的に検証する。
論文 参考訳(メタデータ) (2020-09-10T03:53:18Z) - BURT: BERT-inspired Universal Representation from Twin Structure [89.82415322763475]
BURT (BERT inspired Universal Representation from Twin Structure) は任意の粒度の入力シーケンスに対して普遍的で固定サイズの表現を生成することができる。
提案するBURTは,Siameseネットワークを採用し,自然言語推論データセットから文レベル表現を学習し,パラフレーズ化データセットから単語/フレーズレベル表現を学習する。
我々は,STSタスク,SemEval2013 Task 5(a) など,テキスト類似性タスクの粒度によってBURTを評価する。
論文 参考訳(メタデータ) (2020-04-29T04:01:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。