論文の概要: Sentence Identification with BOS and EOS Label Combinations
- arxiv url: http://arxiv.org/abs/2301.13352v1
- Date: Tue, 31 Jan 2023 01:03:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-01 18:11:29.054811
- Title: Sentence Identification with BOS and EOS Label Combinations
- Title(参考訳): BOSとEOSラベルの組み合わせによる文の同定
- Authors: Takuma Udagawa, Hiroshi Kanayama, Issei Yoshida
- Abstract要約: 文識別の新たなタスクを定式化し、あるテキストでNSUを除外しながらSUを識別する。
文の始まり(BOS)とEOSラベルを組み合わせて、最も確率の高いSUとNSUを決定する、単純で効果的な方法を提案する。
文識別タスクの実験により,提案手法はEOSラベルのみを利用する文分割ベースラインよりも高い性能を示した。
- 参考スコア(独自算出の注目度): 7.053475270377054
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The sentence is a fundamental unit in many NLP applications. Sentence
segmentation is widely used as the first preprocessing task, where an input
text is split into consecutive sentences considering the end of the sentence
(EOS) as their boundaries. This task formulation relies on a strong assumption
that the input text consists only of sentences, or what we call the sentential
units (SUs). However, real-world texts often contain non-sentential units
(NSUs) such as metadata, sentence fragments, nonlinguistic markers, etc. which
are unreasonable or undesirable to be treated as a part of an SU. To tackle
this issue, we formulate a novel task of sentence identification, where the
goal is to identify SUs while excluding NSUs in a given text. To conduct
sentence identification, we propose a simple yet effective method which
combines the beginning of the sentence (BOS) and EOS labels to determine the
most probable SUs and NSUs based on dynamic programming. To evaluate this task,
we design an automatic, language-independent procedure to convert the Universal
Dependencies corpora into sentence identification benchmarks. Finally, our
experiments on the sentence identification task demonstrate that our proposed
method generally outperforms sentence segmentation baselines which only utilize
EOS labels.
- Abstract(参考訳): この文は多くのNLPアプリケーションの基本単位である。
文セグメント化は、入力テキストを文の終端(EOS)を境界として連続した文に分割する最初の前処理タスクとして広く使用されている。
このタスクの定式化は、入力テキストが文のみからなるという強い仮定や、私たちがセンテンシャルユニット(sus)と呼ぶものに依存している。
しかし、現実世界のテキストはメタデータ、文の断片、非言語的マーカーなどの非意味単位(NSU)をしばしば含んでいて、SUの一部として扱うのは不合理または望ましくない。
この問題に取り組むために,与えられたテキスト中のnsusを除外しながらsusを識別することを目的とした,新しい文識別タスクを定式化する。
文識別を行うために,文の開始点(BOS)とEOSラベルを組み合わせて,動的プログラミングに基づく最も確率の高いSUとNSUを決定する,シンプルで効果的な手法を提案する。
このタスクを評価するために,ユニバーサル依存コーパスを文識別ベンチマークに変換するための言語に依存しない自動手順を設計する。
最後に, 文識別タスクに関する実験により, 提案手法は, EOSラベルのみを利用する文分割ベースラインよりも優れていることを示した。
関連論文リスト
- A Collocation-based Method for Addressing Challenges in Word-level Metric Differential Privacy [3.0177210416625124]
ワードレベルの$textitMetric$ Differential Privacyアプローチが提案されている。
構成された民営化出力のセマンティックコヒーレンスと可変長を向上する手法を考案する。
本手法を実用性とプライバシテストで評価することにより,単語レベルを超えてトークン化戦略を明確にする。
論文 参考訳(メタデータ) (2024-06-30T09:37:34Z) - SemStamp: A Semantic Watermark with Paraphrastic Robustness for Text Generation [72.10931780019297]
既存の透かしアルゴリズムはトークンレベルの設計のため、パラフレーズ攻撃に弱い。
局所性に敏感なハッシュ(LSH)に基づく頑健な文レベルのセマンティック透かしアルゴリズムSemStampを提案する。
実験結果から,本アルゴリズムは従来手法に比べて,従来手法よりも頑健であるだけでなく,生成品質の維持にも有効であることが示唆された。
論文 参考訳(メタデータ) (2023-10-06T03:33:42Z) - IDAS: Intent Discovery with Abstractive Summarization [16.731183915325584]
目的発見における近年の競合手法は,抽象的な要約に基づく発話のクラスタリングによってより優れることを示す。
我々は、大規模言語モデルに促すことで、記述的発話ラベルの集合を収集するIDASアプローチに貢献する。
発話とそのノイズラベルは、凍結した事前訓練されたエンコーダによって符号化され、その後クラスタ化され、潜伏した意図を回復する。
論文 参考訳(メタデータ) (2023-05-31T12:19:40Z) - RankCSE: Unsupervised Sentence Representations Learning via Learning to
Rank [54.854714257687334]
本稿では,教師なし文表現学習のための新しい手法であるRangCSEを提案する。
コントラスト学習を伴うランキング一貫性とランキング蒸留を統一された枠組みに組み込む。
セマンティックテキスト類似性(STS)と転送タスク(TR)の両方について、広範な実験が実施されている。
論文 参考訳(メタデータ) (2023-05-26T08:27:07Z) - PropSegmEnt: A Large-Scale Corpus for Proposition-Level Segmentation and
Entailment Recognition [63.51569687229681]
文中の各命題の文的含意関係を個別に認識する必要性について論じる。
提案するPropSegmEntは45K以上の提案のコーパスであり, 専門家によるアノテートを行う。
我々のデータセット構造は、(1)文書内の文章を命題の集合に分割し、(2)異なるが、トポジカルに整合した文書に対して、各命題の含意関係を分類するタスクに類似している。
論文 参考訳(メタデータ) (2022-12-21T04:03:33Z) - Textual Entailment Recognition with Semantic Features from Empirical
Text Representation [60.31047947815282]
テキストが仮説を包含するのは、仮説の真の価値がテキストに従う場合に限る。
本稿では,テキストと仮説のテキストの包含関係を同定する新しい手法を提案する。
本手法では,テキスト・ハイブリッド・ペア間の意味的含意関係を識別できる要素ワイド・マンハッタン距離ベクトルベースの特徴を用いる。
論文 参考訳(メタデータ) (2022-10-18T10:03:51Z) - A New Sentence Ordering Method Using BERT Pretrained Model [2.1793134762413433]
本稿では,訓練段階を必要とせず,学習のための大きなコーパスを必要とする文順序付け手法を提案する。
提案手法は,5文ストーリーのコーパスであるROCStoriesの他のベースラインよりも優れていた。
この方法の他の利点の1つは、言語知識に対する解釈可能性と不要性である。
論文 参考訳(メタデータ) (2021-08-26T18:47:15Z) - UCPhrase: Unsupervised Context-aware Quality Phrase Tagging [63.86606855524567]
UCPhraseは、教師なしの文脈対応のフレーズタグである。
我々は,一貫した単語列から,高品質なフレーズを銀のラベルとして表現する。
我々の設計は、最先端の事前訓練、教師なし、遠隔管理の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-05-28T19:44:24Z) - Reformulating Sentence Ordering as Conditional Text Generation [17.91448517871621]
文順序フレームワークであるReorder-BART(RE-BART)を紹介します。
タスクを条件付きテキスト-マーカー生成設定として再構成します。
私たちのフレームワークは、Perfect Match Ratio(PMR)とKendallのtau($tau$)メトリックの6つのデータセットにわたる最先端のパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-04-14T18:16:47Z) - Narrative Incoherence Detection [76.43894977558811]
本稿では,文間セマンティック理解のための新たなアリーナとして,物語不整合検出の課題を提案する。
複数文の物語を考えると、物語の流れに意味的な矛盾があるかどうかを決定します。
論文 参考訳(メタデータ) (2020-12-21T07:18:08Z) - Research on Annotation Rules and Recognition Algorithm Based on Phrase
Window [4.334276223622026]
フレーズウィンドウに基づくラベリングルールを提案し,それに対応するフレーズ認識アルゴリズムを設計する。
ラベル付けルールでは、フレーズを最小単位とし、文を7種類のネスト可能なフレーズタイプに分割し、フレーズ間の文法的依存関係を示す。
対応するアルゴリズムは、画像中の対象領域を識別するアイデアに基づいて、文中の様々なフレーズの開始位置と終了位置を見つけることができる。
論文 参考訳(メタデータ) (2020-07-07T00:19:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。