論文の概要: Segmentation en phrases : ouvrez les guillemets sans perdre le fil
- arxiv url: http://arxiv.org/abs/2407.19808v1
- Date: Mon, 29 Jul 2024 09:02:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-30 14:35:40.309712
- Title: Segmentation en phrases : ouvrez les guillemets sans perdre le fil
- Title(参考訳): 語句の分節化 : 語句の分節化に就て
- Authors: Sandrine Ollinger, Denis Maurel,
- Abstract要約: 本稿ではXML文書の文セグメンテーションのためのグラフカスケードを提案する。
本提案では,引用マークやハイフンによって導入された症例について,文中の文を提示すると共に,括弧による切開や,大腸で導入されたリストに特に注意を払っている。
- 参考スコア(独自算出の注目度): 0.08192907805418582
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a graph cascade for sentence segmentation of XML documents. Our proposal offers sentences inside sentences for cases introduced by quotation marks and hyphens, and also pays particular attention to situations involving incises introduced by parentheses and lists introduced by colons. We present how the tool works and compare the results obtained with those available in 2019 on the same dataset, together with an evaluation of the system's performance on a test corpus
- Abstract(参考訳): 本稿ではXML文書の文セグメンテーションのためのグラフカスケードを提案する。
本提案では,引用マークやハイフンによって導入された症例について,文中の文を提示すると共に,括弧による切開や,大腸で導入されたリストに特に注意を払っている。
テストコーパス上でのシステム性能の評価とともに,2019年に得られた結果と同一データセットを用いた結果との比較を行った。
関連論文リスト
- Dense X Retrieval: What Retrieval Granularity Should We Use? [56.90827473115201]
しばしば見過ごされる設計選択は、コーパスが索引付けされる検索単位である。
本稿では,高密度検索のための新しい検索ユニット,命題を提案する。
実験により、提案のような細粒度単位によるコーパスのインデックス付けは、検索タスクにおける通過レベル単位を著しく上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2023-12-11T18:57:35Z) - SentAlign: Accurate and Scalable Sentence Alignment [4.363828136730248]
SentAlignは、非常に大きな並列ドキュメントペアを扱うように設計された、正確な文アライメントツールである。
アライメントアルゴリズムは、数千の文からなるかなり大きな文書における全ての可能なアライメントパスを評価し、数万の文を含む文書のアライメントに分割・コンカレントアプローチを使用する。
論文 参考訳(メタデータ) (2023-11-15T14:15:41Z) - Where's the Point? Self-Supervised Multilingual Punctuation-Agnostic
Sentence Segmentation [65.6736056006381]
85言語を対象とした多言語句読解文セグメンテーション法を提案する。
提案手法は,従来の最良文分割ツールを平均6.1%F1ポイントで上回っている。
MTモデルの訓練に使用するセグメンテーションと文のセグメンテーションを一致させる手法を用いて,平均2.3BLEU点の改善を実現する。
論文 参考訳(メタデータ) (2023-05-30T09:49:42Z) - Text Summarization with Oracle Expectation [88.39032981994535]
抽出要約は、文書の中で最も重要な文を識別し、連結することによって要約を生成する。
ほとんどの要約データセットは、文書文が要約に値するかどうかを示す金のラベルを持っていない。
本稿では,ソフトな予測に基づく文ラベルを生成する,シンプルで効果的なラベル付けアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-26T14:10:08Z) - Clustering and Network Analysis for the Embedding Spaces of Sentences
and Sub-Sentences [69.3939291118954]
本稿では,文とサブ文の埋め込みを対象とする包括的クラスタリングとネットワーク解析について検討する。
その結果,1つの手法が最もクラスタリング可能な埋め込みを生成することがわかった。
一般に、スパン部分文の埋め込みは、原文よりもクラスタリング特性が優れている。
論文 参考訳(メタデータ) (2021-10-02T00:47:35Z) - On the Use of Context for Predicting Citation Worthiness of Sentences in
Scholarly Articles [10.28696219236292]
この問題を階層的BiLSTMモデルを用いて解いたシーケンスラベリングタスクとして定式化する。
我々は200万以上の文とそのラベルを含む新しいベンチマークデータセットをコントリビュートする。
本研究は,引用価値のための文脈埋め込みと文脈埋め込みの利点を定量化する。
論文 参考訳(メタデータ) (2021-04-18T21:47:30Z) - Evaluating Sentence Segmentation and Word Tokenization Systems on
Estonian Web Texts [0.533024001730262]
まずエストニアのWebデータセットの文境界のマニュアルアノテーションを記述する。
次に,このコーパス上で既存の3つの文セグメント化と単語トークン化システムの評価結果を示す。
論文 参考訳(メタデータ) (2020-11-16T11:13:41Z) - An Unsupervised Semantic Sentence Ranking Scheme for Text Documents [9.272728720669846]
Semantic SentenceRank (SSR) は、文の相対的重要性に応じて単一の文書にランク付けするための教師なしのスキームである。
テキスト文書から必須の単語やフレーズを抽出し、それぞれ意味尺度を用いて、フレーズや単語に対する意味句グラフと、文章に対する意味文グラフを構築する。
論文 参考訳(メタデータ) (2020-04-28T20:17:51Z) - Extractive Summarization as Text Matching [123.09816729675838]
本稿では,ニューラル抽出要約システムの構築方法に関するパラダイムシフトを作成する。
抽出した要約タスクを意味テキストマッチング問題として定式化する。
我々はCNN/DailyMailの最先端抽出結果を新しいレベル(ROUGE-1の44.41)に推し進めた。
論文 参考訳(メタデータ) (2020-04-19T08:27:57Z) - Automatic Discourse Segmentation: an evaluation in French [65.00134288222509]
本稿では, 部分分割法と, 部分分割品質の予備評価について述べる。
我々は,マーカーリストと統計POSラベリングという,複数の言語で同時に利用可能なリソースのみに基づく3つのモデルを開発した。
論文 参考訳(メタデータ) (2020-02-10T21:35:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。