論文の概要: Advancing Topic Segmentation and Outline Generation in Chinese Texts: The Paragraph-level Topic Representation, Corpus, and Benchmark
- arxiv url: http://arxiv.org/abs/2305.14790v2
- Date: Tue, 26 Mar 2024 11:29:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-28 01:39:58.454645
- Title: Advancing Topic Segmentation and Outline Generation in Chinese Texts: The Paragraph-level Topic Representation, Corpus, and Benchmark
- Title(参考訳): 中国語テキストにおけるトピックセグメンテーションとアウトライン生成の促進--パラグラフレベルのトピック表現、コーパス、ベンチマーク
- Authors: Feng Jiang, Weihao Liu, Xiaomin Chu, Peifeng Li, Qiaoming Zhu, Haizhou Li,
- Abstract要約: 段落レベルのトピック構造は、ドキュメント全体のコンテキストをより高いレベルから把握し、理解することができる。
大規模で高品質な中国語段落レベルの話題構造コーパスの欠如は研究や応用を妨げた。
コーパス構築を導くために,3層からなる階層的な段落レベルのトピック構造表現を提案する。
2段階のマンマシン・コラボレーティブ・アノテーションを用いて,中国最大規模のトピック構造コーパスを構築する。
- 参考スコア(独自算出の注目度): 44.06803331843307
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Topic segmentation and outline generation strive to divide a document into coherent topic sections and generate corresponding subheadings, unveiling the discourse topic structure of a document. Compared with sentence-level topic structure, the paragraph-level topic structure can quickly grasp and understand the overall context of the document from a higher level, benefitting many downstream tasks such as summarization, discourse parsing, and information retrieval. However, the lack of large-scale, high-quality Chinese paragraph-level topic structure corpora restrained relative research and applications. To fill this gap, we build the Chinese paragraph-level topic representation, corpus, and benchmark in this paper. Firstly, we propose a hierarchical paragraph-level topic structure representation with three layers to guide the corpus construction. Then, we employ a two-stage man-machine collaborative annotation method to construct the largest Chinese Paragraph-level Topic Structure corpus (CPTS), achieving high quality. We also build several strong baselines, including ChatGPT, to validate the computability of CPTS on two fundamental tasks (topic segmentation and outline generation) and preliminarily verified its usefulness for the downstream task (discourse parsing).
- Abstract(参考訳): トピックセグメンテーションとアウトライン生成は、文書を一貫性のあるトピックセクションに分割し、対応するサブヘッダを生成し、文書の談話トピック構造を明らかにする。
文レベルのトピック構造と比較すると、段落レベルのトピック構造は文書全体のコンテキストをより高いレベルから素早く把握し、理解することができ、要約、談話解析、情報検索といった下流の多くのタスクに役立てることができる。
しかし, 大規模で高品質な中国語段落レベルの話題構造コーパスの欠如により, 相対研究や応用が抑制された。
このギャップを埋めるために、我々は中国語の段落レベルの話題表現、コーパス、ベンチマークを構築した。
まず,コーパス構築を導くために,3層からなる階層的な段落レベルのトピック構造表現を提案する。
次に,中国最大のパラグラフレベルのトピック構造コーパス(CPTS)を構築するために,2段階のマンマシン共同アノテーション手法を適用し,高品質化を実現した。
また,2つの基本タスク(トピックセグメンテーションとアウトライン生成)におけるCPTSの計算可能性を検証するためにChatGPTなどの強力なベースラインを構築し,下流タスク(談話解析)の有用性を予め検証した。
関連論文リスト
- From Text Segmentation to Smart Chaptering: A Novel Benchmark for
Structuring Video Transcriptions [63.11097464396147]
音声コンテンツに焦点をあてた新しいベンチマークYTSegを導入し、その内容は本質的に非構造的であり、トポロジと構造的にも多様である。
また,高効率な階層分割モデルMiniSegを導入する。
論文 参考訳(メタデータ) (2024-02-27T15:59:37Z) - RST-style Discourse Parsing Guided by Document-level Content Structures [27.28989421841165]
既存のRTT解析パイプラインは、文書レベルのコンテンツ構造を知らずに修辞構造を構築する。
本稿では,構造を意識したニュースコンテンツ文表現を取り入れたRTT-DPのための新しいパイプラインを提案する。
論文 参考訳(メタデータ) (2023-09-08T05:50:27Z) - Uncovering the Potential of ChatGPT for Discourse Analysis in Dialogue:
An Empirical Study [51.079100495163736]
本稿では、トピックセグメンテーションと談話解析という2つの談話分析タスクにおけるChatGPTの性能を体系的に検証する。
ChatGPTは、一般的なドメイン間会話においてトピック構造を特定する能力を示すが、特定のドメイン間会話ではかなり困難である。
我々のより深い調査は、ChatGPTは人間のアノテーションよりも合理的なトピック構造を提供するが、階層的なレトリック構造を線形に解析することしかできないことを示唆している。
論文 参考訳(メタデータ) (2023-05-15T07:14:41Z) - PropSegmEnt: A Large-Scale Corpus for Proposition-Level Segmentation and
Entailment Recognition [63.51569687229681]
文中の各命題の文的含意関係を個別に認識する必要性について論じる。
提案するPropSegmEntは45K以上の提案のコーパスであり, 専門家によるアノテートを行う。
我々のデータセット構造は、(1)文書内の文章を命題の集合に分割し、(2)異なるが、トポジカルに整合した文書に対して、各命題の含意関係を分類するタスクに類似している。
論文 参考訳(メタデータ) (2022-12-21T04:03:33Z) - TaxoCom: Topic Taxonomy Completion with Hierarchical Discovery of Novel
Topic Clusters [57.59286394188025]
我々はTaxoComというトピック分類の完成のための新しい枠組みを提案する。
TaxoComは、用語と文書の新たなサブトピッククラスタを発見する。
2つの実世界のデータセットに関する包括的実験により、TaxoComは、用語の一貫性とトピックカバレッジの観点から、高品質なトピック分類を生成するだけでなく、高品質なトピック分類を生成することを実証した。
論文 参考訳(メタデータ) (2022-01-18T07:07:38Z) - Predicting Above-Sentence Discourse Structure using Distant Supervision
from Topic Segmentation [8.688675709130289]
RSTスタイルの談話解析は多くのNLPタスクにおいて重要な役割を担っている。
その重要性にもかかわらず、現代の談話解析における最も一般的な制限の1つは、大規模なデータセットの欠如である。
論文 参考訳(メタデータ) (2021-12-12T10:16:45Z) - An End-to-End Document-Level Neural Discourse Parser Exploiting
Multi-Granularity Representations [24.986030179701405]
構文とセマンティクスにまたがる複数のレベルの粒度から派生した堅牢な表現を利用します。
このような表現をエンドツーエンドのエンコーダデコーダニューラルアーキテクチャに組み込んで、よりリソース豊富な対話処理を行います。
論文 参考訳(メタデータ) (2020-12-21T08:01:04Z) - Multilevel Text Alignment with Cross-Document Attention [59.76351805607481]
既存のアライメントメソッドは、1つの事前定義されたレベルで動作します。
本稿では,文書を文書間注目要素で表現するための階層的アテンションエンコーダを予め確立した新しい学習手法を提案する。
論文 参考訳(メタデータ) (2020-10-03T02:52:28Z) - A Top-Down Neural Architecture towards Text-Level Parsing of Discourse
Rhetorical Structure [27.927104697483934]
テキストレベルのDRS解析に向けたトップダウンニューラルアーキテクチャを提案する。
談話解析を分割点ランキングタスクとして用い,そのランクに応じて分割点を異なるレベルに分類する。
このようにして、内部スタックを持つエンコーダデコーダを用いて、完全なDSSを階層木構造として決定することができる。
論文 参考訳(メタデータ) (2020-05-06T09:27:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。