Fugu-MT 論文翻訳(概要): Advancing Topic Segmentation and Outline Generation in Chinese Texts: The Paragraph-level Topic Representation, Corpus, and Benchmark

論文の概要: Advancing Topic Segmentation and Outline Generation in Chinese Texts: The Paragraph-level Topic Representation, Corpus, and Benchmark

arxiv url: http://arxiv.org/abs/2305.14790v1
Date: Wed, 24 May 2023 06:43:23 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-25 19:02:37.054926
Title: Advancing Topic Segmentation and Outline Generation in Chinese Texts: The Paragraph-level Topic Representation, Corpus, and Benchmark
Title（参考訳）: 中国語テキストにおけるトピックセグメンテーションとアウトライン生成の促進:パラグラフレベルのトピック表現、コーパス、ベンチマーク
Authors: Feng Jiang, Weihao Liu, Xiaomin Chu, Peifeng Li, Qiaoming Zhu, Haizhou Li
Abstract要約: タイトル,サブヘッダ,段落を含む階層的な段落レベルのトピック構造表現を導入する。我々は,これまでで最大であった4倍の大きさの中国段落レベルのトピック構造コーパス(CPTS)を構築した。我々は,2つの基本課題(トピックセグメンテーションとアウトライン生成)におけるCPTSの計算可能性について,いくつかの強いベースラインで検証し,その有効性は下流タスクにおいて予め確認されている:談話解析である。
参考スコア（独自算出の注目度）: 68.37789691077892
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Topic segmentation and outline generation strive to divide a document into coherent topic sections and generate corresponding subheadings. Such a process unveils the discourse topic structure of a document that benefits quickly grasping and understanding the overall context of the document from a higher level. However, research and applications in this field have been restrained due to the lack of proper paragraph-level topic representations and large-scale, high-quality corpora in Chinese compared to the success achieved in English. Addressing these issues, we introduce a hierarchical paragraph-level topic structure representation with title, subheading, and paragraph that comprehensively models the document discourse topic structure. In addition, we ensure a more holistic representation of topic distribution within the document by using sentences instead of keywords to represent sub-topics. Following this representation, we construct the largest Chinese Paragraph-level Topic Structure corpus (CPTS), four times larger than the previously largest one. We also employ a two-stage man-machine collaborative annotation method to ensure the high quality of the corpus both in form and semantics. Finally, we validate the computability of CPTS on two fundamental tasks (topic segmentation and outline generation) by several strong baselines, and its efficacy has been preliminarily confirmed on the downstream task: discourse parsing. The representation, corpus, and benchmark we established will provide a solid foundation for future studies.
Abstract（参考訳）: トピックセグメンテーションとアウトライン生成は、ドキュメントをコヒーレントなトピックセクションに分割し、対応するサブヘッドを生成する。このようなプロセスはドキュメントの談話のトピック構造を明らかにし、文書の全体的なコンテキストを高いレベルから素早く把握し理解するのに役立つ。しかし、この分野での研究や応用は、英語での成功と比較すると、適切な段落レベルの話題表現や、中国語の大規模で高品質なコーパスの欠如により抑制されている。これらの問題に対処するために,文書の話題構造を包括的にモデル化するタイトル,サブヘッド,段落を含む階層的な段落レベルのトピック構造表現を導入する。さらに,サブトピックを表すキーワードの代わりに文を用いて,文書内のトピック分布をより包括的に表現する。この表現に従い、中国最大の段落レベルのトピック構造コーパス(cpts)を構築し、従来よりも4倍大きいトピック構造コーパスを構築した。また,2段階の人間と機械の協調的アノテーション手法を用いて,コーパスの質を形式的・意味的にも確実に保証する。最後に,2つの基本課題(トピックセグメンテーションとアウトライン生成)におけるCPTSの計算可能性について,いくつかの強いベースラインで検証し,その有効性は下流タスクで予め確認されている。私たちが確立した表現、コーパス、ベンチマークは、将来の研究の確かな基盤となるでしょう。

関連論文リスト

Towards Multi-Level Transcript Segmentation: LoRA Fine-Tuning for Table-of-Contents Generation [16.692915208235764]
テキストの階層的なトピックセグメンテーションに新たなアプローチを導入し,複数レベルの内容表を生成する。我々は,大規模言語モデルにおけるゼロショットプロンプトとLoRAの微調整を比較し,高レベル音声ポーズ機能の統合も検討した。
論文参考訳（メタデータ） (2026-01-05T14:00:48Z)
Paragraph Segmentation Revisited: Towards a Standard Task for Structuring Speech [61.00008468914252]
本稿では,音声処理とテキストセグメンテーションの交点における3つのギャップを埋める,欠落した構造化ステップとして,段落セグメンテーションを再考する。ベンチマークは、伝統的に段落のセグメンテーションが後処理の一部ではない未調査の音声領域に焦点を当てている。第二に、制約付き復号法を提案し、大言語モデルが原文を保存しながら段落を挿入できるようにする。第三に、コンパクトモデル(MiniSeg)が最先端の精度を実現し、階層的に拡張されると、最小計算コストで章や段落を共同で予測できることが示される。
論文参考訳（メタデータ） (2025-12-30T23:29:51Z)
DISRetrieval: Harnessing Discourse Structure for Long Document Retrieval [51.89673002051528]
DISRetrievalは、言語談話構造を利用して長い文書理解を強化する新しい階層的検索フレームワークである。本研究は,談話構造が文書の長さや問合せの種類によって検索効率を著しく向上することを確認する。
論文参考訳（メタデータ） (2025-05-26T14:45:12Z)
From Text Segmentation to Smart Chaptering: A Novel Benchmark for Structuring Video Transcriptions [63.11097464396147]
音声コンテンツに焦点をあてた新しいベンチマークYTSegを導入し、その内容は本質的に非構造的であり、トポロジと構造的にも多様である。また,高効率な階層分割モデルMiniSegを導入する。
論文参考訳（メタデータ） (2024-02-27T15:59:37Z)
RST-style Discourse Parsing Guided by Document-level Content Structures [27.28989421841165]
既存のRTT解析パイプラインは、文書レベルのコンテンツ構造を知らずに修辞構造を構築する。本稿では,構造を意識したニュースコンテンツ文表現を取り入れたRTT-DPのための新しいパイプラインを提案する。
論文参考訳（メタデータ） (2023-09-08T05:50:27Z)
Uncovering the Potential of ChatGPT for Discourse Analysis in Dialogue: An Empirical Study [51.079100495163736]
本稿では、トピックセグメンテーションと談話解析という2つの談話分析タスクにおけるChatGPTの性能を体系的に検証する。 ChatGPTは、一般的なドメイン間会話においてトピック構造を特定する能力を示すが、特定のドメイン間会話ではかなり困難である。我々のより深い調査は、ChatGPTは人間のアノテーションよりも合理的なトピック構造を提供するが、階層的なレトリック構造を線形に解析することしかできないことを示唆している。
論文参考訳（メタデータ） (2023-05-15T07:14:41Z)
PropSegmEnt: A Large-Scale Corpus for Proposition-Level Segmentation and Entailment Recognition [63.51569687229681]
文中の各命題の文的含意関係を個別に認識する必要性について論じる。提案するPropSegmEntは45K以上の提案のコーパスであり, 専門家によるアノテートを行う。我々のデータセット構造は、(1)文書内の文章を命題の集合に分割し、(2)異なるが、トポジカルに整合した文書に対して、各命題の含意関係を分類するタスクに類似している。
論文参考訳（メタデータ） (2022-12-21T04:03:33Z)
TaxoCom: Topic Taxonomy Completion with Hierarchical Discovery of Novel Topic Clusters [57.59286394188025]
我々はTaxoComというトピック分類の完成のための新しい枠組みを提案する。 TaxoComは、用語と文書の新たなサブトピッククラスタを発見する。 2つの実世界のデータセットに関する包括的実験により、TaxoComは、用語の一貫性とトピックカバレッジの観点から、高品質なトピック分類を生成するだけでなく、高品質なトピック分類を生成することを実証した。
論文参考訳（メタデータ） (2022-01-18T07:07:38Z)
Predicting Above-Sentence Discourse Structure using Distant Supervision from Topic Segmentation [8.688675709130289]
RSTスタイルの談話解析は多くのNLPタスクにおいて重要な役割を担っている。その重要性にもかかわらず、現代の談話解析における最も一般的な制限の1つは、大規模なデータセットの欠如である。
論文参考訳（メタデータ） (2021-12-12T10:16:45Z)
An End-to-End Document-Level Neural Discourse Parser Exploiting Multi-Granularity Representations [24.986030179701405]
構文とセマンティクスにまたがる複数のレベルの粒度から派生した堅牢な表現を利用します。このような表現をエンドツーエンドのエンコーダデコーダニューラルアーキテクチャに組み込んで、よりリソース豊富な対話処理を行います。
論文参考訳（メタデータ） (2020-12-21T08:01:04Z)
Multilevel Text Alignment with Cross-Document Attention [59.76351805607481]
既存のアライメントメソッドは、1つの事前定義されたレベルで動作します。本稿では,文書を文書間注目要素で表現するための階層的アテンションエンコーダを予め確立した新しい学習手法を提案する。
論文参考訳（メタデータ） (2020-10-03T02:52:28Z)
A Top-Down Neural Architecture towards Text-Level Parsing of Discourse Rhetorical Structure [27.927104697483934]
テキストレベルのDRS解析に向けたトップダウンニューラルアーキテクチャを提案する。談話解析を分割点ランキングタスクとして用い,そのランクに応じて分割点を異なるレベルに分類する。このようにして、内部スタックを持つエンコーダデコーダを用いて、完全なDSSを階層木構造として決定することができる。
論文参考訳（メタデータ） (2020-05-06T09:27:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。