論文の概要: Toward Unifying Text Segmentation and Long Document Summarization
- arxiv url: http://arxiv.org/abs/2210.16422v1
- Date: Fri, 28 Oct 2022 22:07:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 16:50:49.321874
- Title: Toward Unifying Text Segmentation and Long Document Summarization
- Title(参考訳): テキストセグメンテーションと長文要約の統一に向けて
- Authors: Sangwoo Cho, Kaiqiang Song, Xiaoyang Wang, Fei Liu, Dong Yu
- Abstract要約: 文章・音声文書の抽出要約において,部分分割が果たす役割について検討する。
本手法は,要約とセグメンテーションを同時に行うことによって,頑健な文表現を学習する。
以上の結果から,本モデルは,公開ベンチマーク上での最先端性能を達成できるだけでなく,異種間転送性も向上できることが示唆された。
- 参考スコア(独自算出の注目度): 31.084738269628748
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Text segmentation is important for signaling a document's structure. Without
segmenting a long document into topically coherent sections, it is difficult
for readers to comprehend the text, let alone find important information. The
problem is only exacerbated by a lack of segmentation in transcripts of
audio/video recordings. In this paper, we explore the role that section
segmentation plays in extractive summarization of written and spoken documents.
Our approach learns robust sentence representations by performing summarization
and segmentation simultaneously, which is further enhanced by an
optimization-based regularizer to promote selection of diverse summary
sentences. We conduct experiments on multiple datasets ranging from scientific
articles to spoken transcripts to evaluate the model's performance. Our
findings suggest that the model can not only achieve state-of-the-art
performance on publicly available benchmarks, but demonstrate better
cross-genre transferability when equipped with text segmentation. We perform a
series of analyses to quantify the impact of section segmentation on
summarizing written and spoken documents of substantial length and complexity.
- Abstract(参考訳): テキストセグメンテーションは文書の構造をシグナリングするのに重要である。
長い文書を局所的にコヒーレントな部分に分割することなく、重要な情報を見つけることなしに、読者がテキストを理解することは困難である。
この問題は、音声/ビデオ記録の書き起こしのセグメント化の欠如によってのみ悪化する。
本稿では,文および音声文書の抽出要約において,節分割が果たす役割について検討する。
提案手法は,要約とセグメント化を同時に行うことで頑健な文表現を学習し,多種多様な要約文の選択を促進する最適化型正規化器によってさらに強化される。
論文から音声書き起こしまで,複数のデータセットを用いて実験を行い,モデルの性能評価を行った。
提案手法は,公開ベンチマークで最先端のパフォーマンスを実現するだけでなく,テキストセグメンテーション機能を備えた場合のクロスジェネレータ転送性も向上することが示唆された。
本研究では,部分分割が文章や音声文書の相当な長さと複雑さの要約に与える影響を定量的に分析する。
関連論文リスト
- Visual Prompt Selection for In-Context Learning Segmentation [77.15684360470152]
本稿では,サンプル選択戦略の再考と改善に焦点をあてる。
まず、ICLに基づくセグメンテーションモデルが異なる文脈に敏感であることを示す。
さらに、経験的証拠は、文脈的プロンプトの多様性がセグメンテーションを導く上で重要な役割を担っていることを示している。
論文 参考訳(メタデータ) (2024-07-14T15:02:54Z) - From Text Segmentation to Smart Chaptering: A Novel Benchmark for
Structuring Video Transcriptions [63.11097464396147]
音声コンテンツに焦点をあてた新しいベンチマークYTSegを導入し、その内容は本質的に非構造的であり、トポロジと構造的にも多様である。
また,高効率な階層分割モデルMiniSegを導入する。
論文 参考訳(メタデータ) (2024-02-27T15:59:37Z) - Document Summarization with Text Segmentation [7.954814600961461]
我々は、抽出要約タスクを改善するために、固有文書セグメント構造を利用する。
2つのテキストセグメンテーションモデルを構築し、その出力予測を導入するための最も最適な戦略を見出す。
論文 参考訳(メタデータ) (2023-01-20T22:24:22Z) - PropSegmEnt: A Large-Scale Corpus for Proposition-Level Segmentation and
Entailment Recognition [63.51569687229681]
文中の各命題の文的含意関係を個別に認識する必要性について論じる。
提案するPropSegmEntは45K以上の提案のコーパスであり, 専門家によるアノテートを行う。
我々のデータセット構造は、(1)文書内の文章を命題の集合に分割し、(2)異なるが、トポジカルに整合した文書に対して、各命題の含意関係を分類するタスクに類似している。
論文 参考訳(メタデータ) (2022-12-21T04:03:33Z) - Topical Change Detection in Documents via Embeddings of Long Sequences [4.13878392637062]
テキストセグメンテーションのタスクを独立した教師付き予測タスクとして定式化する。
類似セクションの段落を微調整することで、学習した特徴がトピック情報をエンコードすることを示すことができます。
文レベルで操作する従来のアプローチとは異なり、我々は常により広いコンテキストを使用します。
論文 参考訳(メタデータ) (2020-12-07T12:09:37Z) - BATS: A Spectral Biclustering Approach to Single Document Topic Modeling
and Segmentation [17.003488045214972]
既存のトピックモデリングとテキストセグメンテーションの方法論は一般的に、トレーニングのために大きなデータセットを必要とする。
単一のドキュメントを扱う方法論を開発する際、我々は2つの大きな課題に直面します。
1つのドキュメントのみにアクセスすることで、従来のトピックモデルやディープラーニングアルゴリズムをトレーニングすることはできないのです。
第二に大きなノイズ: 単一の文書にある単語のかなりの部分がノイズのみを生成し、トピックやセグメントの識別に役立ちません。
論文 参考訳(メタデータ) (2020-08-05T16:34:33Z) - Recurrent Chunking Mechanisms for Long-Text Machine Reading
Comprehension [59.80926970481975]
機械読解(MRC)を長文で研究する。
モデルは長い文書と質問を入力として取り、回答として文書からテキストを抽出する。
我々は、モデルに強化学習を通じてより柔軟な方法でチャンクを学習させることを提案する。
論文 参考訳(メタデータ) (2020-05-16T18:08:58Z) - Screenplay Summarization Using Latent Narrative Structure [78.45316339164133]
本稿では,物語の基盤となる構造を一般教師なし・教師付き抽出要約モデルに明示的に組み込むことを提案する。
重要な物語イベント(転回点)の観点で物語構造を定式化し、脚本を要約するために潜伏状態として扱う。
シーンレベルの要約ラベルを付加したテレビ画面のCSIコーパスの実験結果から,潜角点がCSIエピソードの重要な側面と相関していることが判明した。
論文 参考訳(メタデータ) (2020-04-27T11:54:19Z) - Learning to Select Bi-Aspect Information for Document-Scale Text Content
Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。
詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。
出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文 参考訳(メタデータ) (2020-02-24T12:52:10Z) - Two-Level Transformer and Auxiliary Coherence Modeling for Improved Text
Segmentation [9.416757363901295]
単純だが明示的なコヒーレンスモデリングを用いたテキストセグメンテーションのための新しい教師付きモデルを提案する。
我々のモデルは、2つの階層的に連結されたトランスフォーマーネットワークからなるニューラルネットワークであり、文レベルのセグメンテーション目標と、正しい文列と腐敗した文列を区別するコヒーレンス目標を結合するマルチタスク学習モデルである。
論文 参考訳(メタデータ) (2020-01-03T17:06:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。