論文の概要: Chapter Captor: Text Segmentation in Novels
- arxiv url: http://arxiv.org/abs/2011.04163v1
- Date: Mon, 9 Nov 2020 02:56:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-28 01:00:19.667097
- Title: Chapter Captor: Text Segmentation in Novels
- Title(参考訳): chapter captor: 小説におけるテキストセグメンテーション
- Authors: Charuta Pethe, Allen Kim, Steven Skiena
- Abstract要約: 我々は、ニューラル推論とルールマッチングを組み合わせたハイブリッドアプローチを用いて、9,126の英小説からなるプロジェクト・グーテンベルクの章のセグメンテーションデータセットを構築した。
本論文では,章分割のためのカットベースおよびニューラル手法を提案し,書籍長文書の正確なブレーク予測の課題に対して,F1スコア0.453を達成する。
- 参考スコア(独自算出の注目度): 10.481474734742486
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Books are typically segmented into chapters and sections, representing
coherent subnarratives and topics. We investigate the task of predicting
chapter boundaries, as a proxy for the general task of segmenting long texts.
We build a Project Gutenberg chapter segmentation data set of 9,126 English
novels, using a hybrid approach combining neural inference and rule matching to
recognize chapter title headers in books, achieving an F1-score of 0.77 on this
task. Using this annotated data as ground truth after removing structural cues,
we present cut-based and neural methods for chapter segmentation, achieving an
F1-score of 0.453 on the challenging task of exact break prediction over
book-length documents. Finally, we reveal interesting historical trends in the
chapter structure of novels.
- Abstract(参考訳): 典型的には、本は章と章に分けられ、コヒーレントなサブナラティブやトピックを表す。
長いテキストを分割する一般的なタスクの代理として、章の境界を予測するタスクについて検討する。
ニューラル推論とルールマッチングを組み合わせるハイブリッド手法を用いて,9,126冊の英小説からなるプロジェクト・グーテンベルクの章のセグメンテーションデータセットを構築し,本書の章のタイトルヘッダを認識する。
この注釈付きデータを構造的手がかりを取り除いた上での真理として用いて,本文書の正確な破壊予測を行う上で,F1スコアの0.453を達成し,カットベースおよびニューラル手法を提案する。
最後に,小説の章構造に興味深い歴史的傾向を示す。
関連論文リスト
- From Text Segmentation to Smart Chaptering: A Novel Benchmark for
Structuring Video Transcriptions [63.11097464396147]
音声コンテンツに焦点をあてた新しいベンチマークYTSegを導入し、その内容は本質的に非構造的であり、トポロジと構造的にも多様である。
また,高効率な階層分割モデルMiniSegを導入する。
論文 参考訳(メタデータ) (2024-02-27T15:59:37Z) - Previously on the Stories: Recap Snippet Identification for Story
Reading [51.641565531840186]
本稿では,手作り評価データセットを用いたRecap Snippet Identificationと呼ばれる,この有用なタスクに関する最初のベンチマークを提案する。
本実験により,提案課題は,提案課題がスニペット間のプロット相関の深い理解を必要とするため,PLM,LSM,および提案手法に難題であることが判明した。
論文 参考訳(メタデータ) (2024-02-11T18:27:14Z) - VidChapters-7M: Video Chapters at Scale [110.19323390486775]
VidChapters-7Mは、合計で7M章を含む817万のユーザチャプター付きビデオのデータセットである。
VidChapters-7Mは、ユーザーが注釈を付けた章をスクラップすることで、オンラインビデオから自動的にスケーラブルな方法で作成される。
VidChapters-7Mの事前トレーニングは、ゼロショットと微調整の両方で、高密度な映像キャプションタスクに適していることを示す。
論文 参考訳(メタデータ) (2023-09-25T08:38:11Z) - Betrayed by Captions: Joint Caption Grounding and Generation for Open
Vocabulary Instance Segmentation [80.48979302400868]
オープンな語彙のインスタンスセグメンテーションに注目し、セグメンテーションモデルを拡張して、インスタンスレベルの新しいカテゴリを分類し、セグメンテーションする。
これまでは、画像領域と名詞の字幕間の1対1のマッピングを確立するために、大量の字幕データセットと複雑なパイプラインに頼っていた。
我々は,一致したオブジェクトのみに着目して学習効率を向上させる新しいグラウンドニング損失を取り入れた,共同の textbf Caption Grounding and Generation (CGG) フレームワークを考案した。
論文 参考訳(メタデータ) (2023-01-02T18:52:12Z) - ChapterBreak: A Challenge Dataset for Long-Range Language Models [36.54750186213335]
章境界で終わる物語から長いセグメントのLRLMを提供する挑戦データセットである章Breakを紹介します。
詳細な人間のアノテーションから、私たちのデータセットには多くの複雑な章の遷移が含まれていることが分かる。
ChapterBreakの実験では、既存のLRLMは長距離コンテキストを効果的に活用できないことが示されている。
論文 参考訳(メタデータ) (2022-04-22T18:20:23Z) - Topical Change Detection in Documents via Embeddings of Long Sequences [4.13878392637062]
テキストセグメンテーションのタスクを独立した教師付き予測タスクとして定式化する。
類似セクションの段落を微調整することで、学習した特徴がトピック情報をエンコードすることを示すことができます。
文レベルで操作する従来のアプローチとは異なり、我々は常により広いコンテキストを使用します。
論文 参考訳(メタデータ) (2020-12-07T12:09:37Z) - Exploring Content Selection in Summarization of Novel Chapters [19.11830806780343]
オンライン学習ガイドから要約/チャプタペアを用いて新しい章の要約を生成する新しい要約タスクを提案する。
これはニュース要約作業よりも難しい作業であり、章の長さだけでなく、要約に見られる極端なパラフレーズや一般化も考慮されている。
我々は抽出要約に焦点をあて、抽出要約のゴールド標準セットを作成する必要がある。
論文 参考訳(メタデータ) (2020-05-04T20:45:39Z) - Extractive Summarization as Text Matching [123.09816729675838]
本稿では,ニューラル抽出要約システムの構築方法に関するパラダイムシフトを作成する。
抽出した要約タスクを意味テキストマッチング問題として定式化する。
我々はCNN/DailyMailの最先端抽出結果を新しいレベル(ROUGE-1の44.41)に推し進めた。
論文 参考訳(メタデータ) (2020-04-19T08:27:57Z) - The Shmoop Corpus: A Dataset of Stories with Loosely Aligned Summaries [72.48439126769627]
個々の章ごとに詳細なマルチパラグラフの要約と組み合わせた231ストーリーのデータセットであるShmoop Corpusを紹介します。
コーパスから、クローズ形式の質問応答や抽象的要約の簡易な形式を含む共通のNLPタスクのセットを構築する。
このコーパスのユニークな構造は、マシンストーリーの理解をより親しみやすいものにするための重要な基盤となると信じている。
論文 参考訳(メタデータ) (2019-12-30T21:03:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。