論文の概要: Topical Change Detection in Documents via Embeddings of Long Sequences
- arxiv url: http://arxiv.org/abs/2012.03619v1
- Date: Mon, 7 Dec 2020 12:09:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-20 10:48:07.790983
- Title: Topical Change Detection in Documents via Embeddings of Long Sequences
- Title(参考訳): 長い列の埋め込みによる文書の局所的変化検出
- Authors: Dennis Aumiller, Satya Almasian, Sebastian Lackner and Michael Gertz
- Abstract要約: テキストセグメンテーションのタスクを独立した教師付き予測タスクとして定式化する。
類似セクションの段落を微調整することで、学習した特徴がトピック情報をエンコードすることを示すことができます。
文レベルで操作する従来のアプローチとは異なり、我々は常により広いコンテキストを使用します。
- 参考スコア(独自算出の注目度): 4.13878392637062
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In a longer document, the topic often slightly shifts from one passage to the
next, where topic boundaries are usually indicated by semantically coherent
segments. Discovering this latent structure in a document improves the
readability and is essential for passage retrieval and summarization tasks. We
formulate the task of text segmentation as an independent supervised prediction
task, making it suitable to train on Transformer-based language models. By
fine-tuning on paragraphs of similar sections, we are able to show that learned
features encode topic information, which can be used to find the section
boundaries and divide the text into coherent segments. Unlike previous
approaches, which mostly operate on sentence-level, we consistently use a
broader context of an entire paragraph and assume topical independence of
preceeding and succeeding text. We lastly introduce a novel large-scale dataset
constructed from online Terms-of-Service documents, on which we compare against
various traditional and deep learning baselines, showing significantly better
performance of Transformer-based methods.
- Abstract(参考訳): 長い文書では、トピックは、通常、意味的にコヒーレントなセグメントで示されるような、ある章から次の節へとわずかに変化することが多い。
この潜在構造を文書で発見することで読みやすさが向上し,文節検索や要約作業に不可欠である。
テキストセグメンテーションのタスクを独立した教師付き予測タスクとして定式化し,トランスフォーマティブに基づく言語モデルの学習に適している。
類似セクションの段落を微調整することで、学習した特徴がトピック情報を符号化し、セクション境界を見つけ、テキストを一貫性のあるセグメントに分割することができることを示すことができる。
文レベルで運用される従来のアプローチとは異なり、段落全体のより広い文脈を一貫して使い、受理と継承の主題的独立を前提としています。
最後に、オンラインターム・オブ・サービス文書から構築した、新しい大規模データセットを紹介し、様々な従来のベースラインとディープラーニングベースラインを比較し、トランスフォーマーベースの方法のパフォーマンスを大幅に向上させる。
関連論文リスト
- Segment Any Text: A Universal Approach for Robust, Efficient and Adaptable Sentence Segmentation [9.703886326323644]
この問題を解決するために、新しいモデル、Segment any Text (SaT)を導入します。
頑健性を高めるため,句読点への依存度を低くする事前学習方式を提案する。
適応性に対処するために、パラメータ効率の良い微調整の余分な段階を導入し、異なる領域で最先端の性能を確立する。
論文 参考訳(メタデータ) (2024-06-24T14:36:11Z) - From Text Segmentation to Smart Chaptering: A Novel Benchmark for
Structuring Video Transcriptions [63.11097464396147]
音声コンテンツに焦点をあてた新しいベンチマークYTSegを導入し、その内容は本質的に非構造的であり、トポロジと構造的にも多様である。
また,高効率な階層分割モデルMiniSegを導入する。
論文 参考訳(メタデータ) (2024-02-27T15:59:37Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Toward Unifying Text Segmentation and Long Document Summarization [31.084738269628748]
文章・音声文書の抽出要約において,部分分割が果たす役割について検討する。
本手法は,要約とセグメンテーションを同時に行うことによって,頑健な文表現を学習する。
以上の結果から,本モデルは,公開ベンチマーク上での最先端性能を達成できるだけでなく,異種間転送性も向上できることが示唆された。
論文 参考訳(メタデータ) (2022-10-28T22:07:10Z) - Text Revision by On-the-Fly Representation Optimization [76.11035270753757]
現在の最先端手法は、これらのタスクをシーケンスからシーケンスまでの学習問題として定式化している。
並列データを必要としないテキストリビジョンのための反復的なインプレース編集手法を提案する。
テキストの単純化に関する最先端の教師付き手法よりも、競争力があり、パフォーマンスも向上する。
論文 参考訳(メタデータ) (2022-04-15T07:38:08Z) - Revisiting Transformer-based Models for Long Document Classification [31.60414185940218]
実世界のアプリケーションでは、マルチページのマルチパラグラフ文書が一般的であり、バニラトランスフォーマーベースのモデルでは効率的にエンコードできない。
本稿では,変圧器の計算オーバーヘッドを軽減するために,トランスフォーマーを用いた長期文書分類(TrLDC)手法を比較した。
我々は、より長いテキストを処理できることの明確な利点を観察し、その結果に基づいて、長い文書分類タスクにTransformerベースのモデルを適用する実践的なアドバイスを導き出す。
論文 参考訳(メタデータ) (2022-04-14T00:44:36Z) - HETFORMER: Heterogeneous Transformer with Sparse Attention for Long-Text
Extractive Summarization [57.798070356553936]
HETFORMERはトランスフォーマーをベースとした事前学習モデルであり、抽出要約のための多粒度スパースアテンションを持つ。
単一文書と複数文書の要約タスクの実験から,HETFORMERがルージュF1の最先端性能を達成することが示された。
論文 参考訳(メタデータ) (2021-10-12T22:42:31Z) - WikiAsp: A Dataset for Multi-domain Aspect-based Summarization [69.13865812754058]
マルチドメインアスペクトベースの要約のための大規模データセットであるWikiAspを提案する。
具体的には、アスペクトアノテーションのプロキシとして、各記事のセクションタイトルとバウンダリを使用して、20の異なるドメインからウィキペディア記事を使用してデータセットを構築します。
その結果,既存の要約モデルがこの設定で直面する重要な課題,例えば引用されたソースの適切な代名詞処理,時間に敏感なイベントの一貫した説明などが浮き彫りになった。
論文 参考訳(メタデータ) (2020-11-16T10:02:52Z) - Learning to Select Bi-Aspect Information for Document-Scale Text Content
Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。
詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。
出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文 参考訳(メタデータ) (2020-02-24T12:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。