論文の概要: Topical Change Detection in Documents via Embeddings of Long Sequences
- arxiv url: http://arxiv.org/abs/2012.03619v1
- Date: Mon, 7 Dec 2020 12:09:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-20 10:48:07.790983
- Title: Topical Change Detection in Documents via Embeddings of Long Sequences
- Title(参考訳): 長い列の埋め込みによる文書の局所的変化検出
- Authors: Dennis Aumiller, Satya Almasian, Sebastian Lackner and Michael Gertz
- Abstract要約: テキストセグメンテーションのタスクを独立した教師付き予測タスクとして定式化する。
類似セクションの段落を微調整することで、学習した特徴がトピック情報をエンコードすることを示すことができます。
文レベルで操作する従来のアプローチとは異なり、我々は常により広いコンテキストを使用します。
- 参考スコア(独自算出の注目度): 4.13878392637062
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In a longer document, the topic often slightly shifts from one passage to the
next, where topic boundaries are usually indicated by semantically coherent
segments. Discovering this latent structure in a document improves the
readability and is essential for passage retrieval and summarization tasks. We
formulate the task of text segmentation as an independent supervised prediction
task, making it suitable to train on Transformer-based language models. By
fine-tuning on paragraphs of similar sections, we are able to show that learned
features encode topic information, which can be used to find the section
boundaries and divide the text into coherent segments. Unlike previous
approaches, which mostly operate on sentence-level, we consistently use a
broader context of an entire paragraph and assume topical independence of
preceeding and succeeding text. We lastly introduce a novel large-scale dataset
constructed from online Terms-of-Service documents, on which we compare against
various traditional and deep learning baselines, showing significantly better
performance of Transformer-based methods.
- Abstract(参考訳): 長い文書では、トピックは、通常、意味的にコヒーレントなセグメントで示されるような、ある章から次の節へとわずかに変化することが多い。
この潜在構造を文書で発見することで読みやすさが向上し,文節検索や要約作業に不可欠である。
テキストセグメンテーションのタスクを独立した教師付き予測タスクとして定式化し,トランスフォーマティブに基づく言語モデルの学習に適している。
類似セクションの段落を微調整することで、学習した特徴がトピック情報を符号化し、セクション境界を見つけ、テキストを一貫性のあるセグメントに分割することができることを示すことができる。
文レベルで運用される従来のアプローチとは異なり、段落全体のより広い文脈を一貫して使い、受理と継承の主題的独立を前提としています。
最後に、オンラインターム・オブ・サービス文書から構築した、新しい大規模データセットを紹介し、様々な従来のベースラインとディープラーニングベースラインを比較し、トランスフォーマーベースの方法のパフォーマンスを大幅に向上させる。
関連論文リスト
- From Text Segmentation to Smart Chaptering: A Novel Benchmark for
Structuring Video Transcriptions [63.11097464396147]
音声コンテンツに焦点をあてた新しいベンチマークYTSegを導入し、その内容は本質的に非構造的であり、トポロジと構造的にも多様である。
また,高効率な階層分割モデルMiniSegを導入する。
論文 参考訳(メタデータ) (2024-02-27T15:59:37Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [72.79006668848186]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Advancing Topic Segmentation and Outline Generation in Chinese Texts:
The Paragraph-level Topic Representation, Corpus, and Benchmark [68.37789691077892]
タイトル,サブヘッダ,段落を含む階層的な段落レベルのトピック構造表現を導入する。
我々は,これまでで最大であった4倍の大きさの中国段落レベルのトピック構造コーパス(CPTS)を構築した。
我々は,2つの基本課題(トピックセグメンテーションとアウトライン生成)におけるCPTSの計算可能性について,いくつかの強いベースラインで検証し,その有効性は下流タスクにおいて予め確認されている:談話解析である。
論文 参考訳(メタデータ) (2023-05-24T06:43:23Z) - Toward Unifying Text Segmentation and Long Document Summarization [31.084738269628748]
文章・音声文書の抽出要約において,部分分割が果たす役割について検討する。
本手法は,要約とセグメンテーションを同時に行うことによって,頑健な文表現を学習する。
以上の結果から,本モデルは,公開ベンチマーク上での最先端性能を達成できるだけでなく,異種間転送性も向上できることが示唆された。
論文 参考訳(メタデータ) (2022-10-28T22:07:10Z) - Text Revision by On-the-Fly Representation Optimization [76.11035270753757]
現在の最先端手法は、これらのタスクをシーケンスからシーケンスまでの学習問題として定式化している。
並列データを必要としないテキストリビジョンのための反復的なインプレース編集手法を提案する。
テキストの単純化に関する最先端の教師付き手法よりも、競争力があり、パフォーマンスも向上する。
論文 参考訳(メタデータ) (2022-04-15T07:38:08Z) - Revisiting Transformer-based Models for Long Document Classification [31.60414185940218]
実世界のアプリケーションでは、マルチページのマルチパラグラフ文書が一般的であり、バニラトランスフォーマーベースのモデルでは効率的にエンコードできない。
本稿では,変圧器の計算オーバーヘッドを軽減するために,トランスフォーマーを用いた長期文書分類(TrLDC)手法を比較した。
我々は、より長いテキストを処理できることの明確な利点を観察し、その結果に基づいて、長い文書分類タスクにTransformerベースのモデルを適用する実践的なアドバイスを導き出す。
論文 参考訳(メタデータ) (2022-04-14T00:44:36Z) - HETFORMER: Heterogeneous Transformer with Sparse Attention for Long-Text
Extractive Summarization [57.798070356553936]
HETFORMERはトランスフォーマーをベースとした事前学習モデルであり、抽出要約のための多粒度スパースアテンションを持つ。
単一文書と複数文書の要約タスクの実験から,HETFORMERがルージュF1の最先端性能を達成することが示された。
論文 参考訳(メタデータ) (2021-10-12T22:42:31Z) - Learning to Select Bi-Aspect Information for Document-Scale Text Content
Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。
詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。
出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文 参考訳(メタデータ) (2020-02-24T12:52:10Z) - Two-Level Transformer and Auxiliary Coherence Modeling for Improved Text
Segmentation [9.416757363901295]
単純だが明示的なコヒーレンスモデリングを用いたテキストセグメンテーションのための新しい教師付きモデルを提案する。
我々のモデルは、2つの階層的に連結されたトランスフォーマーネットワークからなるニューラルネットワークであり、文レベルのセグメンテーション目標と、正しい文列と腐敗した文列を区別するコヒーレンス目標を結合するマルチタスク学習モデルである。
論文 参考訳(メタデータ) (2020-01-03T17:06:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。