論文の概要: Two-Level Transformer and Auxiliary Coherence Modeling for Improved Text
Segmentation
- arxiv url: http://arxiv.org/abs/2001.00891v1
- Date: Fri, 3 Jan 2020 17:06:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-14 17:46:12.856156
- Title: Two-Level Transformer and Auxiliary Coherence Modeling for Improved Text
Segmentation
- Title(参考訳): テキストセグメンテーション改善のための2レベルトランスと補助コヒーレンスモデリング
- Authors: Goran Glava\v{s} and Swapna Somasundaran
- Abstract要約: 単純だが明示的なコヒーレンスモデリングを用いたテキストセグメンテーションのための新しい教師付きモデルを提案する。
我々のモデルは、2つの階層的に連結されたトランスフォーマーネットワークからなるニューラルネットワークであり、文レベルのセグメンテーション目標と、正しい文列と腐敗した文列を区別するコヒーレンス目標を結合するマルチタスク学習モデルである。
- 参考スコア(独自算出の注目度): 9.416757363901295
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Breaking down the structure of long texts into semantically coherent segments
makes the texts more readable and supports downstream applications like
summarization and retrieval. Starting from an apparent link between text
coherence and segmentation, we introduce a novel supervised model for text
segmentation with simple but explicit coherence modeling. Our model -- a neural
architecture consisting of two hierarchically connected Transformer networks --
is a multi-task learning model that couples the sentence-level segmentation
objective with the coherence objective that differentiates correct sequences of
sentences from corrupt ones. The proposed model, dubbed Coherence-Aware Text
Segmentation (CATS), yields state-of-the-art segmentation performance on a
collection of benchmark datasets. Furthermore, by coupling CATS with
cross-lingual word embeddings, we demonstrate its effectiveness in zero-shot
language transfer: it can successfully segment texts in languages unseen in
training.
- Abstract(参考訳): 長いテキストの構造を意味的に一貫性のあるセグメントに分割することで、テキストをより読みやすくなり、要約や検索といった下流アプリケーションをサポートする。
テキストコヒーレンスとセグメンテーションの明らかなリンクから始め、単純だが明示的なコヒーレンスモデリングによるテキストセグメンテーションのための教師付きモデルを導入する。
我々のモデルは2つの階層的結合トランスフォーマーネットワークから成るニューラルネットワークであり、文レベルのセグメンテーション目標と、文の正しいシーケンスと腐敗した文を区別するコヒーレンス目標を結合するマルチタスク学習モデルである。
提案モデルはcoherence-aware text segmentation (cats)と呼ばれ、ベンチマークデータセットの集合上で最先端のセグメンテーション性能をもたらす。
さらに、CATSと言語間単語埋め込みを結合することにより、ゼロショット言語転送におけるその効果を実証する。
関連論文リスト
- Pointer-Guided Pre-Training: Infusing Large Language Models with Paragraph-Level Contextual Awareness [3.2925222641796554]
ポインター誘導セグメントオーダリング(SO)は,段落レベルのテキスト表現の文脈的理解を高めることを目的とした,新しい事前学習手法である。
実験の結果,ポインタ誘導型事前学習は複雑な文書構造を理解する能力を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-06-06T15:17:51Z) - From Text Segmentation to Smart Chaptering: A Novel Benchmark for
Structuring Video Transcriptions [63.11097464396147]
音声コンテンツに焦点をあてた新しいベンチマークYTSegを導入し、その内容は本質的に非構造的であり、トポロジと構造的にも多様である。
また,高効率な階層分割モデルMiniSegを導入する。
論文 参考訳(メタデータ) (2024-02-27T15:59:37Z) - Betrayed by Captions: Joint Caption Grounding and Generation for Open
Vocabulary Instance Segmentation [80.48979302400868]
オープンな語彙のインスタンスセグメンテーションに注目し、セグメンテーションモデルを拡張して、インスタンスレベルの新しいカテゴリを分類し、セグメンテーションする。
これまでは、画像領域と名詞の字幕間の1対1のマッピングを確立するために、大量の字幕データセットと複雑なパイプラインに頼っていた。
我々は,一致したオブジェクトのみに着目して学習効率を向上させる新しいグラウンドニング損失を取り入れた,共同の textbf Caption Grounding and Generation (CGG) フレームワークを考案した。
論文 参考訳(メタデータ) (2023-01-02T18:52:12Z) - Toward Unifying Text Segmentation and Long Document Summarization [31.084738269628748]
文章・音声文書の抽出要約において,部分分割が果たす役割について検討する。
本手法は,要約とセグメンテーションを同時に行うことによって,頑健な文表現を学習する。
以上の結果から,本モデルは,公開ベンチマーク上での最先端性能を達成できるだけでなく,異種間転送性も向上できることが示唆された。
論文 参考訳(メタデータ) (2022-10-28T22:07:10Z) - HETFORMER: Heterogeneous Transformer with Sparse Attention for Long-Text
Extractive Summarization [57.798070356553936]
HETFORMERはトランスフォーマーをベースとした事前学習モデルであり、抽出要約のための多粒度スパースアテンションを持つ。
単一文書と複数文書の要約タスクの実験から,HETFORMERがルージュF1の最先端性能を達成することが示された。
論文 参考訳(メタデータ) (2021-10-12T22:42:31Z) - R2D2: Relational Text Decoding with Transformers [18.137828323277347]
グラフ構造とそれらのノードとエッジに関連付けられた自然言語テキストとの相互作用をモデル化する新しいフレームワークを提案する。
提案手法は,グラフィカル構造とテキストのシーケンシャルな性質の両方を利用する。
提案モデルには幅広い応用があるが,データ・テキスト生成タスクにおけるその機能を示す。
論文 参考訳(メタデータ) (2021-05-10T19:59:11Z) - Syntax-Enhanced Pre-trained Model [49.1659635460369]
BERTやRoBERTaなどの学習済みモデルを強化するために、テキストの構文構造を活用するという問題を研究する。
既存の手法では、事前学習段階または微調整段階のいずれかでテキストの構文を利用しており、両者の区別に苦しむ。
事前学習と微調整の両方の段階でテキストのシンタックスを利用するモデルを提示する。
論文 参考訳(メタデータ) (2020-12-28T06:48:04Z) - SLM: Learning a Discourse Language Representation with Sentence
Unshuffling [53.42814722621715]
談話言語表現を学習するための新しい事前学習目的である文レベル言語モデリングを導入する。
本モデルでは,この特徴により,従来のBERTの性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2020-10-30T13:33:41Z) - Text Segmentation by Cross Segment Attention [2.525236250247906]
文書と談話のセグメンテーションは、テキストを構成要素に分割する2つの基本的なNLPタスクである。
我々は新しい最先端技術を確立し、特にすべてのケースにおいてエラー率を大きなマージンで削減する。
論文 参考訳(メタデータ) (2020-04-30T01:36:52Z) - Learning to Select Bi-Aspect Information for Document-Scale Text Content
Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。
詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。
出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文 参考訳(メタデータ) (2020-02-24T12:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。