論文の概要: Text Segmentation by Cross Segment Attention
- arxiv url: http://arxiv.org/abs/2004.14535v2
- Date: Mon, 7 Dec 2020 16:00:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 03:57:16.244736
- Title: Text Segmentation by Cross Segment Attention
- Title(参考訳): クロスセグメント注意によるテキスト分割
- Authors: Michal Lukasik, Boris Dadachev, Gon\c{c}alo Sim\~oes, Kishore Papineni
- Abstract要約: 文書と談話のセグメンテーションは、テキストを構成要素に分割する2つの基本的なNLPタスクである。
我々は新しい最先端技術を確立し、特にすべてのケースにおいてエラー率を大きなマージンで削減する。
- 参考スコア(独自算出の注目度): 2.525236250247906
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Document and discourse segmentation are two fundamental NLP tasks pertaining
to breaking up text into constituents, which are commonly used to help
downstream tasks such as information retrieval or text summarization. In this
work, we propose three transformer-based architectures and provide
comprehensive comparisons with previously proposed approaches on three standard
datasets. We establish a new state-of-the-art, reducing in particular the error
rates by a large margin in all cases. We further analyze model sizes and find
that we can build models with many fewer parameters while keeping good
performance, thus facilitating real-world applications.
- Abstract(参考訳): 文書と談話のセグメンテーションは、テキストを構成要素に分割することに関連する2つの基本的なnlpタスクである。
本研究では,3つのトランスフォーマーベースのアーキテクチャを提案し,従来提案していた3つの標準データセットのアプローチを包括的に比較する。
我々は新しい最先端技術を確立し、特にすべてのケースにおいてエラー率を大きなマージンで削減する。
モデルのサイズをさらに分析し、パフォーマンスを維持しながらパラメータの少ないモデルを構築することができることを見出し、実世界のアプリケーションを容易にします。
関連論文リスト
- Segment Any Text: A Universal Approach for Robust, Efficient and Adaptable Sentence Segmentation [9.703886326323644]
この問題を解決するために、新しいモデル、Segment any Text (SaT)を導入します。
頑健性を高めるため,句読点への依存度を低くする事前学習方式を提案する。
適応性に対処するために、パラメータ効率の良い微調整の余分な段階を導入し、異なる領域で最先端の性能を確立する。
論文 参考訳(メタデータ) (2024-06-24T14:36:11Z) - From Text Segmentation to Smart Chaptering: A Novel Benchmark for
Structuring Video Transcriptions [63.11097464396147]
音声コンテンツに焦点をあてた新しいベンチマークYTSegを導入し、その内容は本質的に非構造的であり、トポロジと構造的にも多様である。
また,高効率な階層分割モデルMiniSegを導入する。
論文 参考訳(メタデータ) (2024-02-27T15:59:37Z) - Building blocks for complex tasks: Robust generative event extraction
for radiology reports under domain shifts [11.845850292404768]
マルチパスT5ベースのテキスト・テキスト生成モデルでは、BERTベースのタスク固有分類層を用いた手法と比較して、試験モード間の一般化が優れていることを示す。
そこで我々は, 大規模コーパス処理を臨床応用に利用しやすくするため, モデルの推論コストを低減させる手法を開発した。
論文 参考訳(メタデータ) (2023-06-15T23:16:58Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - ReSel: N-ary Relation Extraction from Scientific Text and Tables by
Learning to Retrieve and Select [53.071352033539526]
学術論文からN-ary関係を抽出する問題について考察する。
提案手法であるReSelは,このタスクを2段階のプロシージャに分解する。
3つの科学的情報抽出データセットに対する実験により、ReSelは最先端のベースラインを大きく上回っていることがわかった。
論文 参考訳(メタデータ) (2022-10-26T02:28:02Z) - Long Document Summarization with Top-down and Bottom-up Inference [113.29319668246407]
本稿では、2つの側面の要約モデルを改善するための原則的推論フレームワークを提案する。
我々のフレームワークは、トップレベルが長距離依存性をキャプチャするドキュメントの階層的な潜在構造を前提としています。
本稿では,様々な要約データセットに対して提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-03-15T01:24:51Z) - HETFORMER: Heterogeneous Transformer with Sparse Attention for Long-Text
Extractive Summarization [57.798070356553936]
HETFORMERはトランスフォーマーをベースとした事前学習モデルであり、抽出要約のための多粒度スパースアテンションを持つ。
単一文書と複数文書の要約タスクの実験から,HETFORMERがルージュF1の最先端性能を達成することが示された。
論文 参考訳(メタデータ) (2021-10-12T22:42:31Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z) - BATS: A Spectral Biclustering Approach to Single Document Topic Modeling
and Segmentation [17.003488045214972]
既存のトピックモデリングとテキストセグメンテーションの方法論は一般的に、トレーニングのために大きなデータセットを必要とする。
単一のドキュメントを扱う方法論を開発する際、我々は2つの大きな課題に直面します。
1つのドキュメントのみにアクセスすることで、従来のトピックモデルやディープラーニングアルゴリズムをトレーニングすることはできないのです。
第二に大きなノイズ: 単一の文書にある単語のかなりの部分がノイズのみを生成し、トピックやセグメントの識別に役立ちません。
論文 参考訳(メタデータ) (2020-08-05T16:34:33Z) - Two-Level Transformer and Auxiliary Coherence Modeling for Improved Text
Segmentation [9.416757363901295]
単純だが明示的なコヒーレンスモデリングを用いたテキストセグメンテーションのための新しい教師付きモデルを提案する。
我々のモデルは、2つの階層的に連結されたトランスフォーマーネットワークからなるニューラルネットワークであり、文レベルのセグメンテーション目標と、正しい文列と腐敗した文列を区別するコヒーレンス目標を結合するマルチタスク学習モデルである。
論文 参考訳(メタデータ) (2020-01-03T17:06:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。