論文の概要: Improving Long Document Topic Segmentation Models With Enhanced
Coherence Modeling
- arxiv url: http://arxiv.org/abs/2310.11772v1
- Date: Wed, 18 Oct 2023 07:58:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-19 17:28:47.160462
- Title: Improving Long Document Topic Segmentation Models With Enhanced
Coherence Modeling
- Title(参考訳): コヒーレンスモデルの拡張による長文トピックセグメンテーションモデルの改善
- Authors: Hai Yu, Chong Deng, Qinglin Zhang, Jiaqing Liu, Qian Chen, Wen Wang
- Abstract要約: 本稿では、構造と類似性の両方の観点から意味的コヒーレンスを捉えるための教師付きニューラルネットワークの能力を強化する。
topic-aware Sentence Structure Prediction (TSSP)とContrastive Semantic similarity Learning (CSSL)を提案する。
さらに,コントラスト型サンプルの作成とCSSLの目的設計に,トピック内の文表現が意味的類似性が高いことを保証するために,トピック間情報とトピック内情報を利用する。
- 参考スコア(独自算出の注目度): 19.303419410130672
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Topic segmentation is critical for obtaining structured long documents and
improving downstream tasks like information retrieval. Due to its ability of
automatically exploring clues of topic shift from a large amount of labeled
data, recent supervised neural models have greatly promoted the development of
long document topic segmentation, but leaving the deeper relationship of
semantic coherence and topic segmentation underexplored. Therefore, this paper
enhances the supervised model's ability to capture coherence from both
structure and similarity perspectives to further improve the topic segmentation
performance, including the Topic-aware Sentence Structure Prediction (TSSP) and
Contrastive Semantic Similarity Learning (CSSL). Specifically, the TSSP task is
proposed to force the model to comprehend structural information by learning
the original relations of adjacent sentences in a disarrayed document, which is
constructed by jointly disrupting the original document at the topic and
sentence levels. In addition, we utilize inter- and intra-topic information to
construct contrastive samples and design the CSSL objective to ensure that the
sentences representations in the same topic have higher semantic similarity,
while those in different topics are less similar. Extensive experiments show
that the Longformer with our approach significantly outperforms old
state-of-the-art (SOTA) methods. Our approach improves $F_{1}$ of old SOTA by
3.42 (73.74 -> 77.16) and reduces $P_{k}$ by 1.11 points (15.0 -> 13.89) on
WIKI-727K and achieves an average reduction of 0.83 points on $P_{k}$ on
WikiSection. The average $P_{k}$ drop of 2.82 points on the two out-of-domain
datasets also illustrates the robustness of our approach
- Abstract(参考訳): トピックセグメンテーションは構造化された長いドキュメントを取得し、情報検索のような下流タスクを改善するために重要である。
大量のラベル付きデータからトピックシフトの手がかりを自動的に探索する能力のため、近年の教師付きニューラルネットワークは、長い文書のトピックセグメンテーションの開発を大いに促進しているが、セマンティックコヒーレンスとトピックセグメンテーションの深い関係は未解明のままである。
そこで本論文では,教師付きモデルにより,構造と類似性の観点からコヒーレンスを捉える能力を高め,トピック認識文構造予測 (tssp) やコントラスト的意味類似性学習 (cssl) など,トピックセグメンテーション性能をさらに向上させる。
具体的には、TSSPタスクは、そのトピックと文レベルで原文を共同的に破壊して構築した非配列文書において、隣接文の原文関係を学習することにより、構造情報の理解を強制する。
さらに,トピック間情報とトピック内情報を用いて対比サンプルを作成し,cssl目標の設計を行い,同一トピック内の文表現が意味的類似度が高いが,異なるトピックの文は類似度が低いことを保証する。
広汎な実験により,我々のアプローチによるロングフォーマーは,従来のSOTA法よりも優れていた。
提案手法は,wiki-727k において,古い sota の $f_{1}$ を 3.42 (73.74 -> 77.16) 改善し,$p_{k}$ を 1.11 ポイント (15.0 -> 13.89) 削減し,wiki セクション 上で $p_{k}$ で 0.83 ポイント削減する。
P_{k}$平均2.82点のドメイン外のデータセットは、我々のアプローチの堅牢性も示している。
関連論文リスト
- Coherent Entity Disambiguation via Modeling Topic and Categorical
Dependency [87.16283281290053]
従来のエンティティ曖昧化(ED)メソッドは、参照コンテキストと候補エンティティの一致するスコアに基づいて予測を行う、識別パラダイムを採用している。
本稿では,エンティティ予測のコヒーレンス向上を目的とした新しいデザインを備えたEDシステムであるCoherentedを提案する。
我々は、人気EDベンチマークにおいて、平均1.3F1ポイントの改善により、最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-11-06T16:40:13Z) - Long Document Summarization with Top-down and Bottom-up Inference [113.29319668246407]
本稿では、2つの側面の要約モデルを改善するための原則的推論フレームワークを提案する。
我々のフレームワークは、トップレベルが長距離依存性をキャプチャするドキュメントの階層的な潜在構造を前提としています。
本稿では,様々な要約データセットに対して提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-03-15T01:24:51Z) - SAIS: Supervising and Augmenting Intermediate Steps for Document-Level
Relation Extraction [51.27558374091491]
本稿では,関係抽出のための中間ステップ(SAIS)を監督し,拡張することにより,関連コンテキストやエンティティタイプをキャプチャするモデルを明示的に教えることを提案する。
そこで本提案手法は,より効果的な管理を行うため,より優れた品質の関係を抽出するだけでなく,それに対応する証拠をより正確に抽出する。
論文 参考訳(メタデータ) (2021-09-24T17:37:35Z) - Author Clustering and Topic Estimation for Short Texts [69.54017251622211]
同じ文書中の単語間の強い依存をモデル化することにより、遅延ディリクレ割当を拡張できる新しいモデルを提案する。
同時にユーザをクラスタ化し、ホック後のクラスタ推定の必要性を排除しています。
我々の手法は、短文で生じる問題に対する従来のアプローチよりも、-または----------- で機能する。
論文 参考訳(メタデータ) (2021-06-15T20:55:55Z) - Topic Scaling: A Joint Document Scaling -- Topic Model Approach To Learn
Time-Specific Topics [0.0]
本稿では,文書位置の尺度から時間に基づくトピックを学習する2段階アルゴリズムを実装し,シーケンシャルコーパスを研究する新しい手法を提案する。
最初の段階はWordfishを使用してドキュメントをランク付けし、関連するトピックを学ぶために依存変数として機能する文書の位置を推定します。
第二段階は、コーパス内のそれらの発生と一致するように文書スケール上の推論されたトピックをランク付けし、それらの進化を追跡します。
論文 参考訳(メタデータ) (2021-03-31T12:35:36Z) - Dynamic Hybrid Relation Network for Cross-Domain Context-Dependent
Semantic Parsing [52.24507547010127]
ドメイン間コンテキスト依存のセマンティック解析は研究の新たな焦点である。
本稿では,コンテキストの発話,トークン,データベーススキーマ,会話の進行に伴う複雑なインタラクションを効果的にモデル化する動的グラフフレームワークを提案する。
提案したフレームワークは既存のモデルを大きなマージンで上回り、2つの大規模ベンチマークで新しい最先端性能を達成する。
論文 参考訳(メタデータ) (2021-01-05T18:11:29Z) - Reasoning with Latent Structure Refinement for Document-Level Relation
Extraction [20.308845516900426]
本稿では,潜在文書レベルグラフを自動的に誘導することにより,文間の関係推論を促進する新しいモデルを提案する。
具体的には、大規模文書レベルデータセット(DocRED)上でF1スコア59.05を達成する。
論文 参考訳(メタデータ) (2020-05-13T13:36:09Z) - Text Segmentation by Cross Segment Attention [2.525236250247906]
文書と談話のセグメンテーションは、テキストを構成要素に分割する2つの基本的なNLPタスクである。
我々は新しい最先端技術を確立し、特にすべてのケースにおいてエラー率を大きなマージンで削減する。
論文 参考訳(メタデータ) (2020-04-30T01:36:52Z) - A Hierarchical Network for Abstractive Meeting Summarization with
Cross-Domain Pretraining [52.11221075687124]
本稿では,会議シナリオに適応する抽象的要約ネットワークを提案する。
提案手法は,長時間の会議記録に対応する階層構造と,話者間の差異を表現する役割ベクトルを設計する。
我々のモデルは、自動測定と人的評価の両方において、過去のアプローチよりも優れています。
論文 参考訳(メタデータ) (2020-04-04T21:00:41Z) - Two-Level Transformer and Auxiliary Coherence Modeling for Improved Text
Segmentation [9.416757363901295]
単純だが明示的なコヒーレンスモデリングを用いたテキストセグメンテーションのための新しい教師付きモデルを提案する。
我々のモデルは、2つの階層的に連結されたトランスフォーマーネットワークからなるニューラルネットワークであり、文レベルのセグメンテーション目標と、正しい文列と腐敗した文列を区別するコヒーレンス目標を結合するマルチタスク学習モデルである。
論文 参考訳(メタデータ) (2020-01-03T17:06:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。