論文の概要: Topic Segmentation Model Focusing on Local Context
- arxiv url: http://arxiv.org/abs/2301.01935v1
- Date: Thu, 5 Jan 2023 06:57:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-06 13:25:44.085045
- Title: Topic Segmentation Model Focusing on Local Context
- Title(参考訳): 局所文脈に着目したトピックセグメンテーションモデル
- Authors: Jeonghwan Lee, Jiyeong Han, Sunghoon Baek and Min Song
- Abstract要約: 本稿では,2つの入力文を個別に処理し,適切な量の情報を得るためのシマセ文埋め込み層を提案する。
また、同じトピック予測(STP)、トピック分類(TC)、Next Sentence Prediction(NSP)といったマルチタスク学習手法も採用している。
- 参考スコア(独自算出の注目度): 1.9871897882042773
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Topic segmentation is important in understanding scientific documents since
it can not only provide better readability but also facilitate downstream tasks
such as information retrieval and question answering by creating appropriate
sections or paragraphs. In the topic segmentation task, topic coherence is
critical in predicting segmentation boundaries. Most of the existing models
have tried to exploit as many contexts as possible to extract useful
topic-related information. However, additional context does not always bring
promising results, because the local context between sentences becomes
incoherent despite more sentences being supplemented. To alleviate this issue,
we propose siamese sentence embedding layers which process two input sentences
independently to get appropriate amount of information without being hampered
by excessive information. Also, we adopt multi-task learning techniques
including Same Topic Prediction (STP), Topic Classification (TC) and Next
Sentence Prediction (NSP). When these three classification layers are combined
in a multi-task manner, they can make up for each other's limitations,
improving performance in all three tasks. We experiment different combinations
of the three layers and report how each layer affects other layers in the same
combination as well as the overall segmentation performance. The model we
proposed achieves the state-of-the-art result in the WikiSection dataset.
- Abstract(参考訳): トピックセグメンテーションは, 可読性の向上だけでなく, 適切なセクションや段落を作成することで, 情報検索や質問応答などの下流作業を容易にするため, 科学的資料を理解する上で重要である。
トピックセグメンテーションタスクでは、トピックコヒーレンスがセグメンテーション境界の予測に重要である。
既存のモデルのほとんどは、有用なトピック関連情報を抽出するために可能な限り多くのコンテキストを活用しようと試みている。
しかし、文間の局所的な文脈が補足されているにもかかわらず一貫性がないため、追加の文脈は必ずしも有望な結果をもたらすとは限らない。
この問題を軽減するために,2つの入力文を個別に処理し,過剰な情報に邪魔されることなく適切な量の情報を得るシマセ文埋め込み層を提案する。
また、同じトピック予測(STP)、トピック分類(TC)、Next Sentence Prediction(NSP)などのマルチタスク学習手法を採用した。
これら3つの分類層がマルチタスクの方法で結合されると、お互いの制限を補うことができ、3つのタスク全体のパフォーマンスが向上する。
3つのレイヤの異なる組み合わせを実験し、各レイヤが同じ組み合わせで他のレイヤにどう影響するか、また全体的なセグメンテーション性能を報告します。
提案したモデルはWikiSectionデータセットの最先端結果を達成する。
関連論文リスト
- Putting Context in Context: the Impact of Discussion Structure on Text
Classification [13.15873889847739]
本稿では,英語における姿勢検出のための大規模データセットに関する一連の実験を提案する。
異なる種類の文脈情報の寄与を評価する。
構造情報はテキスト分類には非常に有用であるが,特定の状況下でのみ有用であることを示す。
論文 参考訳(メタデータ) (2024-02-05T12:56:22Z) - Improving Long Context Document-Level Machine Translation [51.359400776242786]
翻訳の一貫性と凝集性を改善するために、ニューラルネットワーク翻訳(NMT)のための文書レベルのコンテキストが不可欠である。
文書レベルのNMTに関する多くの著作が出版されているが、ほとんどの作品では局所的な文脈に制限されている。
本稿では、メモリ消費を同時に低減しつつ、シーケンスの最も関連性の高い部分に注意を集中させる制約付注意変種を提案する。
論文 参考訳(メタデータ) (2023-06-08T13:28:48Z) - AIMS: All-Inclusive Multi-Level Segmentation [93.5041381700744]
視覚領域を3つのレベル(パート、エンティティ、リレーション)に分割するタスクであるAll-Inclusive Multi-Level(AIMS)を提案する。
また、アノテーションの不整合とタスク相関の2つの大きな課題に対処するために、マルチデータセットのマルチタスクトレーニングを通じて統合されたAIMSモデルを構築します。
論文 参考訳(メタデータ) (2023-05-28T16:28:49Z) - Topics in the Haystack: Extracting and Evaluating Topics beyond
Coherence [0.0]
本稿では,文と文書のテーマを深く理解する手法を提案する。
これにより、一般的な単語やネオロジズムを含む潜在トピックを検出することができる。
本稿では, 侵入者の単語の人間識別と相関係数を示し, 単語侵入作業において, ほぼ人間レベルの結果を得る。
論文 参考訳(メタデータ) (2023-03-30T12:24:25Z) - PropSegmEnt: A Large-Scale Corpus for Proposition-Level Segmentation and
Entailment Recognition [63.51569687229681]
文中の各命題の文的含意関係を個別に認識する必要性について論じる。
提案するPropSegmEntは45K以上の提案のコーパスであり, 専門家によるアノテートを行う。
我々のデータセット構造は、(1)文書内の文章を命題の集合に分割し、(2)異なるが、トポジカルに整合した文書に対して、各命題の含意関係を分類するタスクに類似している。
論文 参考訳(メタデータ) (2022-12-21T04:03:33Z) - Distant finetuning with discourse relations for stance classification [55.131676584455306]
そこで本研究では,定位分類のモデルとして,原文から銀ラベルでデータを抽出し,微調整する手法を提案する。
また,様々な段階において微調整に用いるデータのノイズレベルが減少する3段階のトレーニングフレームワークを提案する。
NLPCC 2021共有タスクArgumentative Text Understanding for AI Debaterでは,26の競合チームの中で1位にランクインした。
論文 参考訳(メタデータ) (2022-04-27T04:24:35Z) - A Survey of Implicit Discourse Relation Recognition [9.57170901247685]
暗黙的談話関係認識(IDRR)は、暗黙的関係を検出し、接続性のない2つのテキストセグメント間でその感覚を分類することである。
この記事では、IDRRタスクに関する包括的で最新の調査を提供する。
論文 参考訳(メタデータ) (2022-03-06T15:12:53Z) - Consistency and Coherence from Points of Contextual Similarity [0.0]
近年,事実整合性に特化して提案されているESTIME測度は,人間の専門家のスコアと高い相関性が得られる。
これは現在の要約方式には問題はないが、将来の要約システムには障害となる可能性がある。
論文 参考訳(メタデータ) (2021-12-22T03:04:20Z) - Weakly-Supervised Aspect-Based Sentiment Analysis via Joint
Aspect-Sentiment Topic Embedding [71.2260967797055]
アスペクトベース感情分析のための弱教師付きアプローチを提案する。
We learn sentiment, aspects> joint topic embeddeds in the word embedding space。
次に、ニューラルネットワークを用いて単語レベルの識別情報を一般化する。
論文 参考訳(メタデータ) (2020-10-13T21:33:24Z) - Topic-Aware Multi-turn Dialogue Modeling [91.52820664879432]
本稿では,トピック認識発話を教師なしでセグメント化して抽出する,多元対話モデリングのための新しいソリューションを提案する。
トピック・アウェア・モデリングは、新たに提案されたトピック・アウェア・セグメンテーション・アルゴリズムとトピック・アウェア・デュアル・アテンション・マッチング(TADAM)ネットワークによって実現されている。
論文 参考訳(メタデータ) (2020-09-26T08:43:06Z) - BATS: A Spectral Biclustering Approach to Single Document Topic Modeling
and Segmentation [17.003488045214972]
既存のトピックモデリングとテキストセグメンテーションの方法論は一般的に、トレーニングのために大きなデータセットを必要とする。
単一のドキュメントを扱う方法論を開発する際、我々は2つの大きな課題に直面します。
1つのドキュメントのみにアクセスすることで、従来のトピックモデルやディープラーニングアルゴリズムをトレーニングすることはできないのです。
第二に大きなノイズ: 単一の文書にある単語のかなりの部分がノイズのみを生成し、トピックやセグメントの識別に役立ちません。
論文 参考訳(メタデータ) (2020-08-05T16:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。