論文の概要: Topic Segmentation of Semi-Structured and Unstructured Conversational
Datasets using Language Models
- arxiv url: http://arxiv.org/abs/2310.17120v1
- Date: Thu, 26 Oct 2023 03:37:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-27 22:35:19.929916
- Title: Topic Segmentation of Semi-Structured and Unstructured Conversational
Datasets using Language Models
- Title(参考訳): 言語モデルを用いた半構造化および非構造化会話データセットのトピックセグメンテーション
- Authors: Reshmi Ghosh, Harjeet Singh Kajal, Sharanya Kamath, Dhuri Shrivastava,
Samyadeep Basu, Hansi Zeng, Soundararajan Srinivasan
- Abstract要約: トピックセグメンテーションに関する現在の研究は、しばしば構造化されたテキストのセグメンテーションに焦点を当てている。
本研究では,非構造化チャットと半構造化チャットを分割する場合に,クロスエントロピーと再重み付きクロスエントロピー損失関数の頑健な代替としてFocal Loss関数を提案する。
- 参考スコア(独自算出の注目度): 3.7908886926768344
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Breaking down a document or a conversation into multiple contiguous segments
based on its semantic structure is an important and challenging problem in NLP,
which can assist many downstream tasks. However, current works on topic
segmentation often focus on segmentation of structured texts. In this paper, we
comprehensively analyze the generalization capabilities of state-of-the-art
topic segmentation models on unstructured texts. We find that: (a) Current
strategies of pre-training on a large corpus of structured text such as
Wiki-727K do not help in transferability to unstructured conversational data.
(b) Training from scratch with only a relatively small-sized dataset of the
target unstructured domain improves the segmentation results by a significant
margin. We stress-test our proposed Topic Segmentation approach by
experimenting with multiple loss functions, in order to mitigate effects of
imbalance in unstructured conversational datasets. Our empirical evaluation
indicates that Focal Loss function is a robust alternative to Cross-Entropy and
re-weighted Cross-Entropy loss function when segmenting unstructured and
semi-structured chats.
- Abstract(参考訳): 文書や会話をセマンティック構造に基づいて複数の連続セグメントに分割することは、NLPにおいて重要かつ困難な問題であり、多くの下流タスクを支援することができる。
しかし、現在のトピックセグメンテーションの研究は、しばしば構造化テキストのセグメンテーションに焦点を当てている。
本稿では,非構造化テキスト上での最先端トピックセグメンテーションモデルの一般化能力を包括的に分析する。
私たちはそれを見つけました
(a)wiki-727kのような構造化テキストの大きなコーパスで事前学習する現在の戦略は、非構造化会話データへの転送性に役立たない。
b) 対象非構造領域の比較的小さなデータセットのみをスクラッチからトレーニングすることで, セグメンテーションの結果を顕著なマージンで改善する。
我々は,非構造的会話データセットにおける不均衡の影響を軽減するために,複数の損失関数の実験によって提案したトピックセグメンテーション手法をストレステストする。
実験により,非構造化チャットと半構造化チャットのセグメンテーションにおいて,Focal Loss関数がクロスエントロピーと再重み付きクロスエントロピー損失関数の頑健な代替となることが示された。
関連論文リスト
- A Bottom-Up Approach to Class-Agnostic Image Segmentation [4.086366531569003]
本稿では,クラスに依存しないセグメンテーション問題に対処するためのボトムアップの新たな定式化を提案する。
我々は、その特徴空間の射影球に直接ネットワークを監督する。
ボトムアップの定式化は、クラスベースのセグメンテーション用に設計されたデータセットで訓練された場合でも、例外的な一般化能力を示す。
論文 参考訳(メタデータ) (2024-09-20T17:56:02Z) - Pointer-Guided Pre-Training: Infusing Large Language Models with Paragraph-Level Contextual Awareness [3.2925222641796554]
ポインター誘導セグメントオーダリング(SO)は,段落レベルのテキスト表現の文脈的理解を高めることを目的とした,新しい事前学習手法である。
実験の結果,ポインタ誘導型事前学習は複雑な文書構造を理解する能力を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-06-06T15:17:51Z) - From Text Segmentation to Smart Chaptering: A Novel Benchmark for
Structuring Video Transcriptions [63.11097464396147]
音声コンテンツに焦点をあてた新しいベンチマークYTSegを導入し、その内容は本質的に非構造的であり、トポロジと構造的にも多様である。
また,高効率な階層分割モデルMiniSegを導入する。
論文 参考訳(メタデータ) (2024-02-27T15:59:37Z) - Few-Shot Learning for Annotation-Efficient Nucleus Instance Segmentation [50.407071700154674]
少数ショット学習(FSL)の観点から、アノテーション効率の良い核インスタンスセグメンテーションを定式化することを提案する。
我々の研究は、計算病理学の隆盛とともに、多くの完全注釈付きデータセットが一般に公開されていることに動機づけられた。
いくつかの公開データセットに対する大規模な実験は、SGFSISが他のアノテーション効率のよい学習ベースラインより優れていることを示している。
論文 参考訳(メタデータ) (2024-02-26T03:49:18Z) - How Well Do Text Embedding Models Understand Syntax? [50.440590035493074]
テキスト埋め込みモデルが幅広い構文的文脈にまたがって一般化する能力は、まだ解明されていない。
その結果,既存のテキスト埋め込みモデルは,これらの構文的理解課題に十分対応していないことが明らかとなった。
多様な構文シナリオにおけるテキスト埋め込みモデルの一般化能力を高めるための戦略を提案する。
論文 参考訳(メタデータ) (2023-11-14T08:51:00Z) - Topic-driven Distant Supervision Framework for Macro-level Discourse
Parsing [72.14449502499535]
テキストの内部修辞構造を解析する作業は、自然言語処理において難しい問題である。
近年のニューラルモデルの発展にもかかわらず、トレーニングのための大規模で高品質なコーパスの欠如は大きな障害となっている。
近年の研究では、遠方の監督を用いてこの制限を克服しようと試みている。
論文 参考訳(メタデータ) (2023-05-23T07:13:51Z) - Boosting Event Extraction with Denoised Structure-to-Text Augmentation [52.21703002404442]
イベント抽出は、テキストから事前に定義されたイベントトリガと引数を認識することを目的としている。
最近のデータ拡張手法は文法的誤りの問題を無視することが多い。
本稿では,イベント抽出DAEEのための記述構造からテキストへの拡張フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-16T16:52:07Z) - Uncovering the Potential of ChatGPT for Discourse Analysis in Dialogue:
An Empirical Study [51.079100495163736]
本稿では、トピックセグメンテーションと談話解析という2つの談話分析タスクにおけるChatGPTの性能を体系的に検証する。
ChatGPTは、一般的なドメイン間会話においてトピック構造を特定する能力を示すが、特定のドメイン間会話ではかなり困難である。
我々のより深い調査は、ChatGPTは人間のアノテーションよりも合理的なトピック構造を提供するが、階層的なレトリック構造を線形に解析することしかできないことを示唆している。
論文 参考訳(メタデータ) (2023-05-15T07:14:41Z) - Topic Segmentation in the Wild: Towards Segmentation of Semi-structured
& Unstructured Chats [2.9360071145551068]
我々は、非構造化テキスト上での最先端トピックセグメンテーションモデルの能力を解析する。
構造化テキストの大きなコーパスでの事前学習は、構造化されていないテキストへの転送可能性に寄与しない。
ターゲット非構造領域の比較的小さなデータセットのみをスクラッチからトレーニングすることで、セグメンテーション結果が大幅に改善される。
論文 参考訳(メタデータ) (2022-11-27T22:17:16Z) - Toward Unifying Text Segmentation and Long Document Summarization [31.084738269628748]
文章・音声文書の抽出要約において,部分分割が果たす役割について検討する。
本手法は,要約とセグメンテーションを同時に行うことによって,頑健な文表現を学習する。
以上の結果から,本モデルは,公開ベンチマーク上での最先端性能を達成できるだけでなく,異種間転送性も向上できることが示唆された。
論文 参考訳(メタデータ) (2022-10-28T22:07:10Z) - Two-Level Transformer and Auxiliary Coherence Modeling for Improved Text
Segmentation [9.416757363901295]
単純だが明示的なコヒーレンスモデリングを用いたテキストセグメンテーションのための新しい教師付きモデルを提案する。
我々のモデルは、2つの階層的に連結されたトランスフォーマーネットワークからなるニューラルネットワークであり、文レベルのセグメンテーション目標と、正しい文列と腐敗した文列を区別するコヒーレンス目標を結合するマルチタスク学習モデルである。
論文 参考訳(メタデータ) (2020-01-03T17:06:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。