論文の概要: Topic Segmentation in the Wild: Towards Segmentation of Semi-structured
& Unstructured Chats
- arxiv url: http://arxiv.org/abs/2211.14954v1
- Date: Sun, 27 Nov 2022 22:17:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 15:12:34.393265
- Title: Topic Segmentation in the Wild: Towards Segmentation of Semi-structured
& Unstructured Chats
- Title(参考訳): 野生におけるトピックセグメンテーション:半構造化・非構造化チャットのセグメンテーションに向けて
- Authors: Reshmi Ghosh, Harjeet Singh Kajal, Sharanya Kamath, Dhuri Shrivastava,
Samyadeep Basu, Soundararajan Srinivasan
- Abstract要約: 我々は、非構造化テキスト上での最先端トピックセグメンテーションモデルの能力を解析する。
構造化テキストの大きなコーパスでの事前学習は、構造化されていないテキストへの転送可能性に寄与しない。
ターゲット非構造領域の比較的小さなデータセットのみをスクラッチからトレーニングすることで、セグメンテーション結果が大幅に改善される。
- 参考スコア(独自算出の注目度): 2.9360071145551068
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Breaking down a document or a conversation into multiple contiguous segments
based on its semantic structure is an important and challenging problem in NLP,
which can assist many downstream tasks. However, current works on topic
segmentation often focus on segmentation of structured texts. In this paper, we
comprehensively analyze the generalization capabilities of state-of-the-art
topic segmentation models on unstructured texts. We find that: (a) Current
strategies of pre-training on a large corpus of structured text such as
Wiki-727K do not help in transferability to unstructured texts. (b) Training
from scratch with only a relatively small-sized dataset of the target
unstructured domain improves the segmentation results by a significant margin.
- Abstract(参考訳): 文書や会話をセマンティック構造に基づいて複数の連続セグメントに分割することは、NLPにおいて重要かつ困難な問題であり、多くの下流タスクを支援することができる。
しかし、現在のトピックセグメンテーションの研究は、しばしば構造化テキストのセグメンテーションに焦点を当てている。
本稿では,非構造化テキスト上での最先端トピックセグメンテーションモデルの一般化能力を包括的に分析する。
私たちはそれを見つけました
(a)wiki-727kのような構造化テキストの大きなコーパスで事前学習する現在の戦略は、非構造化テキストへの転送性に役立たない。
b) 対象非構造領域の比較的小さなデータセットのみをスクラッチからトレーニングすることで, セグメンテーションの結果を顕著なマージンで改善する。
関連論文リスト
- WAS: Dataset and Methods for Artistic Text Segmentation [57.61335995536524]
本稿では,芸術的テキストセグメンテーションの課題に焦点を当て,実際の芸術的テキストセグメンテーションデータセットを構築する。
本稿では,モデルが特別な形状のストローク領域を無視するのを防ぐために,レイヤワイド・モーメント・クエリを用いたデコーダを提案する。
また,大域構造に焦点を合わせるために,骨格支援ヘッドを提案する。
論文 参考訳(メタデータ) (2024-07-31T18:29:36Z) - Visual Prompt Selection for In-Context Learning Segmentation [77.15684360470152]
本稿では,サンプル選択戦略の再考と改善に焦点をあてる。
まず、ICLに基づくセグメンテーションモデルが異なる文脈に敏感であることを示す。
さらに、経験的証拠は、文脈的プロンプトの多様性がセグメンテーションを導く上で重要な役割を担っていることを示している。
論文 参考訳(メタデータ) (2024-07-14T15:02:54Z) - From Text Segmentation to Smart Chaptering: A Novel Benchmark for
Structuring Video Transcriptions [63.11097464396147]
音声コンテンツに焦点をあてた新しいベンチマークYTSegを導入し、その内容は本質的に非構造的であり、トポロジと構造的にも多様である。
また,高効率な階層分割モデルMiniSegを導入する。
論文 参考訳(メタデータ) (2024-02-27T15:59:37Z) - Topic Segmentation of Semi-Structured and Unstructured Conversational
Datasets using Language Models [3.7908886926768344]
トピックセグメンテーションに関する現在の研究は、しばしば構造化されたテキストのセグメンテーションに焦点を当てている。
本研究では,非構造化チャットと半構造化チャットを分割する場合に,クロスエントロピーと再重み付きクロスエントロピー損失関数の頑健な代替としてFocal Loss関数を提案する。
論文 参考訳(メタデータ) (2023-10-26T03:37:51Z) - Topic-driven Distant Supervision Framework for Macro-level Discourse
Parsing [72.14449502499535]
テキストの内部修辞構造を解析する作業は、自然言語処理において難しい問題である。
近年のニューラルモデルの発展にもかかわらず、トレーニングのための大規模で高品質なコーパスの欠如は大きな障害となっている。
近年の研究では、遠方の監督を用いてこの制限を克服しようと試みている。
論文 参考訳(メタデータ) (2023-05-23T07:13:51Z) - Uncovering the Potential of ChatGPT for Discourse Analysis in Dialogue:
An Empirical Study [51.079100495163736]
本稿では、トピックセグメンテーションと談話解析という2つの談話分析タスクにおけるChatGPTの性能を体系的に検証する。
ChatGPTは、一般的なドメイン間会話においてトピック構造を特定する能力を示すが、特定のドメイン間会話ではかなり困難である。
我々のより深い調査は、ChatGPTは人間のアノテーションよりも合理的なトピック構造を提供するが、階層的なレトリック構造を線形に解析することしかできないことを示唆している。
論文 参考訳(メタデータ) (2023-05-15T07:14:41Z) - Betrayed by Captions: Joint Caption Grounding and Generation for Open
Vocabulary Instance Segmentation [80.48979302400868]
オープンな語彙のインスタンスセグメンテーションに注目し、セグメンテーションモデルを拡張して、インスタンスレベルの新しいカテゴリを分類し、セグメンテーションする。
これまでは、画像領域と名詞の字幕間の1対1のマッピングを確立するために、大量の字幕データセットと複雑なパイプラインに頼っていた。
我々は,一致したオブジェクトのみに着目して学習効率を向上させる新しいグラウンドニング損失を取り入れた,共同の textbf Caption Grounding and Generation (CGG) フレームワークを考案した。
論文 参考訳(メタデータ) (2023-01-02T18:52:12Z) - Toward Unifying Text Segmentation and Long Document Summarization [31.084738269628748]
文章・音声文書の抽出要約において,部分分割が果たす役割について検討する。
本手法は,要約とセグメンテーションを同時に行うことによって,頑健な文表現を学習する。
以上の結果から,本モデルは,公開ベンチマーク上での最先端性能を達成できるだけでなく,異種間転送性も向上できることが示唆された。
論文 参考訳(メタデータ) (2022-10-28T22:07:10Z) - Topical Change Detection in Documents via Embeddings of Long Sequences [4.13878392637062]
テキストセグメンテーションのタスクを独立した教師付き予測タスクとして定式化する。
類似セクションの段落を微調整することで、学習した特徴がトピック情報をエンコードすることを示すことができます。
文レベルで操作する従来のアプローチとは異なり、我々は常により広いコンテキストを使用します。
論文 参考訳(メタデータ) (2020-12-07T12:09:37Z) - Two-Level Transformer and Auxiliary Coherence Modeling for Improved Text
Segmentation [9.416757363901295]
単純だが明示的なコヒーレンスモデリングを用いたテキストセグメンテーションのための新しい教師付きモデルを提案する。
我々のモデルは、2つの階層的に連結されたトランスフォーマーネットワークからなるニューラルネットワークであり、文レベルのセグメンテーション目標と、正しい文列と腐敗した文列を区別するコヒーレンス目標を結合するマルチタスク学習モデルである。
論文 参考訳(メタデータ) (2020-01-03T17:06:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。