論文の概要: BATS: A Spectral Biclustering Approach to Single Document Topic Modeling
and Segmentation
- arxiv url: http://arxiv.org/abs/2008.02218v3
- Date: Tue, 25 May 2021 11:38:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 18:57:58.400259
- Title: BATS: A Spectral Biclustering Approach to Single Document Topic Modeling
and Segmentation
- Title(参考訳): bats: 単一文書トピックモデリングとセグメンテーションに対するスペクトルバイクラスタ化アプローチ
- Authors: Qiong Wu, Adam Hare, Sirui Wang, Yuwei Tu, Zhenming Liu, Christopher
G. Brinton, Yanhua Li
- Abstract要約: 既存のトピックモデリングとテキストセグメンテーションの方法論は一般的に、トレーニングのために大きなデータセットを必要とする。
単一のドキュメントを扱う方法論を開発する際、我々は2つの大きな課題に直面します。
1つのドキュメントのみにアクセスすることで、従来のトピックモデルやディープラーニングアルゴリズムをトレーニングすることはできないのです。
第二に大きなノイズ: 単一の文書にある単語のかなりの部分がノイズのみを生成し、トピックやセグメントの識別に役立ちません。
- 参考スコア(独自算出の注目度): 17.003488045214972
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing topic modeling and text segmentation methodologies generally require
large datasets for training, limiting their capabilities when only small
collections of text are available. In this work, we reexamine the inter-related
problems of "topic identification" and "text segmentation" for sparse document
learning, when there is a single new text of interest. In developing a
methodology to handle single documents, we face two major challenges. First is
sparse information: with access to only one document, we cannot train
traditional topic models or deep learning algorithms. Second is significant
noise: a considerable portion of words in any single document will produce only
noise and not help discern topics or segments. To tackle these issues, we
design an unsupervised, computationally efficient methodology called BATS:
Biclustering Approach to Topic modeling and Segmentation. BATS leverages three
key ideas to simultaneously identify topics and segment text: (i) a new
mechanism that uses word order information to reduce sample complexity, (ii) a
statistically sound graph-based biclustering technique that identifies latent
structures of words and sentences, and (iii) a collection of effective
heuristics that remove noise words and award important words to further improve
performance. Experiments on four datasets show that our approach outperforms
several state-of-the-art baselines when considering topic coherence, topic
diversity, segmentation, and runtime comparison metrics.
- Abstract(参考訳): 既存のトピックモデリングとテキストセグメンテーションの方法論は、トレーニングのために大きなデータセットを必要とすることが多い。
本研究では,1つの新たな関心テキストが存在する場合に,疎文書学習における「トピック識別」と「テキストセグメンテーション」の相互関連問題を再検討する。
単一のドキュメントを扱う方法論を開発する際、我々は2つの大きな課題に直面します。
1つのドキュメントのみにアクセスすることで、従来のトピックモデルやディープラーニングアルゴリズムをトレーニングすることはできないのです。
第二に大きなノイズ: 単一の文書にある単語のかなりの部分がノイズのみを生成し、トピックやセグメントの識別に役立ちません。
これらの課題に対処するために,BATS: Biclustering Approach to Topic Modeling and Segmentation という,教師なし,効率的な手法を設計する。
BATSは3つの重要なアイデアを活用し、トピックとセグメントテキストを同時に識別する。
(i)単語順序情報を用いてサンプルの複雑さを低減する新しいメカニズム。
(ii)単語・文の潜在構造を識別する統計的に健全なグラフに基づく二重クラスタリング手法
(iii)ノイズ語を除去し、重要な語を付与し、さらに性能を向上させる効果的なヒューリスティックのコレクション。
4つのデータセットの実験から,トピックコヒーレンス,トピックの多様性,セグメンテーション,実行時比較といった指標を考慮した場合,我々のアプローチは,最先端のベースラインよりも優れていることが示された。
関連論文リスト
- Semantic Component Analysis: Discovering Patterns in Short Texts Beyond Topics [7.784473631566062]
本稿では,新しいトピックモデリング手法であるセマンティックコンポーネント分析(SCA)を紹介する。
短いテキストで1つのトピックを超えて、複数のニュアンス付きセマンティックコンポーネントを見つけます。
複数のTwitterデータセットから評価すると、SCAはコヒーレンスと多様性において最先端のBERTopicと一致する。
論文 参考訳(メタデータ) (2024-10-28T14:09:52Z) - CAST: Corpus-Aware Self-similarity Enhanced Topic modelling [16.562349140796115]
CAST: Corpus-Aware Self-similarity Enhanced Topic modelling, a novel topic modelling methodを紹介する。
機能的単語が候補話題語として振る舞うのを防ぐための効果的な指標として自己相似性を見出した。
提案手法は,生成したトピックの一貫性と多様性,およびノイズの多いデータを扱うトピックモデルの能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-19T15:27:11Z) - From Text Segmentation to Smart Chaptering: A Novel Benchmark for
Structuring Video Transcriptions [63.11097464396147]
音声コンテンツに焦点をあてた新しいベンチマークYTSegを導入し、その内容は本質的に非構造的であり、トポロジと構造的にも多様である。
また,高効率な階層分割モデルMiniSegを導入する。
論文 参考訳(メタデータ) (2024-02-27T15:59:37Z) - Diffusion Models for Open-Vocabulary Segmentation [79.02153797465324]
OVDiffは、教師なしオープン語彙セグメンテーションに生成テキストから画像への拡散モデルを利用する新しい手法である。
トレーニング済みのコンポーネントのみに依存し、トレーニングなしで合成セグメンタを直接出力する。
論文 参考訳(メタデータ) (2023-06-15T17:51:28Z) - Topics in the Haystack: Extracting and Evaluating Topics beyond
Coherence [0.0]
本稿では,文と文書のテーマを深く理解する手法を提案する。
これにより、一般的な単語やネオロジズムを含む潜在トピックを検出することができる。
本稿では, 侵入者の単語の人間識別と相関係数を示し, 単語侵入作業において, ほぼ人間レベルの結果を得る。
論文 参考訳(メタデータ) (2023-03-30T12:24:25Z) - Topic Segmentation Model Focusing on Local Context [1.9871897882042773]
本稿では,2つの入力文を個別に処理し,適切な量の情報を得るためのシマセ文埋め込み層を提案する。
また、同じトピック予測(STP)、トピック分類(TC)、Next Sentence Prediction(NSP)といったマルチタスク学習手法も採用している。
論文 参考訳(メタデータ) (2023-01-05T06:57:42Z) - Toward Unifying Text Segmentation and Long Document Summarization [31.084738269628748]
文章・音声文書の抽出要約において,部分分割が果たす役割について検討する。
本手法は,要約とセグメンテーションを同時に行うことによって,頑健な文表現を学習する。
以上の結果から,本モデルは,公開ベンチマーク上での最先端性能を達成できるだけでなく,異種間転送性も向上できることが示唆された。
論文 参考訳(メタデータ) (2022-10-28T22:07:10Z) - Open-world Semantic Segmentation via Contrasting and Clustering
Vision-Language Embedding [95.78002228538841]
本研究では,様々なオープンワールドカテゴリのセマンティックオブジェクトを高密度アノテーションを使わずにセマンティックオブジェクトのセマンティックオブジェクトのセマンティック化を学習するための,新しいオープンワールドセマンティックセマンティックセマンティックセマンティクスパイプラインを提案する。
提案手法は任意のカテゴリのオブジェクトを直接分割し、3つのベンチマークデータセット上でデータラベリングを必要とするゼロショットセグメンテーション法より優れている。
論文 参考訳(メタデータ) (2022-07-18T09:20:04Z) - Distant finetuning with discourse relations for stance classification [55.131676584455306]
そこで本研究では,定位分類のモデルとして,原文から銀ラベルでデータを抽出し,微調整する手法を提案する。
また,様々な段階において微調整に用いるデータのノイズレベルが減少する3段階のトレーニングフレームワークを提案する。
NLPCC 2021共有タスクArgumentative Text Understanding for AI Debaterでは,26の競合チームの中で1位にランクインした。
論文 参考訳(メタデータ) (2022-04-27T04:24:35Z) - Multi-View Sequence-to-Sequence Models with Conversational Structure for
Abstractive Dialogue Summarization [72.54873655114844]
テキスト要約は、NLPにおいて最も困難で興味深い問題の1つである。
本研究では、まず、異なる視点から構造化されていない日々のチャットの会話構造を抽出し、会話を表現するマルチビューシーケンス・ツー・シーケンスモデルを提案する。
大規模対話要約コーパスの実験により,本手法は,自動評価と人的判断の両面から,従来の最先端モデルよりも有意に優れた性能を示した。
論文 参考訳(メタデータ) (2020-10-04T20:12:44Z) - Topic-Aware Multi-turn Dialogue Modeling [91.52820664879432]
本稿では,トピック認識発話を教師なしでセグメント化して抽出する,多元対話モデリングのための新しいソリューションを提案する。
トピック・アウェア・モデリングは、新たに提案されたトピック・アウェア・セグメンテーション・アルゴリズムとトピック・アウェア・デュアル・アテンション・マッチング(TADAM)ネットワークによって実現されている。
論文 参考訳(メタデータ) (2020-09-26T08:43:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。