論文の概要: From Documents to Segments: A Contextual Reformulation for Topic Assignment
- arxiv url: http://arxiv.org/abs/2605.17714v1
- Date: Mon, 18 May 2026 00:31:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:48.493179
- Title: From Documents to Segments: A Contextual Reformulation for Topic Assignment
- Title(参考訳): 文書からセグメントへ:トピック割り当ての文脈的改革
- Authors: Hoonsang Yoon, Takyoung Kim, Wonkee Lee, Ilmin Cho, Dilek Hakkani-Tür, Stanley Jungkyu Choi,
- Abstract要約: 製品レビューや公開調査の回答など、現実の文書の多くは、複数の異なるトピックを含んでいる。
このミスマッチはしばしばトピックの汚染を引き起こし、無関係なテーマは単一のトピックにマージされる。
セグメントベーストピックアロケーション(SBTA)は,文書全体ではなくセグメントにトピックを割り当てるトピックモデリングの改訂である。
- 参考スコア(独自算出の注目度): 12.968408805596264
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Traditional topic modeling assigns a single topic to each document. In practice, however, many real-world documents, such as product reviews or open-ended survey responses, contain multiple distinct topics. This mismatch often leads to topic contamination, where unrelated themes are merged into a single topic, making it difficult to identify documents that truly focus on a specific subject. We address this issue by introducing segment-based topic allocation (SBTA), a reformulation of topic modeling that assigns topics not to entire documents, but to segments: short, coherent spans of text that each express a single theme. By modeling topical structure at the segment level, our approach yields cleaner and more interpretable topics and better supports analysis of multi-theme documents. To support systematic evaluation, we construct a SemEval-STM, a new dataset inspired by aspect-based sentiment analysis. Documents are first decomposed into topical segments using large language models (LLMs), followed by human refinement to ensure segment quality. We also propose a segment-level extension of the word intrusion task, enabling human evaluation of topical coherence at the granularity where topics are actually assigned. Across multiple models and evaluation metrics, we show that SBTA improves clustering quality and interpretability. Overall, this work provides a practical, scalable framework for fine-grained topic analysis in heterogeneous text corpora where documents naturally span multiple topics. URL: https://huggingface.co/datasets/LG-AI-Research/SemEval-STM
- Abstract(参考訳): 従来のトピックモデリングでは、各ドキュメントにひとつのトピックを割り当てる。
しかし実際には、製品レビューや公開調査の回答など、現実の文書の多くは、複数の異なるトピックを含んでいる。
このミスマッチは、無関係なテーマを単一のトピックにマージし、特定の主題に真に焦点を絞った文書を特定するのが難しくなる、トピック汚染につながることが多い。
この問題に対処するために、セグメントベースのトピックアロケーション(SBTA)を導入し、文書全体ではなく、各テーマを表現した短いコヒーレントなテキストのセグメントにトピックを割り当てるトピックモデリングの改革を行った。
セグメントレベルでのトピック構造をモデル化することにより、よりクリーンで解釈可能なトピックが得られ、マルチテーマ文書の分析がより支援される。
システム評価を支援するために,アスペクトベースの感情分析にインスパイアされた新しいデータセットであるSemEval-STMを構築した。
文書は、まず、大きな言語モデル(LLM)を使用してトピックのセグメントに分解され、続いてセグメントの品質を保証するために人間の洗練が行われる。
また、単語侵入タスクのセグメントレベル拡張を提案し、実際にトピックが割り当てられた粒度におけるトピックコヒーレンスを人為的に評価できるようにする。
複数のモデルと評価指標を通して、SBTAはクラスタリングの品質と解釈可能性を改善していることを示す。
この研究は、文書が自然に複数のトピックにまたがるヘテロジニアステキストコーパスにおいて、詳細なトピック分析のための実用的でスケーラブルなフレームワークを提供する。
URL: https://huggingface.co/datasets/LG-AI-Research/SemEval-STM
関連論文リスト
- AgriLens: Semantic Retrieval in Agricultural Texts Using Topic Modeling and Language Models [1.0345929832241805]
本研究は,大規模農業用テキストコーパス上での,解釈可能なトピックモデリング,ゼロショットトピックラベリング,トピック誘導セマンティック検索のための統一的なフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-13T07:18:59Z) - Interactive Topic Models with Optimal Transport [75.26555710661908]
ラベル名監視型トピックモデリングのためのアプローチとして,EdTMを提案する。
EdTMは、LM/LLMベースのドキュメントトピック親和性を活用しながら、代入問題としてのトピックモデリングをモデル化する。
論文 参考訳(メタデータ) (2024-06-28T13:57:27Z) - From Text Segmentation to Smart Chaptering: A Novel Benchmark for
Structuring Video Transcriptions [63.11097464396147]
音声コンテンツに焦点をあてた新しいベンチマークYTSegを導入し、その内容は本質的に非構造的であり、トポロジと構造的にも多様である。
また,高効率な階層分割モデルMiniSegを導入する。
論文 参考訳(メタデータ) (2024-02-27T15:59:37Z) - Leveraging Collection-Wide Similarities for Unsupervised Document Structure Extraction [61.998789448260005]
本稿では,コレクション内の文書の典型的構造を特定することを提案する。
任意のヘッダのパラフレーズを抽象化し、各トピックを各ドキュメントのロケーションにグルーピングします。
文書間の類似性を利用した教師なしグラフベース手法を開発した。
論文 参考訳(メタデータ) (2024-02-21T16:22:21Z) - Effective Neural Topic Modeling with Embedding Clustering Regularization [21.692088899479934]
新しいニューラルトピックモデルであるクラスタリング規則化トピックモデル(ECRTM)を提案する。
ECRTMは各トピックの埋め込みを、セマンティック空間内の個別に集約されたワード埋め込みクラスタの中心に強制する。
我々のECRTMは文書の質の高いトピック分布とともに多様で一貫性のあるトピックを生成する。
論文 参考訳(メタデータ) (2023-06-07T07:45:38Z) - Advancing Topic Segmentation and Outline Generation in Chinese Texts: The Paragraph-level Topic Representation, Corpus, and Benchmark [44.06803331843307]
段落レベルのトピック構造は、ドキュメント全体のコンテキストをより高いレベルから把握し、理解することができる。
大規模で高品質な中国語段落レベルの話題構造コーパスの欠如は研究や応用を妨げた。
コーパス構築を導くために,3層からなる階層的な段落レベルのトピック構造表現を提案する。
2段階のマンマシン・コラボレーティブ・アノテーションを用いて,中国最大規模のトピック構造コーパスを構築する。
論文 参考訳(メタデータ) (2023-05-24T06:43:23Z) - Moving beyond word lists: towards abstractive topic labels for
human-like topics of scientific documents [0.0]
抽象的多文書要約(MDS)を用いたヒューマンライクなトピックラベル生成手法を提案する。
我々は、トピックラベリングのためのMDSを完全に運用するために、どのような研究が必要なのかを理解するために、引用文でトピックをモデル化する。
論文 参考訳(メタデータ) (2022-10-28T17:47:12Z) - Author Clustering and Topic Estimation for Short Texts [69.54017251622211]
同じ文書中の単語間の強い依存をモデル化することにより、遅延ディリクレ割当を拡張できる新しいモデルを提案する。
同時にユーザをクラスタ化し、ホック後のクラスタ推定の必要性を排除しています。
我々の手法は、短文で生じる問題に対する従来のアプローチよりも、-または----------- で機能する。
論文 参考訳(メタデータ) (2021-06-15T20:55:55Z) - BATS: A Spectral Biclustering Approach to Single Document Topic Modeling
and Segmentation [17.003488045214972]
既存のトピックモデリングとテキストセグメンテーションの方法論は一般的に、トレーニングのために大きなデータセットを必要とする。
単一のドキュメントを扱う方法論を開発する際、我々は2つの大きな課題に直面します。
1つのドキュメントのみにアクセスすることで、従来のトピックモデルやディープラーニングアルゴリズムをトレーニングすることはできないのです。
第二に大きなノイズ: 単一の文書にある単語のかなりの部分がノイズのみを生成し、トピックやセグメントの識別に役立ちません。
論文 参考訳(メタデータ) (2020-08-05T16:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。