論文の概要: Efficient Topic Extraction via Graph-Based Labeling: A Lightweight Alternative to Deep Models
- arxiv url: http://arxiv.org/abs/2511.04248v1
- Date: Thu, 06 Nov 2025 10:34:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-07 20:17:53.391454
- Title: Efficient Topic Extraction via Graph-Based Labeling: A Lightweight Alternative to Deep Models
- Title(参考訳): グラフベースラベリングによる効率的なトピック抽出:ディープモデルに対する軽量な代替手段
- Authors: Salma Mekaooui, Hiba Sofyan, Imane Amaaz, Imane Benchrif, Arsalane Zarghili, Ilham Chaker, Nikola S. Nikolov,
- Abstract要約: 我々は、トピックモデリング(TM)のような確率論的および統計的アプローチは、少ない計算資源を必要とする効果的な代替手段を提供することができると論じる。
TMは、ラベルなしテキストの大規模なコレクションでトピックを自動的に検出する統計手法である。
本稿では,話題語を意味論的に関連づけたグラフベースのアプローチを提案し,それらの関係について検討する。
- 参考スコア(独自算出の注目度): 0.8795040582681389
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Extracting topics from text has become an essential task, especially with the rapid growth of unstructured textual data. Most existing works rely on highly computational methods to address this challenge. In this paper, we argue that probabilistic and statistical approaches, such as topic modeling (TM), can offer effective alternatives that require fewer computational resources. TM is a statistical method that automatically discovers topics in large collections of unlabeled text; however, it produces topics as distributions of representative words, which often lack clear interpretability. Our objective is to perform topic labeling by assigning meaningful labels to these sets of words. To achieve this without relying on computationally expensive models, we propose a graph-based approach that not only enriches topic words with semantically related terms but also explores the relationships among them. By analyzing these connections within the graph, we derive suitable labels that accurately capture each topic's meaning. We present a comparative study between our proposed method and several benchmarks, including ChatGPT-3.5, across two different datasets. Our method achieved consistently better results than traditional benchmarks in terms of BERTScore and cosine similarity and produced results comparable to ChatGPT-3.5, while remaining computationally efficient. Finally, we discuss future directions for topic labeling and highlight potential research avenues for enhancing interpretability and automation.
- Abstract(参考訳): テキストからトピックを抽出することは、特に構造化されていないテキストデータの急速な成長において、重要な課題となっている。
既存の研究の多くは、この問題に対処するための高度な計算手法に依存している。
本稿では,トピックモデリング(TM)のような確率論的・統計的アプローチは,少ない計算資源を必要とする効果的な代替手段を提供することができると論じる。
TMは、ラベルなしテキストの大規模なコレクション内のトピックを自動的に発見する統計手法であるが、しばしば明確な解釈性に欠ける代表語の分布としてトピックを生成する。
本研究の目的は,これらの単語集合に意味のあるラベルを割り当てることで,トピックラベリングを行うことである。
計算コストのかかるモデルに頼らずにこれを実現するために,話題語を意味論的に関連づけるだけでなく,それらの関係を探求するグラフベースの手法を提案する。
グラフ内のこれらの接続を解析することにより、各トピックの意味を正確にキャプチャする適切なラベルを導出する。
提案手法とChatGPT-3.5を含むいくつかのベンチマークを2つの異なるデータセットで比較した。
提案手法は,BERTScoreとコサイン類似度の観点から従来のベンチマークよりも一貫した結果が得られ,ChatGPT-3.5に匹敵する結果が得られた。
最後に、トピックラベリングの今後の方向性について論じ、解釈可能性と自動化を高めるための潜在的研究方法を強調する。
関連論文リスト
- Boosting Short Text Classification with Multi-Source Information Exploration and Dual-Level Contrastive Learning [12.377363857246602]
短文分類のためのMI-DELIGHTという新しいモデルを提案する。
まず、スパーシリティの問題を軽減するために、マルチソース情報探索を行う。
次に,短いテキストの表現を学習するために,グラフ学習アプローチを採用する。
論文 参考訳(メタデータ) (2025-01-16T00:26:15Z) - CAST: Corpus-Aware Self-similarity Enhanced Topic modelling [16.562349140796115]
CAST: Corpus-Aware Self-similarity Enhanced Topic modelling, a novel topic modelling methodを紹介する。
機能的単語が候補話題語として振る舞うのを防ぐための効果的な指標として自己相似性を見出した。
提案手法は,生成したトピックの一貫性と多様性,およびノイズの多いデータを扱うトピックモデルの能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-19T15:27:11Z) - An Energy-based Model for Word-level AutoCompletion in Computer-aided Translation [97.3797716862478]
Word-level AutoCompletion (WLAC) は、コンピュータ支援翻訳における報奨だが挑戦的なタスクである。
既存の作業は、入力コンテキストの隠れベクターを対応するラベルにマッピングするニューラルネットワークに基づく分類モデルを通じて、このタスクに対処する。
そこで本研究では,WLACのエネルギーモデルを提案する。
論文 参考訳(メタデータ) (2024-07-29T15:07:19Z) - Conversational Semantic Parsing using Dynamic Context Graphs [68.72121830563906]
汎用知識グラフ(KG)を用いた会話意味解析の課題を,数百万のエンティティと数千のリレーショナルタイプで検討する。
ユーザ発話を実行可能な論理形式にインタラクティブにマッピングできるモデルに焦点を当てる。
論文 参考訳(メタデータ) (2023-05-04T16:04:41Z) - Topics in the Haystack: Extracting and Evaluating Topics beyond
Coherence [0.0]
本稿では,文と文書のテーマを深く理解する手法を提案する。
これにより、一般的な単語やネオロジズムを含む潜在トピックを検出することができる。
本稿では, 侵入者の単語の人間識別と相関係数を示し, 単語侵入作業において, ほぼ人間レベルの結果を得る。
論文 参考訳(メタデータ) (2023-03-30T12:24:25Z) - Fine-Grained Visual Entailment [51.66881737644983]
そこで本稿では,テキストから画像への微粒な知識要素の論理的関係を予測することを目的として,このタスクの拡張を提案する。
従来の研究とは異なり、本手法は本質的に説明可能であり、異なるレベルの粒度で論理的予測を行う。
本手法は,手動でアノテートした知識要素のデータセットを用いて評価し,この課題に対して68.18%の精度を達成できることを示す。
論文 参考訳(メタデータ) (2022-03-29T16:09:38Z) - Hierarchical Heterogeneous Graph Representation Learning for Short Text
Classification [60.233529926965836]
短文分類のためのグラフニューラルネットワーク(GNN)に基づく ShiNE と呼ばれる新しい手法を提案する。
まず,短文データセットを単語レベル成分グラフからなる階層的不均一グラフとしてモデル化する。
そして、類似した短いテキスト間の効果的なラベル伝搬を容易にするショート文書グラフを動的に学習する。
論文 参考訳(メタデータ) (2021-10-30T05:33:05Z) - Be More with Less: Hypergraph Attention Networks for Inductive Text
Classification [56.98218530073927]
グラフニューラルネットワーク(GNN)は、研究コミュニティで注目され、この標準タスクで有望な結果を実証している。
成功にもかかわらず、それらのパフォーマンスは、単語間の高次相互作用をキャプチャできないため、実際は大部分が危険に晒される可能性がある。
本稿では,テキスト表現学習において,少ない計算量でより表現力の高いハイパーグラフアテンションネットワーク(HyperGAT)を提案する。
論文 参考訳(メタデータ) (2020-11-01T00:21:59Z) - BATS: A Spectral Biclustering Approach to Single Document Topic Modeling
and Segmentation [17.003488045214972]
既存のトピックモデリングとテキストセグメンテーションの方法論は一般的に、トレーニングのために大きなデータセットを必要とする。
単一のドキュメントを扱う方法論を開発する際、我々は2つの大きな課題に直面します。
1つのドキュメントのみにアクセスすることで、従来のトピックモデルやディープラーニングアルゴリズムをトレーニングすることはできないのです。
第二に大きなノイズ: 単一の文書にある単語のかなりの部分がノイズのみを生成し、トピックやセグメントの識別に役立ちません。
論文 参考訳(メタデータ) (2020-08-05T16:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。