論文の概要: Topic Modeling as Long-Form Generation: Can Long-Context LLMs revolutionize NTM via Zero-Shot Prompting?
- arxiv url: http://arxiv.org/abs/2510.03174v1
- Date: Fri, 03 Oct 2025 16:48:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.496922
- Title: Topic Modeling as Long-Form Generation: Can Long-Context LLMs revolutionize NTM via Zero-Shot Prompting?
- Title(参考訳): 長文生成としてのトピックモデリング: 長文LLMはゼロショットプロンプトによってNTMに革命をもたらすか?
- Authors: Xuan Xu, Haolun Li, Zhongliang Yang, Beilin Chu, Jia Song, Moxuan Xu, Linna Zhou,
- Abstract要約: 伝統的なトピックモデルは、潜在トピックの分布を学ぶために推論と生成ネットワークに依存している。
本稿では,大規模言語モデルの時代におけるトピックモデリングの新しいパラダイムを探求し,長文生成タスクとしてTMをフレーミングする。
- 参考スコア(独自算出の注目度): 20.270416317541194
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional topic models such as neural topic models rely on inference and generation networks to learn latent topic distributions. This paper explores a new paradigm for topic modeling in the era of large language models, framing TM as a long-form generation task whose definition is updated in this paradigm. We propose a simple but practical approach to implement LLM-based topic model tasks out of the box (sample a data subset, generate topics and representative text with our prompt, text assignment with keyword match). We then investigate whether the long-form generation paradigm can beat NTMs via zero-shot prompting. We conduct a systematic comparison between NTMs and LLMs in terms of topic quality and empirically examine the claim that "a majority of NTMs are outdated."
- Abstract(参考訳): ニューラルトピックモデルのような伝統的なトピックモデルは、潜在トピック分布を学ぶために推論と生成ネットワークに依存している。
本稿では,このパラダイムで定義を更新した長文生成タスクとしてTMをフレーミングすることで,大規模言語モデルの時代におけるトピックモデリングの新しいパラダイムを探求する。
本稿では,LLMベースのトピックモデルタスクを最初から実装するための,シンプルだが実践的なアプローチを提案する(データサブセットをサンプリングし,トピックを生成し,提案するプロンプトとキーワードマッチングによるテキスト代入を生成する)。
次に,NTMをゼロショットプロンプトで打ち負かすことができるかを検討する。
トピックの品質の観点からNTMとLLMを体系的に比較し,NTMの大部分が時代遅れであるという主張を実証的に検証した。
関連論文リスト
- Model Directions, Not Words: Mechanistic Topic Models Using Sparse Autoencoders [21.650904669171524]
メカニスティックトピックモデル(MTM)はスパースオートエンコーダ(SAE)が学習した解釈可能な特徴で動作する
MTMはトピックベースのステアリングベクトルを用いて制御可能なテキスト生成を可能にする。
LLMに基づくペアワイズ比較評価フレームワークであるtextittopic judgeを提案する。
論文 参考訳(メタデータ) (2025-07-31T03:17:43Z) - Neural Topic Modeling with Large Language Models in the Loop [12.142323482188056]
大規模言語モデル(LLM)とニューラルトピックモデル(NTM)を統合する新しいフレームワークを提案する。
既存の多くのNTMに組み込む柔軟性により,学習トピックや文書表現におけるNTMの効率を保ちながら,トピックの解釈可能性を高めることができる。
論文 参考訳(メタデータ) (2024-11-13T11:31:02Z) - A Survey on Neural Topic Models: Methods, Applications, and Challenges [32.510888679613004]
トピックモデルは何十年にもわたって普及し、潜在トピックを発見し、教師なしの方法で文書のトピックの割合を推測している。
ニューラルネットワークの台頭は、新しい研究分野であるニューラルトピックモデル(NTM)の出現を促している。
本稿では,手法,応用,課題に関するニューラルトピックモデルに関する包括的調査を行う。
論文 参考訳(メタデータ) (2024-01-27T08:52:19Z) - TopicGPT: A Prompt-based Topic Modeling Framework [77.72072691307811]
TopicGPTは,大規模言語モデルを用いてテキストコレクション内の潜在トピックを明らかにするプロンプトベースのフレームワークである。
競合する手法と比較して、人間の分類とよく一致したトピックを生成する。
そのトピックもまた解釈可能であり、自然言語ラベルと関連する自由形式の記述を含むトピックを好んで、曖昧な言葉の袋を除いた。
論文 参考訳(メタデータ) (2023-11-02T17:57:10Z) - Large-scale Multi-Modal Pre-trained Models: A Comprehensive Survey [66.18478838828231]
マルチモーダルな事前訓練型大型モデルは近年ますます注目を集めている。
本稿では, 自然言語処理, コンピュータビジョン, 音声処理における従来の深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・
次に,マルチモーダル・プレトレーニング・モデル(MM-PTM)のタスク定義,課題,メリットを紹介し,データ,目的,ネットワーク,知識強化による事前トレーニングに着目して,MM-PTMについて議論する。
論文 参考訳(メタデータ) (2023-02-20T15:34:03Z) - An Exploration of Prompt Tuning on Generative Spoken Language Model for
Speech Processing Tasks [112.1942546460814]
生成音声言語モデル(GSLM)に基づく音声処理タスクの即時チューニングパラダイムの最初の検討について報告する。
実験結果から, 学習可能なパラメータが少ない音声分類タスクにおいて, 高精度なダウンストリームモデルよりも, 即時チューニング手法が競合性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-03-31T03:26:55Z) - Topic Adaptation and Prototype Encoding for Few-Shot Visual Storytelling [81.33107307509718]
トピック間一般化の能力をモデル化するためのトピック適応型ストーリーテラを提案する。
また,アトピー内導出能力のモデル化を目的とした符号化手法の試作も提案する。
実験結果から,トピック適応とプロトタイプ符号化構造が相互に利益をもたらすことが明らかとなった。
論文 参考訳(メタデータ) (2020-08-11T03:55:11Z) - Logical Natural Language Generation from Open-Domain Tables [107.04385677577862]
本稿では,その事実に関連付けられた自然言語文をモデルで生成するタスクを提案する。
提案した論理的 NLG 問題の研究を容易にするために,幅広い論理的・記号的推論を特徴とする既存の TabFact データセットcitechen 2019tabfact を用いる。
新しいタスクは、シーケンス順序と論理順序のミスマッチのため、既存のモノトニック生成フレームワークに課題をもたらす。
論文 参考訳(メタデータ) (2020-04-22T06:03:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。