論文の概要: MLego: Interactive and Scalable Topic Exploration Through Model Reuse
- arxiv url: http://arxiv.org/abs/2508.07654v1
- Date: Mon, 11 Aug 2025 06:06:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.967586
- Title: MLego: Interactive and Scalable Topic Exploration Through Model Reuse
- Title(参考訳): MLego: モデル再利用によるインタラクティブでスケーラブルなトピック探索
- Authors: Fei Ye, Jiapan Liu, Yinan Jing, Zhenying He, Weirao Wang, X. Sean Wang,
- Abstract要約: 本稿では,リアルタイムトピックモデリング分析を支援する対話型クエリフレームワークであるMLegoを紹介する。
MLegoは、スクラッチからモデルを再訓練する代わりに、物質化されたトピックモデルを効率的にマージして、対話的な速度で近似結果を構築する。
我々はMLegoを視覚分析のプロトタイプシステムに統合し,対話型クエリによる大規模テキストデータセットの探索を可能にする。
- 参考スコア(独自算出の注目度): 12.133380833451573
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With massive texts on social media, users and analysts often rely on topic modeling techniques to quickly extract key themes and gain insights. Traditional topic modeling techniques, such as Latent Dirichlet Allocation (LDA), provide valuable insights but are computationally expensive, making them impractical for real-time data analysis. Although recent advances in distributed training and fast sampling methods have improved efficiency, real-time topic exploration remains a significant challenge. In this paper, we present MLego, an interactive query framework designed to support real-time topic modeling analysis by leveraging model materialization and reuse. Instead of retraining models from scratch, MLego efficiently merges materialized topic models to construct approximate results at interactive speeds. To further enhance efficiency, we introduce a hierarchical plan search strategy for single queries and an optimized query reordering technique for batch queries. We integrate MLego into a visual analytics prototype system, enabling users to explore large-scale textual datasets through interactive queries. Extensive experiments demonstrate that MLego significantly reduces computation costs while maintaining high-quality topic modeling results. MLego enhances existing visual analytics approaches, which primarily focus on user-driven topic modeling, by enabling real-time, query-driven exploration. This complements traditional methods and bridges the gap between scalable topic modeling and interactive data analysis.
- Abstract(参考訳): ソーシャルメディア上の大量のテキストによって、ユーザーやアナリストは、重要なテーマを素早く抽出し、洞察を得るためにトピックモデリング技術に頼っていることが多い。
Latent Dirichlet Allocation (LDA)のような伝統的なトピックモデリング技術は貴重な洞察を提供するが、計算コストが高く、リアルタイムデータ分析には実用的ではない。
近年,分散トレーニングや高速サンプリング手法の進歩により効率が向上しているが,リアルタイムトピック探索は依然として大きな課題である。
本稿では,モデル実体化と再利用を活用したリアルタイムトピックモデリング解析を支援する対話型クエリフレームワークであるMLegoについて述べる。
MLegoは、スクラッチからモデルを再訓練する代わりに、物質化されたトピックモデルを効率的にマージして、対話的な速度で近似結果を構築する。
効率をさらに高めるため,単一クエリに対する階層的な計画探索戦略とバッチクエリに対する最適化されたクエリ並べ替え手法を導入する。
我々はMLegoを視覚分析のプロトタイプシステムに統合し,対話型クエリによる大規模テキストデータセットの探索を可能にする。
大規模な実験により、MLegoは高品質なトピックモデリング結果を維持しながら計算コストを大幅に削減することを示した。
MLegoは、リアルタイムでクエリ駆動の探索を可能にすることで、ユーザ駆動のトピックモデリングを中心にした、既存のビジュアル分析アプローチを強化している。
これは従来の手法を補完し、スケーラブルなトピックモデリングとインタラクティブなデータ分析のギャップを埋める。
関連論文リスト
- Exploring Training and Inference Scaling Laws in Generative Retrieval [50.82554729023865]
生成検索は、検索を自己回帰生成タスクとして再構成し、大きな言語モデルがクエリから直接ターゲット文書を生成する。
生成的検索におけるトレーニングと推論のスケーリング法則を体系的に検討し,モデルのサイズ,トレーニングデータスケール,推論時間計算が協調的に性能に与える影響について検討した。
論文 参考訳(メタデータ) (2025-03-24T17:59:03Z) - LLM-based Bi-level Multi-interest Learning Framework for Sequential Recommendation [54.396000434574454]
本稿では,暗黙的行動と明示的意味論的視点を組み合わせた新しい多目的SRフレームワークを提案する。
Implicit Behavioral Interest ModuleとExplicit Semantic Interest Moduleの2つのモジュールが含まれている。
4つの実世界のデータセットの実験は、フレームワークの有効性と実用性を検証する。
論文 参考訳(メタデータ) (2024-11-14T13:00:23Z) - Enhancing Short-Text Topic Modeling with LLM-Driven Context Expansion and Prefix-Tuned VAEs [25.915607750636333]
本稿では,大規模言語モデル(LLM)を利用して,トピックモデリングを適用する前に,短いテキストをより詳細なシーケンスに拡張する手法を提案する。
提案手法は,データ空間が極端である実世界のデータセットに対する広範な実験により,短文のトピックモデリング性能を著しく向上させる。
論文 参考訳(メタデータ) (2024-10-04T01:28:56Z) - Interactive Topic Models with Optimal Transport [75.26555710661908]
ラベル名監視型トピックモデリングのためのアプローチとして,EdTMを提案する。
EdTMは、LM/LLMベースのドキュメントトピック親和性を活用しながら、代入問題としてのトピックモデリングをモデル化する。
論文 参考訳(メタデータ) (2024-06-28T13:57:27Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - Exploring the Power of Topic Modeling Techniques in Analyzing Customer
Reviews: A Comparative Analysis [0.0]
大量のテキストデータをオンラインで分析するために、機械学習と自然言語処理アルゴリズムがデプロイされている。
本研究では,顧客レビューに特化して用いられる5つのトピックモデリング手法について検討・比較する。
以上の結果から,BERTopicはより意味のあるトピックを抽出し,良好な結果を得ることができた。
論文 参考訳(メタデータ) (2023-08-19T08:18:04Z) - Temporal Relevance Analysis for Video Action Models [70.39411261685963]
まず,CNNに基づく行動モデルにより捉えたフレーム間の時間的関係を定量化する手法を提案する。
次に、時間的モデリングがどのように影響を受けるかをよりよく理解するために、包括的な実験と詳細な分析を行います。
論文 参考訳(メタデータ) (2022-04-25T19:06:48Z) - A Visual Analytics Approach to Building Logistic Regression Models and
its Application to Health Records [0.0]
本研究では,高次元データセットにおける回帰モデルの生成,評価,適用のためのオープンな統一手法を提案する。
このアプローチは、属性に対する広い相関パノラマを公開することに基づいており、ユーザーは関連する属性を選択して予測モデルを構築して評価することができる。
我々は、コビッド19やその他の人工的および実際の健康記録データの解析に、我々のフレームワークを応用して、UCRegの有効性と効率を実証する。
論文 参考訳(メタデータ) (2022-01-20T19:53:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。