Fugu-MT 論文翻訳(概要): Semantic Component Analysis: Discovering Patterns in Short Texts Beyond Topics

論文の概要: Semantic Component Analysis: Discovering Patterns in Short Texts Beyond Topics

arxiv url: http://arxiv.org/abs/2410.21054v2
Date: Mon, 16 Dec 2024 13:43:50 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-17 15:49:59.160995
Title: Semantic Component Analysis: Discovering Patterns in Short Texts Beyond Topics
Title（参考訳）: 意味的成分分析:トピックを超えて短いテキストのパターンを発見する
Authors: Florian Eichin, Carolin M. Schuster, Georg Groh, Michael A. Hedderich,
Abstract要約: 本稿では,新しいトピックモデリング手法であるセマンティックコンポーネント分析(SCA)を紹介する。 SCAは、短いテキストで単一のトピックを越えて、複数のニュアンス付きセマンティックコンポーネントを発見します。英語、ハウサ語、中国語のTwitterデータセット上でSCAを評価する。
参考スコア（独自算出の注目度）: 5.909543063650025
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Topic modeling is a key method in text analysis, but existing approaches are limited by assuming one topic per document or fail to scale efficiently for large, noisy datasets of short texts. We introduce Semantic Component Analysis (SCA), a novel topic modeling technique that overcomes these limitations by discovering multiple, nuanced semantic components beyond a single topic in short texts which we accomplish by introducing a decomposition step to the clustering-based topic modeling framework. We evaluate SCA on Twitter datasets in English, Hausa and Chinese. It achieves competetive coherence and diversity compared to BERTopic, while uncovering at least double the semantic components and maintaining a noise rate close to zero. Furthermore, SCA is scalable and effective across languages, including an underrepresented one.
Abstract（参考訳）: トピックモデリングはテキスト分析において重要な手法であるが、文書ごとのトピック1つを仮定するか、あるいは短いテキストの大規模でノイズの多いデータセットに対して効率的にスケールできないかによって、既存のアプローチは制限されている。これは、クラスタリングベースのトピックモデリングフレームワークに分解ステップを導入することで達成した、短いテキストで1つのトピック以上の複数のニュアンスを持つセマンティックなセマンティックなコンポーネントを発見することによって、これらの制限を克服する新しいトピックモデリング手法である。英語、ハウサ語、中国語のTwitterデータセット上でSCAを評価する。 BERTopicに比べて有能なコヒーレンスと多様性を実現し、セマンティックコンポーネントを少なくとも2倍にし、ノイズ率を0に近いものにしている。さらに、SCAは拡張性があり、表現不足の言語を含む言語で有効です。

関連論文リスト

LLM-Assisted Topic Reduction for BERTopic on Social Media Data [0.22940141855172028]
本稿では,話題生成のためのBERTopicと話題短縮のための大規模言語モデルを組み合わせたフレームワークを提案する。 3つのTwitter/Xデータセットと4つの異なる言語モデルにまたがるアプローチを評価した。
論文参考訳（メタデータ） (2025-09-18T20:59:11Z)
MLego: Interactive and Scalable Topic Exploration Through Model Reuse [12.133380833451573]
本稿では,リアルタイムトピックモデリング分析を支援する対話型クエリフレームワークであるMLegoを紹介する。 MLegoは、スクラッチからモデルを再訓練する代わりに、物質化されたトピックモデルを効率的にマージして、対話的な速度で近似結果を構築する。我々はMLegoを視覚分析のプロトタイプシステムに統合し,対話型クエリによる大規模テキストデータセットの探索を可能にする。
論文参考訳（メタデータ） (2025-08-11T06:06:26Z)
PromotionGo at SemEval-2025 Task 11: A Feature-Centric Framework for Cross-Lingual Multi-Emotion Detection in Short Texts [1.210852962855694]
本稿では,SemEval 2025 Task 11: Bridging the Gap in Text-based Emotion Detectionについて述べる。本稿では,文書表現と学習アルゴリズムを動的に適用し,言語固有の性能を最適化する機能中心フレームワークを提案する。
論文参考訳（メタデータ） (2025-07-11T11:21:18Z)
Conceptual Topic Aggregation [0.0]
本稿では,FAT-CATを提案する。FAT-CATは,意味のあるトピックアグリゲーションと可視化を強化するための形式概念分析(FCA)に基づくアプローチである。当社のアプローチでは,さまざまなトピックやファイルタイプ – ディレクトリによってグループ化された – を処理して,そのトピック分布の構造化された階層的な表現を提供する概念格子を構築することが可能です。
論文参考訳（メタデータ） (2025-06-27T15:19:38Z)
Multivariate Gaussian Topic Modelling: A novel approach to discover topics with greater semantic coherence [3.6381860041528085]
セマンティック・コヒーレントなトピックを識別する新しい多変量ガウス的トピックモデル(MGTM)を提案する。このアプローチは20のニュースグループデータセットに適用され、vis-a-vis 4の他のベンチマークモデルによる解釈可能性の利点を実証する。このモデルは、平均トピックコヒーレンス(0.7)と中央トピックコヒーレンス(0.76)をベンチマークモデルとして達成し、解釈可能で意味的にコヒーレントなトピックを特定する上で高い効果を示す。
論文参考訳（メタデータ） (2025-03-19T09:25:54Z)
A Statistical Framework for Ranking LLM-Based Chatbots [57.59268154690763]
本稿では、ペア比較分析における特定の課題に対処するために、重要な進歩を取り入れた統計フレームワークを提案する。まず,人力比較のグルーピング処理能力を高める要因付きタイモデルを提案する。第2に、フレームワークを拡張して、競合間の共分散層をモデル化することで、パフォーマンス関係に関するより深い洞察を可能にします。第三に、パラメータ非特異性に起因する最適化の課題を、新しい制約を導入することで解決する。
論文参考訳（メタデータ） (2024-12-24T12:54:19Z)
Enhancing Short-Text Topic Modeling with LLM-Driven Context Expansion and Prefix-Tuned VAEs [25.915607750636333]
本稿では,大規模言語モデル(LLM)を利用して,トピックモデリングを適用する前に,短いテキストをより詳細なシーケンスに拡張する手法を提案する。提案手法は,データ空間が極端である実世界のデータセットに対する広範な実験により,短文のトピックモデリング性能を著しく向上させる。
論文参考訳（メタデータ） (2024-10-04T01:28:56Z)
High-Performance Few-Shot Segmentation with Foundation Models: An Empirical Study [64.06777376676513]
基礎モデルに基づく数ショットセグメンテーション(FSS)フレームワークを開発した。具体的には、基礎モデルから暗黙的な知識を抽出し、粗い対応を構築するための簡単なアプローチを提案する。 2つの広く使われているデータセットの実験は、我々のアプローチの有効性を実証している。
論文参考訳（メタデータ） (2024-09-10T08:04:11Z)
Interactive Topic Models with Optimal Transport [75.26555710661908]
ラベル名監視型トピックモデリングのためのアプローチとして,EdTMを提案する。 EdTMは、LM/LLMベースのドキュメントトピック親和性を活用しながら、代入問題としてのトピックモデリングをモデル化する。
論文参考訳（メタデータ） (2024-06-28T13:57:27Z)
Latent Semantic Consensus For Deterministic Geometric Model Fitting [109.44565542031384]
我々はLSC(Latent Semantic Consensus)と呼ばれる効果的な方法を提案する。 LSCは、モデルフィッティング問題をデータポイントとモデル仮説に基づく2つの潜在意味空間に定式化する。 LSCは、一般的な多構造モデルフィッティングのために、数ミリ秒以内で一貫した、信頼性の高いソリューションを提供することができる。
論文参考訳（メタデータ） (2024-03-11T05:35:38Z)
From Text Segmentation to Smart Chaptering: A Novel Benchmark for Structuring Video Transcriptions [63.11097464396147]
音声コンテンツに焦点をあてた新しいベンチマークYTSegを導入し、その内容は本質的に非構造的であり、トポロジと構造的にも多様である。また,高効率な階層分割モデルMiniSegを導入する。
論文参考訳（メタデータ） (2024-02-27T15:59:37Z)
Prompting Large Language Models for Topic Modeling [10.31712610860913]
大規模言語モデル(LLM)の高度な言語理解を活用する新しいトピックモデリング手法であるPromptTopicを提案する。個々の文書から文章レベルでトピックを抽出し、これらのトピックを事前定義された量に集約して凝縮し、最終的に様々な長さのテキストに対して一貫性のあるトピックを提供する。 PromptTopicを3つの非常に多様なデータセットの最先端のベースラインに対してベンチマークし、意味のあるトピックを発見する能力を確立しました。
論文参考訳（メタデータ） (2023-12-15T11:15:05Z)
How Well Do Text Embedding Models Understand Syntax? [50.440590035493074]
テキスト埋め込みモデルが幅広い構文的文脈にまたがって一般化する能力は、まだ解明されていない。その結果,既存のテキスト埋め込みモデルは,これらの構文的理解課題に十分対応していないことが明らかとなった。多様な構文シナリオにおけるテキスト埋め込みモデルの一般化能力を高めるための戦略を提案する。
論文参考訳（メタデータ） (2023-11-14T08:51:00Z)
Let the Pretrained Language Models "Imagine" for Short Texts Topic Modeling [29.87929724277381]
短いテキストでは、共起情報は最小限であり、結果として文書表現の特徴が分散する。既存のトピックモデル(確率的あるいは神経的)は、ほとんどの場合、一貫性のあるトピックを生成するためにパターンのマイニングに失敗します。既存の事前学習言語モデル(PLM)を用いて、短いテキストを長いシーケンスに拡張する。
論文参考訳（メタデータ） (2023-10-24T00:23:30Z)
Topics in the Haystack: Extracting and Evaluating Topics beyond Coherence [0.0]
本稿では,文と文書のテーマを深く理解する手法を提案する。これにより、一般的な単語やネオロジズムを含む潜在トピックを検出することができる。本稿では, 侵入者の単語の人間識別と相関係数を示し, 単語侵入作業において, ほぼ人間レベルの結果を得る。
論文参考訳（メタデータ） (2023-03-30T12:24:25Z)
Unified Multi-View Orthonormal Non-Negative Graph Based Clustering Framework [74.25493157757943]
我々は,非負の特徴特性を活用し,多視点情報を統合された共同学習フレームワークに組み込む,新しいクラスタリングモデルを定式化する。また、深層機能に基づいたクラスタリングデータに対するマルチモデル非負グラフベースのアプローチを初めて検討する。
論文参考訳（メタデータ） (2022-11-03T08:18:27Z)
Topic Discovery via Latent Space Clustering of Pretrained Language Model Representations [35.74225306947918]
本研究では, PLM 埋め込みを基盤とした空間学習とクラスタリングの連携フレームワークを提案する。提案モデルでは,トピック発見のためにPLMがもたらす強力な表現力と言語的特徴を効果的に活用する。
論文参考訳（メタデータ） (2022-02-09T17:26:08Z)
Author Clustering and Topic Estimation for Short Texts [69.54017251622211]
同じ文書中の単語間の強い依存をモデル化することにより、遅延ディリクレ割当を拡張できる新しいモデルを提案する。同時にユーザをクラスタ化し、ホック後のクラスタ推定の必要性を排除しています。我々の手法は、短文で生じる問題に対する従来のアプローチよりも、-または----------- で機能する。
論文参考訳（メタデータ） (2021-06-15T20:55:55Z)
Improving Context Modeling in Neural Topic Segmentation [18.92944038749279]
階層型アテンションBiLSTMネットワークに基づくセグメンタを改良し、コンテキストをモデル化する。最適化されたセグメンタは、3つのデータセットでトレーニングとテストを行った場合、SOTAアプローチよりも優れています。
論文参考訳（メタデータ） (2020-10-07T03:40:49Z)
BATS: A Spectral Biclustering Approach to Single Document Topic Modeling and Segmentation [17.003488045214972]
既存のトピックモデリングとテキストセグメンテーションの方法論は一般的に、トレーニングのために大きなデータセットを必要とする。単一のドキュメントを扱う方法論を開発する際、我々は2つの大きな課題に直面します。 1つのドキュメントのみにアクセスすることで、従来のトピックモデルやディープラーニングアルゴリズムをトレーニングすることはできないのです。第二に大きなノイズ: 単一の文書にある単語のかなりの部分がノイズのみを生成し、トピックやセグメントの識別に役立ちません。
論文参考訳（メタデータ） (2020-08-05T16:34:33Z)
Part-aware Prototype Network for Few-shot Semantic Segmentation [50.581647306020095]
本稿では,プロトタイプ表現に基づく新規な数ショットセマンティックセマンティックセマンティクスフレームワークを提案する。私たちのキーとなるアイデアは、全体論的なクラス表現を、部分認識型プロトタイプのセットに分解することです。提案する部分認識型プロトタイプを生成・拡張する新しいグラフニューラルネットワークモデルを開発した。
論文参考訳（メタデータ） (2020-07-13T11:03:09Z)
How Far are We from Effective Context Modeling? An Exploratory Study on Semantic Parsing in Context [59.13515950353125]
文法に基づく意味解析を行い,その上に典型的な文脈モデリング手法を適用する。我々は,2つの大きなクロスドメインデータセットに対して,13のコンテキストモデリング手法を評価した。
論文参考訳（メタデータ） (2020-02-03T11:28:10Z)
Two-Level Transformer and Auxiliary Coherence Modeling for Improved Text Segmentation [9.416757363901295]
単純だが明示的なコヒーレンスモデリングを用いたテキストセグメンテーションのための新しい教師付きモデルを提案する。我々のモデルは、2つの階層的に連結されたトランスフォーマーネットワークからなるニューラルネットワークであり、文レベルのセグメンテーション目標と、正しい文列と腐敗した文列を区別するコヒーレンス目標を結合するマルチタスク学習モデルである。
論文参考訳（メタデータ） (2020-01-03T17:06:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。