論文の概要: $S^3$ -- Semantic Signal Separation
- arxiv url: http://arxiv.org/abs/2406.09556v1
- Date: Thu, 13 Jun 2024 19:43:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-17 17:24:36.164014
- Title: $S^3$ -- Semantic Signal Separation
- Title(参考訳): $S^3$ -- 意味的信号分離
- Authors: Márton Kardos, Jan Kostkan, Arnault-Quentin Vermillet, Kristoffer Nielbo, Roberta Rocca,
- Abstract要約: ニューラル埋め込み空間における理論駆動型トピックモデリング手法を提案する。
S3$は、トピックを意味空間の独立した軸として概念化し、これらをブラインドソース分離で明らかにする。
我々のアプローチは、最も多種多様な、高度に一貫性のあるトピックを提供し、事前処理を必要とせず、これまでで最速の文脈に敏感なトピックモデルであることが示されている。
- 参考スコア(独自算出の注目度): 0.1747623282473278
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Topic models are useful tools for discovering latent semantic structures in large textual corpora. Topic modeling historically relied on bag-of-words representations of language. This approach makes models sensitive to the presence of stop words and noise, and does not utilize potentially useful contextual information. Recent efforts have been oriented at incorporating contextual neural representations in topic modeling and have been shown to outperform classical topic models. These approaches are, however, typically slow, volatile and still require preprocessing for optimal results. We present Semantic Signal Separation ($S^3$), a theory-driven topic modeling approach in neural embedding spaces. $S^3$ conceptualizes topics as independent axes of semantic space, and uncovers these with blind-source separation. Our approach provides the most diverse, highly coherent topics, requires no preprocessing, and is demonstrated to be the fastest contextually sensitive topic model to date. We offer an implementation of $S^3$, among other approaches, in the Turftopic Python package.
- Abstract(参考訳): トピックモデルは、大きなテキストコーパスの潜在意味構造を発見するのに有用なツールである。
歴史的には、トピックモデリングは言葉のバッグ・オブ・ワードの表現に依存していた。
このアプローチにより、モデルが停止語や雑音の存在に敏感になり、潜在的に有用な文脈情報を利用できない。
最近の研究は、トピックモデリングに文脈神経表現を取り入れることを目的としており、古典的なトピックモデルよりも優れていることが示されている。
しかしながら、これらのアプローチは一般的には遅く、揮発性であり、最適な結果を得るためには前処理が必要である。
本稿では,セマンティック信号分離法(S^3$)を提案する。
S^3$は、トピックを意味空間の独立した軸として概念化し、これらをブラインドソース分離で明らかにする。
我々のアプローチは、最も多種多様な、高度に一貫性のあるトピックを提供し、事前処理を必要とせず、これまでで最速の文脈に敏感なトピックモデルであることが示されている。
私たちはTurftopic Pythonパッケージに$S^3$の実装を提供しています。
関連論文リスト
- Enhanced Short Text Modeling: Leveraging Large Language Models for Topic Refinement [7.6115889231452964]
トピックリファインメント(Topic Refinement)と呼ばれる新しいアプローチを導入する。
このアプローチは、トピックの初期のモデリングに直接関係せず、採掘後にトピックを改善することに重点を置いています。
素早いエンジニアリングを駆使して、所与のトピック内での話題外単語を排除し、文脈的に関係のある単語だけが、よりセマンティックに適合した単語で保存または置換されることを保証する。
論文 参考訳(メタデータ) (2024-03-26T13:50:34Z) - Prompting Large Language Models for Topic Modeling [10.31712610860913]
大規模言語モデル(LLM)の高度な言語理解を活用する新しいトピックモデリング手法であるPromptTopicを提案する。
個々の文書から文章レベルでトピックを抽出し、これらのトピックを事前定義された量に集約して凝縮し、最終的に様々な長さのテキストに対して一貫性のあるトピックを提供する。
PromptTopicを3つの非常に多様なデータセットの最先端のベースラインに対してベンチマークし、意味のあるトピックを発見する能力を確立しました。
論文 参考訳(メタデータ) (2023-12-15T11:15:05Z) - Probabilistic Transformer: A Probabilistic Dependency Model for
Contextual Word Representation [52.270712965271656]
本稿では,文脈表現の新しいモデルを提案する。
モデルのグラフは変換器に似ており、依存関係と自己意識の対応性がある。
実験により,本モデルが小型・中型データセットのトランスフォーマーと競合することを示す。
論文 参考訳(メタデータ) (2023-11-26T06:56:02Z) - Meaning Representations from Trajectories in Autoregressive Models [106.63181745054571]
入力テキストを拡張可能なすべてのトラジェクトリの分布を考慮し,自己回帰言語モデルから意味表現を抽出する。
この戦略はプロンプトフリーであり、微調整は必要とせず、事前訓練された自己回帰モデルにも適用できる。
我々は,大規模なモデルから得られた表現が人間のアノテーションとよく一致し,意味的類似性タスクにおける他のゼロショットおよびプロンプトフリーメソッドよりも優れており,標準埋め込みが扱えないより複雑なエンタテインメントや包含タスクの解決に使用できることを実証的に示す。
論文 参考訳(メタデータ) (2023-10-23T04:35:58Z) - Topic Discovery via Latent Space Clustering of Pretrained Language Model
Representations [35.74225306947918]
本研究では, PLM 埋め込みを基盤とした空間学習とクラスタリングの連携フレームワークを提案する。
提案モデルでは,トピック発見のためにPLMがもたらす強力な表現力と言語的特徴を効果的に活用する。
論文 参考訳(メタデータ) (2022-02-09T17:26:08Z) - Generative Text Modeling through Short Run Inference [47.73892773331617]
本研究は、推論のためのショートランダイナミックスを提案し、潜伏変数の以前の分布から変化し、後続分布によって導かれる少数のランゲヴィンダイナミックスステップを実行する。
短絡力学で訓練されたモデルは、強い言語モデルやVAEベースラインと比較して、より正確にデータをモデル化し、後方崩壊の兆候は示さない。
論文 参考訳(メタデータ) (2021-05-27T09:14:35Z) - Infusing Finetuning with Semantic Dependencies [62.37697048781823]
シンタックスとは異なり、セマンティクスは今日の事前訓練モデルによって表面化されないことを示す。
次に、畳み込みグラフエンコーダを使用して、タスク固有の微調整にセマンティック解析を明示的に組み込む。
論文 参考訳(メタデータ) (2020-12-10T01:27:24Z) - Topic Adaptation and Prototype Encoding for Few-Shot Visual Storytelling [81.33107307509718]
トピック間一般化の能力をモデル化するためのトピック適応型ストーリーテラを提案する。
また,アトピー内導出能力のモデル化を目的とした符号化手法の試作も提案する。
実験結果から,トピック適応とプロトタイプ符号化構造が相互に利益をもたらすことが明らかとなった。
論文 参考訳(メタデータ) (2020-08-11T03:55:11Z) - Pre-training is a Hot Topic: Contextualized Document Embeddings Improve
Topic Coherence [29.874072827824627]
提案手法は,従来のbag-of-wordsトピックモデルや最近のニューラルモデルよりも有意義で一貫性のあるトピックを生成する。
以上の結果から,言語モデルの今後の改良は,より優れたトピックモデルに変換されることが示唆された。
論文 参考訳(メタデータ) (2020-04-08T12:37:51Z) - How Far are We from Effective Context Modeling? An Exploratory Study on
Semantic Parsing in Context [59.13515950353125]
文法に基づく意味解析を行い,その上に典型的な文脈モデリング手法を適用する。
我々は,2つの大きなクロスドメインデータセットに対して,13のコンテキストモデリング手法を評価した。
論文 参考訳(メタデータ) (2020-02-03T11:28:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。