論文の概要: $S^3$ -- Semantic Signal Separation
- arxiv url: http://arxiv.org/abs/2406.09556v2
- Date: Tue, 18 Jun 2024 14:12:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 12:01:13.720853
- Title: $S^3$ -- Semantic Signal Separation
- Title(参考訳): $S^3$ -- 意味的信号分離
- Authors: Márton Kardos, Jan Kostkan, Arnault-Quentin Vermillet, Kristoffer Nielbo, Kenneth Enevoldsen, Roberta Rocca,
- Abstract要約: ニューラル埋め込み空間における理論駆動型トピックモデリング手法を提案する。
S3$は、トピックを意味空間の独立した軸として概念化し、これらをブラインドソース分離で明らかにする。
我々のアプローチは、最も多種多様な、高度に一貫性のあるトピックを提供し、事前処理を必要とせず、これまでで最速の文脈に敏感なトピックモデルであることが示されている。
- 参考スコア(独自算出の注目度): 0.16492989697868893
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Topic models are useful tools for discovering latent semantic structures in large textual corpora. Topic modeling historically relied on bag-of-words representations of language. This approach makes models sensitive to the presence of stop words and noise, and does not utilize potentially useful contextual information. Recent efforts have been oriented at incorporating contextual neural representations in topic modeling and have been shown to outperform classical topic models. These approaches are, however, typically slow, volatile and still require preprocessing for optimal results. We present Semantic Signal Separation ($S^3$), a theory-driven topic modeling approach in neural embedding spaces. $S^3$ conceptualizes topics as independent axes of semantic space, and uncovers these with blind-source separation. Our approach provides the most diverse, highly coherent topics, requires no preprocessing, and is demonstrated to be the fastest contextually sensitive topic model to date. We offer an implementation of $S^3$, among other approaches, in the Turftopic Python package.
- Abstract(参考訳): トピックモデルは、大きなテキストコーパスの潜在意味構造を発見するのに有用なツールである。
歴史的には、トピックモデリングは言葉のバッグ・オブ・ワードの表現に依存していた。
このアプローチにより、モデルが停止語や雑音の存在に敏感になり、潜在的に有用な文脈情報を利用できない。
最近の研究は、トピックモデリングに文脈神経表現を取り入れることを目的としており、古典的なトピックモデルよりも優れていることが示されている。
しかしながら、これらのアプローチは一般的には遅く、揮発性であり、最適な結果を得るためには前処理が必要である。
本稿では,セマンティック信号分離法(S^3$)を提案する。
S^3$は、トピックを意味空間の独立した軸として概念化し、これらをブラインドソース分離で明らかにする。
我々のアプローチは、最も多種多様な、高度に一貫性のあるトピックを提供し、事前処理を必要とせず、これまでで最速の文脈に敏感なトピックモデルであることが示されている。
私たちはTurftopic Pythonパッケージに$S^3$の実装を提供しています。
関連論文リスト
- Human-Object Interaction Detection Collaborated with Large Relation-driven Diffusion Models [65.82564074712836]
テキストと画像の拡散モデルに光を流す新しいHOI検出器であるDIFfusionHOIを紹介する。
まず、埋め込み空間における人間と物体の関係パターンの表現をインバージョンベースで学習する戦略を考案する。
これらの学習された関係埋め込みはテキストのプロンプトとして機能し、スタイア拡散モデルが特定の相互作用を記述する画像を生成する。
論文 参考訳(メタデータ) (2024-10-26T12:00:33Z) - CAST: Corpus-Aware Self-similarity Enhanced Topic modelling [16.562349140796115]
CAST: Corpus-Aware Self-similarity Enhanced Topic modelling, a novel topic modelling methodを紹介する。
機能的単語が候補話題語として振る舞うのを防ぐための効果的な指標として自己相似性を見出した。
提案手法は,生成したトピックの一貫性と多様性,およびノイズの多いデータを扱うトピックモデルの能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-19T15:27:11Z) - FUSE-ing Language Models: Zero-Shot Adapter Discovery for Prompt Optimization Across Tokenizers [55.2480439325792]
FUSEは、あるモデルのテキスト埋め込み空間から別のモデルへのマッピングを行うアダプタ層を、異なるトークン化器にまたがっても近似するアプローチである。
画像キャプションと感情に基づく画像キャプションのための視覚言語モデルと因果言語モデルに対する多目的最適化によるアプローチの有効性を示す。
論文 参考訳(メタデータ) (2024-08-09T02:16:37Z) - Enhanced Short Text Modeling: Leveraging Large Language Models for Topic Refinement [7.6115889231452964]
トピックリファインメント(Topic Refinement)と呼ばれる新しいアプローチを導入する。
このアプローチは、トピックの初期のモデリングに直接関係せず、採掘後にトピックを改善することに重点を置いています。
素早いエンジニアリングを駆使して、所与のトピック内での話題外単語を排除し、文脈的に関係のある単語だけが、よりセマンティックに適合した単語で保存または置換されることを保証する。
論文 参考訳(メタデータ) (2024-03-26T13:50:34Z) - Prompting Large Language Models for Topic Modeling [10.31712610860913]
大規模言語モデル(LLM)の高度な言語理解を活用する新しいトピックモデリング手法であるPromptTopicを提案する。
個々の文書から文章レベルでトピックを抽出し、これらのトピックを事前定義された量に集約して凝縮し、最終的に様々な長さのテキストに対して一貫性のあるトピックを提供する。
PromptTopicを3つの非常に多様なデータセットの最先端のベースラインに対してベンチマークし、意味のあるトピックを発見する能力を確立しました。
論文 参考訳(メタデータ) (2023-12-15T11:15:05Z) - Meaning Representations from Trajectories in Autoregressive Models [106.63181745054571]
入力テキストを拡張可能なすべてのトラジェクトリの分布を考慮し,自己回帰言語モデルから意味表現を抽出する。
この戦略はプロンプトフリーであり、微調整は必要とせず、事前訓練された自己回帰モデルにも適用できる。
我々は,大規模なモデルから得られた表現が人間のアノテーションとよく一致し,意味的類似性タスクにおける他のゼロショットおよびプロンプトフリーメソッドよりも優れており,標準埋め込みが扱えないより複雑なエンタテインメントや包含タスクの解決に使用できることを実証的に示す。
論文 参考訳(メタデータ) (2023-10-23T04:35:58Z) - Topics as Entity Clusters: Entity-based Topics from Large Language Models and Graph Neural Networks [0.6486052012623045]
本稿では,エンティティのバイモーダルベクトル表現を用いたトピッククラスタリング手法を提案する。
我々のアプローチは、最先端のモデルと比較してエンティティを扱うのに適している。
論文 参考訳(メタデータ) (2023-01-06T10:54:54Z) - Infusing Finetuning with Semantic Dependencies [62.37697048781823]
シンタックスとは異なり、セマンティクスは今日の事前訓練モデルによって表面化されないことを示す。
次に、畳み込みグラフエンコーダを使用して、タスク固有の微調整にセマンティック解析を明示的に組み込む。
論文 参考訳(メタデータ) (2020-12-10T01:27:24Z) - Topic Adaptation and Prototype Encoding for Few-Shot Visual Storytelling [81.33107307509718]
トピック間一般化の能力をモデル化するためのトピック適応型ストーリーテラを提案する。
また,アトピー内導出能力のモデル化を目的とした符号化手法の試作も提案する。
実験結果から,トピック適応とプロトタイプ符号化構造が相互に利益をもたらすことが明らかとなった。
論文 参考訳(メタデータ) (2020-08-11T03:55:11Z) - Pre-training is a Hot Topic: Contextualized Document Embeddings Improve
Topic Coherence [29.874072827824627]
提案手法は,従来のbag-of-wordsトピックモデルや最近のニューラルモデルよりも有意義で一貫性のあるトピックを生成する。
以上の結果から,言語モデルの今後の改良は,より優れたトピックモデルに変換されることが示唆された。
論文 参考訳(メタデータ) (2020-04-08T12:37:51Z) - How Far are We from Effective Context Modeling? An Exploratory Study on
Semantic Parsing in Context [59.13515950353125]
文法に基づく意味解析を行い,その上に典型的な文脈モデリング手法を適用する。
我々は,2つの大きなクロスドメインデータセットに対して,13のコンテキストモデリング手法を評価した。
論文 参考訳(メタデータ) (2020-02-03T11:28:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。