Fugu-MT 論文翻訳(概要): $S^3$ -- Semantic Signal Separation

論文の概要: $S^3$ -- Semantic Signal Separation

arxiv url: http://arxiv.org/abs/2406.09556v1
Date: Thu, 13 Jun 2024 19:43:38 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-17 17:24:36.164014
Title: $S^3$ -- Semantic Signal Separation
Title（参考訳）: $S^3$ -- 意味的信号分離
Authors: Márton Kardos, Jan Kostkan, Arnault-Quentin Vermillet, Kristoffer Nielbo, Roberta Rocca,
Abstract要約: ニューラル埋め込み空間における理論駆動型トピックモデリング手法を提案する。 S3$は、トピックを意味空間の独立した軸として概念化し、これらをブラインドソース分離で明らかにする。我々のアプローチは、最も多種多様な、高度に一貫性のあるトピックを提供し、事前処理を必要とせず、これまでで最速の文脈に敏感なトピックモデルであることが示されている。
参考スコア（独自算出の注目度）: 0.1747623282473278
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Topic models are useful tools for discovering latent semantic structures in large textual corpora. Topic modeling historically relied on bag-of-words representations of language. This approach makes models sensitive to the presence of stop words and noise, and does not utilize potentially useful contextual information. Recent efforts have been oriented at incorporating contextual neural representations in topic modeling and have been shown to outperform classical topic models. These approaches are, however, typically slow, volatile and still require preprocessing for optimal results. We present Semantic Signal Separation ($S^3$), a theory-driven topic modeling approach in neural embedding spaces. $S^3$ conceptualizes topics as independent axes of semantic space, and uncovers these with blind-source separation. Our approach provides the most diverse, highly coherent topics, requires no preprocessing, and is demonstrated to be the fastest contextually sensitive topic model to date. We offer an implementation of $S^3$, among other approaches, in the Turftopic Python package.
Abstract（参考訳）: トピックモデルは、大きなテキストコーパスの潜在意味構造を発見するのに有用なツールである。歴史的には、トピックモデリングは言葉のバッグ・オブ・ワードの表現に依存していた。このアプローチにより、モデルが停止語や雑音の存在に敏感になり、潜在的に有用な文脈情報を利用できない。最近の研究は、トピックモデリングに文脈神経表現を取り入れることを目的としており、古典的なトピックモデルよりも優れていることが示されている。しかしながら、これらのアプローチは一般的には遅く、揮発性であり、最適な結果を得るためには前処理が必要である。本稿では,セマンティック信号分離法(S^3$)を提案する。 S^3$は、トピックを意味空間の独立した軸として概念化し、これらをブラインドソース分離で明らかにする。我々のアプローチは、最も多種多様な、高度に一貫性のあるトピックを提供し、事前処理を必要とせず、これまでで最速の文脈に敏感なトピックモデルであることが示されている。私たちはTurftopic Pythonパッケージに$S^3$の実装を提供しています。

関連論文リスト

Does Multimodality Lead to Better Time Series Forecasting? [84.74978289870155]
このようなマルチモーダル積分がどのような条件で常に得られるかは、まだ不明である。本稿では,時系列とテキスト表現をアライメントするアライメント・ベース・メソッドと,予測のための大規模言語モデルを直接促進するプロンプト・ベース・メソッドの2つの一般的なマルチモーダル予測パラダイムを評価する。その結果,1)高容量テキストモデル,(2)比較的弱い時系列モデル,(3)適切な整合戦略などにより,テキスト情報を組み込むことが最も有用であることが示唆された。
論文参考訳（メタデータ） (2025-06-20T23:55:56Z)
Poisson-Process Topic Model for Integrating Knowledge from Pre-trained Language Models [9.539646729556793]
事前学習したLLMを用いて、各文書を単語埋め込みのシーケンスに変換する。この列はポアソン点過程としてモデル化され、その強度測度は、それぞれトピックに対応する$K$基底測度の凸結合として表される。本稿では,従来のトピックモデリング手法を統合したフレキシブルアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-03-22T16:19:04Z)
Human-Object Interaction Detection Collaborated with Large Relation-driven Diffusion Models [65.82564074712836]
テキストと画像の拡散モデルに光を流す新しいHOI検出器であるDIFfusionHOIを紹介する。まず、埋め込み空間における人間と物体の関係パターンの表現をインバージョンベースで学習する戦略を考案する。これらの学習された関係埋め込みはテキストのプロンプトとして機能し、スタイア拡散モデルが特定の相互作用を記述する画像を生成する。
論文参考訳（メタデータ） (2024-10-26T12:00:33Z)
CAST: Corpus-Aware Self-similarity Enhanced Topic modelling [16.562349140796115]
CAST: Corpus-Aware Self-similarity Enhanced Topic modelling, a novel topic modelling methodを紹介する。機能的単語が候補話題語として振る舞うのを防ぐための効果的な指標として自己相似性を見出した。提案手法は,生成したトピックの一貫性と多様性,およびノイズの多いデータを扱うトピックモデルの能力を大幅に向上させる。
論文参考訳（メタデータ） (2024-10-19T15:27:11Z)
FUSE-ing Language Models: Zero-Shot Adapter Discovery for Prompt Optimization Across Tokenizers [55.2480439325792]
FUSEは、あるモデルのテキスト埋め込み空間から別のモデルへのマッピングを行うアダプタ層を、異なるトークン化器にまたがっても近似するアプローチである。画像キャプションと感情に基づく画像キャプションのための視覚言語モデルと因果言語モデルに対する多目的最適化によるアプローチの有効性を示す。
論文参考訳（メタデータ） (2024-08-09T02:16:37Z)
Interactive Topic Models with Optimal Transport [75.26555710661908]
ラベル名監視型トピックモデリングのためのアプローチとして,EdTMを提案する。 EdTMは、LM/LLMベースのドキュメントトピック親和性を活用しながら、代入問題としてのトピックモデリングをモデル化する。
論文参考訳（メタデータ） (2024-06-28T13:57:27Z)
Enhanced Short Text Modeling: Leveraging Large Language Models for Topic Refinement [7.6115889231452964]
トピックリファインメント(Topic Refinement)と呼ばれる新しいアプローチを導入する。このアプローチは、トピックの初期のモデリングに直接関係せず、採掘後にトピックを改善することに重点を置いています。素早いエンジニアリングを駆使して、所与のトピック内での話題外単語を排除し、文脈的に関係のある単語だけが、よりセマンティックに適合した単語で保存または置換されることを保証する。
論文参考訳（メタデータ） (2024-03-26T13:50:34Z)
Prompting Large Language Models for Topic Modeling [10.31712610860913]
大規模言語モデル(LLM)の高度な言語理解を活用する新しいトピックモデリング手法であるPromptTopicを提案する。個々の文書から文章レベルでトピックを抽出し、これらのトピックを事前定義された量に集約して凝縮し、最終的に様々な長さのテキストに対して一貫性のあるトピックを提供する。 PromptTopicを3つの非常に多様なデータセットの最先端のベースラインに対してベンチマークし、意味のあるトピックを発見する能力を確立しました。
論文参考訳（メタデータ） (2023-12-15T11:15:05Z)
Meaning Representations from Trajectories in Autoregressive Models [106.63181745054571]
入力テキストを拡張可能なすべてのトラジェクトリの分布を考慮し,自己回帰言語モデルから意味表現を抽出する。この戦略はプロンプトフリーであり、微調整は必要とせず、事前訓練された自己回帰モデルにも適用できる。我々は,大規模なモデルから得られた表現が人間のアノテーションとよく一致し,意味的類似性タスクにおける他のゼロショットおよびプロンプトフリーメソッドよりも優れており,標準埋め込みが扱えないより複雑なエンタテインメントや包含タスクの解決に使用できることを実証的に示す。
論文参考訳（メタデータ） (2023-10-23T04:35:58Z)
Efficient and Flexible Topic Modeling using Pretrained Embeddings and Bag of Sentences [1.8592384822257952]
本稿では,新しいトピックモデリングと推論アルゴリズムを提案する。我々は,生成過程モデルとクラスタリングを組み合わせることで,事前学習文の埋め込みを活用する。 The Tailor の評価は,本手法が比較的少ない計算要求で最先端の成果をもたらすことを示している。
論文参考訳（メタデータ） (2023-02-06T20:13:11Z)
Topics as Entity Clusters: Entity-based Topics from Large Language Models and Graph Neural Networks [0.6486052012623045]
本稿では,エンティティのバイモーダルベクトル表現を用いたトピッククラスタリング手法を提案する。我々のアプローチは、最先端のモデルと比較してエンティティを扱うのに適している。
論文参考訳（メタデータ） (2023-01-06T10:54:54Z)
Topic-Aware Encoding for Extractive Summarization [15.113768658584979]
この問題に対処するために,文書要約のためのトピック認識符号化を提案する。ニューラルネットワークに基づく文レベルの表現学習にニューラルトピックモデルを追加し、中心トピック情報を適切に検討する。 3つの公開データセットの実験結果は、我々のモデルが最先端のモデルより優れていることを示している。
論文参考訳（メタデータ） (2021-12-17T15:26:37Z)
TopicNet: Semantic Graph-Guided Topic Discovery [51.71374479354178]
既存の階層的なトピックモデルでは、教師なしの方法でテキストコーパスから意味論的意味のあるトピックを抽出することができる。 TopicNetを階層的なトピックモデルとして導入し、学習に影響を与えるための帰納的バイアスとして、事前構造知識を注入する。
論文参考訳（メタデータ） (2021-10-27T09:07:14Z)
Author Clustering and Topic Estimation for Short Texts [69.54017251622211]
同じ文書中の単語間の強い依存をモデル化することにより、遅延ディリクレ割当を拡張できる新しいモデルを提案する。同時にユーザをクラスタ化し、ホック後のクラスタ推定の必要性を排除しています。我々の手法は、短文で生じる問題に対する従来のアプローチよりも、-または----------- で機能する。
論文参考訳（メタデータ） (2021-06-15T20:55:55Z)
Infusing Finetuning with Semantic Dependencies [62.37697048781823]
シンタックスとは異なり、セマンティクスは今日の事前訓練モデルによって表面化されないことを示す。次に、畳み込みグラフエンコーダを使用して、タスク固有の微調整にセマンティック解析を明示的に組み込む。
論文参考訳（メタデータ） (2020-12-10T01:27:24Z)
Topic Adaptation and Prototype Encoding for Few-Shot Visual Storytelling [81.33107307509718]
トピック間一般化の能力をモデル化するためのトピック適応型ストーリーテラを提案する。また,アトピー内導出能力のモデル化を目的とした符号化手法の試作も提案する。実験結果から,トピック適応とプロトタイプ符号化構造が相互に利益をもたらすことが明らかとなった。
論文参考訳（メタデータ） (2020-08-11T03:55:11Z)
Tired of Topic Models? Clusters of Pretrained Word Embeddings Make for Fast and Good Topics too! [5.819224524813161]
事前学習した単語の埋め込みをクラスタリングし、重み付けされたクラスタリングと上位単語の再ランク付けのための文書情報を組み込んだ別の方法を提案する。このアプローチの最も優れた組み合わせは、従来のトピックモデルと同様に機能するが、ランタイムと計算の複雑さは低い。
論文参考訳（メタデータ） (2020-04-30T16:18:18Z)
Pre-training is a Hot Topic: Contextualized Document Embeddings Improve Topic Coherence [29.874072827824627]
提案手法は,従来のbag-of-wordsトピックモデルや最近のニューラルモデルよりも有意義で一貫性のあるトピックを生成する。以上の結果から,言語モデルの今後の改良は,より優れたトピックモデルに変換されることが示唆された。
論文参考訳（メタデータ） (2020-04-08T12:37:51Z)
How Far are We from Effective Context Modeling? An Exploratory Study on Semantic Parsing in Context [59.13515950353125]
文法に基づく意味解析を行い,その上に典型的な文脈モデリング手法を適用する。我々は,2つの大きなクロスドメインデータセットに対して,13のコンテキストモデリング手法を評価した。
論文参考訳（メタデータ） (2020-02-03T11:28:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。