論文の概要: SAP-sLDA: An Interpretable Interface for Exploring Unstructured Text
- arxiv url: http://arxiv.org/abs/2308.01420v1
- Date: Fri, 28 Jul 2023 05:43:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-06 10:55:31.907215
- Title: SAP-sLDA: An Interpretable Interface for Exploring Unstructured Text
- Title(参考訳): SAP-sLDA:非構造化テキスト探索のための解釈可能なインタフェース
- Authors: Charumathi Badrinath, Weiwei Pan, Finale Doshi-Velez
- Abstract要約: 低次元投影における文書間の意味的に意味のある関係を保存するための半教師付きLDAに基づく学習手法を提案する。
合成コーパスでは, 少数のラベルのみを付与したベースライン法よりも解釈可能なプロジェクションが得られた。
- 参考スコア(独自算出の注目度): 28.36260646471421
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A common way to explore text corpora is through low-dimensional projections
of the documents, where one hopes that thematically similar documents will be
clustered together in the projected space. However, popular algorithms for
dimensionality reduction of text corpora, like Latent Dirichlet Allocation
(LDA), often produce projections that do not capture human notions of document
similarity. We propose a semi-supervised human-in-the-loop LDA-based method for
learning topics that preserve semantically meaningful relationships between
documents in low-dimensional projections. On synthetic corpora, our method
yields more interpretable projections than baseline methods with only a
fraction of labels provided. On a real corpus, we obtain qualitatively similar
results.
- Abstract(参考訳): テキストコーパスを探索する一般的な方法は、文書の低次元投影を通じて、数学的に類似した文書が投影された空間にまとめられることを期待する。
しかし、LDA(Latent Dirichlet Allocation)のようなテキストコーパスの次元的削減のための一般的なアルゴリズムは、文書類似性の人間の概念を捉えない投影を生成することが多い。
低次元投影における文書間の意味的に意味のある関係を保存するための半教師付きLDAに基づく学習手法を提案する。
合成コーパスでは, 少数のラベルのみを付与したベースライン法よりも解釈可能なプロジェクションが得られた。
実コーパスでは、質的に類似した結果が得られる。
関連論文リスト
- Language Models As Semantic Indexers [80.76133595275728]
生成言語モデルを用いてセマンティックIDを学習するための自己教師型フレームワークLMINDEXERを紹介する。
本稿では, 逐次離散表現を生成可能なセマンティックインデクサを導入することで, シーケンシャルなシーケンシャルIDの課題に対処する。
学習したセマンティックインデクサは、レコメンデーションや検索など、さまざまな下流タスクを容易にすることができる。
論文 参考訳(メタデータ) (2023-10-11T18:56:15Z) - Contextualization for the Organization of Text Documents Streams [0.0]
テキスト文書のストリームを探索するストリーム解析手法について,いくつかの実験を行った。
テキストドキュメントのフラックスを探索し、分析し、整理するために、動的アルゴリズムのみを使用します。
論文 参考訳(メタデータ) (2022-05-30T22:25:40Z) - Specialized Document Embeddings for Aspect-based Similarity of Research
Papers [4.661692753666685]
アスペクトベースの類似性は、アスペクト固有の埋め込み空間における古典的ベクトル類似性問題として扱う。
文書は単一の汎用的な埋め込みではなく、複数の専門的な埋め込みとして表現する。
当社のアプローチは、暗黙の偏見から生じる潜在的なリスクを明確化することで軽減します。
論文 参考訳(メタデータ) (2022-03-28T07:35:26Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - Author Clustering and Topic Estimation for Short Texts [69.54017251622211]
同じ文書中の単語間の強い依存をモデル化することにより、遅延ディリクレ割当を拡張できる新しいモデルを提案する。
同時にユーザをクラスタ化し、ホック後のクラスタ推定の必要性を排除しています。
我々の手法は、短文で生じる問題に対する従来のアプローチよりも、-または----------- で機能する。
論文 参考訳(メタデータ) (2021-06-15T20:55:55Z) - Efficient Clustering from Distributions over Topics [0.0]
本稿では,類似度関数を計算可能な文書の小さなサブセットを識別する手段として,コレクション内の文書上のトピックモデリングアルゴリズムの結果に依存するアプローチを提案する。
このアプローチは、科学出版分野における類似文書の特定において、有望な結果を得ることが証明されている。
論文 参考訳(メタデータ) (2020-12-15T10:52:19Z) - A Topological Method for Comparing Document Semantics [0.0]
2つの文書間の意味的類似性を比較するための新しいアルゴリズムを提案する。
私たちの実験は、人間の判定結果を含む文書データセット上で行われます。
提案アルゴリズムは,NLTKとの結びつきはあるものの,人間の一貫性の高い結果が得られるとともに,ほとんどの最先端の手法に勝る。
論文 参考訳(メタデータ) (2020-12-08T04:21:40Z) - Weakly-Supervised Aspect-Based Sentiment Analysis via Joint
Aspect-Sentiment Topic Embedding [71.2260967797055]
アスペクトベース感情分析のための弱教師付きアプローチを提案する。
We learn sentiment, aspects> joint topic embeddeds in the word embedding space。
次に、ニューラルネットワークを用いて単語レベルの識別情報を一般化する。
論文 参考訳(メタデータ) (2020-10-13T21:33:24Z) - A Comparative Study on Structural and Semantic Properties of Sentence
Embeddings [77.34726150561087]
本稿では,関係抽出に広く利用されている大規模データセットを用いた実験セットを提案する。
異なる埋め込み空間は、構造的および意味的特性に対して異なる強度を持つことを示す。
これらの結果は,埋め込み型関係抽出法の開発に有用な情報を提供する。
論文 参考訳(メタデータ) (2020-09-23T15:45:32Z) - Learning to Select Bi-Aspect Information for Document-Scale Text Content
Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。
詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。
出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文 参考訳(メタデータ) (2020-02-24T12:52:10Z) - Document Network Projection in Pretrained Word Embedding Space [7.455546102930911]
本稿では,リンクされた文書の集合を事前学習した単語埋め込み空間に投影する新しい手法である正規化線形埋め込み(RLE)を提案する。
我々は相補的な情報を提供するペアワイズ類似性の行列を利用する(例えば、引用グラフ内の2つの文書のネットワーク近接)。
ドキュメント表現は、レコメンデーション、分類、クラスタリングなど、多くの情報検索タスクを解決するのに役立つ。
論文 参考訳(メタデータ) (2020-01-16T10:16:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。