論文の概要: SAP-sLDA: An Interpretable Interface for Exploring Unstructured Text
- arxiv url: http://arxiv.org/abs/2308.01420v1
- Date: Fri, 28 Jul 2023 05:43:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-06 10:55:31.907215
- Title: SAP-sLDA: An Interpretable Interface for Exploring Unstructured Text
- Title(参考訳): SAP-sLDA:非構造化テキスト探索のための解釈可能なインタフェース
- Authors: Charumathi Badrinath, Weiwei Pan, Finale Doshi-Velez
- Abstract要約: 低次元投影における文書間の意味的に意味のある関係を保存するための半教師付きLDAに基づく学習手法を提案する。
合成コーパスでは, 少数のラベルのみを付与したベースライン法よりも解釈可能なプロジェクションが得られた。
- 参考スコア(独自算出の注目度): 28.36260646471421
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A common way to explore text corpora is through low-dimensional projections
of the documents, where one hopes that thematically similar documents will be
clustered together in the projected space. However, popular algorithms for
dimensionality reduction of text corpora, like Latent Dirichlet Allocation
(LDA), often produce projections that do not capture human notions of document
similarity. We propose a semi-supervised human-in-the-loop LDA-based method for
learning topics that preserve semantically meaningful relationships between
documents in low-dimensional projections. On synthetic corpora, our method
yields more interpretable projections than baseline methods with only a
fraction of labels provided. On a real corpus, we obtain qualitatively similar
results.
- Abstract(参考訳): テキストコーパスを探索する一般的な方法は、文書の低次元投影を通じて、数学的に類似した文書が投影された空間にまとめられることを期待する。
しかし、LDA(Latent Dirichlet Allocation)のようなテキストコーパスの次元的削減のための一般的なアルゴリズムは、文書類似性の人間の概念を捉えない投影を生成することが多い。
低次元投影における文書間の意味的に意味のある関係を保存するための半教師付きLDAに基づく学習手法を提案する。
合成コーパスでは, 少数のラベルのみを付与したベースライン法よりも解釈可能なプロジェクションが得られた。
実コーパスでは、質的に類似した結果が得られる。
関連論文リスト
- Mining Asymmetric Intertextuality [0.0]
非対称的テクスト間性(英: Asymmetric intertextuality)とは、テキスト間の一方的な関係を指す。
非対称なテクスチュアリティをマイニングするためのスケーラブルで適応的なアプローチを提案する。
本システムでは, 直接引用からパラフレーズ化, 文書間影響に至るまで, 様々なレベルのテクスト間関係を扱う。
論文 参考訳(メタデータ) (2024-10-19T16:12:22Z) - Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。
第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。
第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文 参考訳(メタデータ) (2024-10-03T14:33:34Z) - Hypergraph based Understanding for Document Semantic Entity Recognition [65.84258776834524]
我々は,ハイパグラフアテンションを利用したハイパグラフアテンション文書セマンティックエンティティ認識フレームワークHGAを構築し,エンティティ境界とエンティティカテゴリを同時に重視する。
FUNSD, CORD, XFUNDIE で得られた結果は,本手法が意味的エンティティ認識タスクの性能を効果的に向上できることを示す。
論文 参考訳(メタデータ) (2024-07-09T14:35:49Z) - Description-Based Text Similarity [59.552704474862004]
我々は、その内容の抽象的な記述に基づいて、テキストを検索する必要性を特定する。
そこで本研究では,近隣の標準探索で使用する場合の精度を大幅に向上する代替モデルを提案する。
論文 参考訳(メタデータ) (2023-05-21T17:14:31Z) - Specialized Document Embeddings for Aspect-based Similarity of Research
Papers [4.661692753666685]
アスペクトベースの類似性は、アスペクト固有の埋め込み空間における古典的ベクトル類似性問題として扱う。
文書は単一の汎用的な埋め込みではなく、複数の専門的な埋め込みとして表現する。
当社のアプローチは、暗黙の偏見から生じる潜在的なリスクを明確化することで軽減します。
論文 参考訳(メタデータ) (2022-03-28T07:35:26Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - Author Clustering and Topic Estimation for Short Texts [69.54017251622211]
同じ文書中の単語間の強い依存をモデル化することにより、遅延ディリクレ割当を拡張できる新しいモデルを提案する。
同時にユーザをクラスタ化し、ホック後のクラスタ推定の必要性を排除しています。
我々の手法は、短文で生じる問題に対する従来のアプローチよりも、-または----------- で機能する。
論文 参考訳(メタデータ) (2021-06-15T20:55:55Z) - Efficient Clustering from Distributions over Topics [0.0]
本稿では,類似度関数を計算可能な文書の小さなサブセットを識別する手段として,コレクション内の文書上のトピックモデリングアルゴリズムの結果に依存するアプローチを提案する。
このアプローチは、科学出版分野における類似文書の特定において、有望な結果を得ることが証明されている。
論文 参考訳(メタデータ) (2020-12-15T10:52:19Z) - A Topological Method for Comparing Document Semantics [0.0]
2つの文書間の意味的類似性を比較するための新しいアルゴリズムを提案する。
私たちの実験は、人間の判定結果を含む文書データセット上で行われます。
提案アルゴリズムは,NLTKとの結びつきはあるものの,人間の一貫性の高い結果が得られるとともに,ほとんどの最先端の手法に勝る。
論文 参考訳(メタデータ) (2020-12-08T04:21:40Z) - A Comparative Study on Structural and Semantic Properties of Sentence
Embeddings [77.34726150561087]
本稿では,関係抽出に広く利用されている大規模データセットを用いた実験セットを提案する。
異なる埋め込み空間は、構造的および意味的特性に対して異なる強度を持つことを示す。
これらの結果は,埋め込み型関係抽出法の開発に有用な情報を提供する。
論文 参考訳(メタデータ) (2020-09-23T15:45:32Z) - Document Network Projection in Pretrained Word Embedding Space [7.455546102930911]
本稿では,リンクされた文書の集合を事前学習した単語埋め込み空間に投影する新しい手法である正規化線形埋め込み(RLE)を提案する。
我々は相補的な情報を提供するペアワイズ類似性の行列を利用する(例えば、引用グラフ内の2つの文書のネットワーク近接)。
ドキュメント表現は、レコメンデーション、分類、クラスタリングなど、多くの情報検索タスクを解決するのに役立つ。
論文 参考訳(メタデータ) (2020-01-16T10:16:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。