Fugu-MT 論文翻訳(概要): SAP-sLDA: An Interpretable Interface for Exploring Unstructured Text

論文の概要: SAP-sLDA: An Interpretable Interface for Exploring Unstructured Text

arxiv url: http://arxiv.org/abs/2308.01420v1
Date: Fri, 28 Jul 2023 05:43:39 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-06 10:55:31.907215
Title: SAP-sLDA: An Interpretable Interface for Exploring Unstructured Text
Title（参考訳）: SAP-sLDA:非構造化テキスト探索のための解釈可能なインタフェース
Authors: Charumathi Badrinath, Weiwei Pan, Finale Doshi-Velez
Abstract要約: 低次元投影における文書間の意味的に意味のある関係を保存するための半教師付きLDAに基づく学習手法を提案する。合成コーパスでは, 少数のラベルのみを付与したベースライン法よりも解釈可能なプロジェクションが得られた。
参考スコア（独自算出の注目度）: 28.36260646471421
License: http://creativecommons.org/licenses/by/4.0/
Abstract: A common way to explore text corpora is through low-dimensional projections of the documents, where one hopes that thematically similar documents will be clustered together in the projected space. However, popular algorithms for dimensionality reduction of text corpora, like Latent Dirichlet Allocation (LDA), often produce projections that do not capture human notions of document similarity. We propose a semi-supervised human-in-the-loop LDA-based method for learning topics that preserve semantically meaningful relationships between documents in low-dimensional projections. On synthetic corpora, our method yields more interpretable projections than baseline methods with only a fraction of labels provided. On a real corpus, we obtain qualitatively similar results.
Abstract（参考訳）: テキストコーパスを探索する一般的な方法は、文書の低次元投影を通じて、数学的に類似した文書が投影された空間にまとめられることを期待する。しかし、LDA(Latent Dirichlet Allocation)のようなテキストコーパスの次元的削減のための一般的なアルゴリズムは、文書類似性の人間の概念を捉えない投影を生成することが多い。低次元投影における文書間の意味的に意味のある関係を保存するための半教師付きLDAに基づく学習手法を提案する。合成コーパスでは, 少数のラベルのみを付与したベースライン法よりも解釈可能なプロジェクションが得られた。実コーパスでは、質的に類似した結果が得られる。

関連論文リスト

ABCD-LINK: Annotation Bootstrapping for Cross-Document Fine-Grained Links [57.514511353084565]
我々は、最高のパフォーマンスのアプローチを選択し、文書間リンクに注釈を付けるための新しいドメインに依存しないフレームワークを提案する。当社のフレームワークを2つの異なるドメイン – ピアレビューとニュース – に適用しています。結果として得られた新しいデータセットは、メディアフレーミングやピアレビューなど、数多くのクロスドキュメントタスクの基礎を築いた。
論文参考訳（メタデータ） (2025-09-01T11:32:24Z)
The Medium Is Not the Message: Deconfounding Document Embeddings via Linear Concept Erasure [98.71456610527598]
埋め込みベースの類似度メトリクスは、テキストのソースや言語のような刺激的な属性に影響される可能性がある。本稿では,エンコーダ表現から観測された共同創設者に関する情報を除去するデバイアスアルゴリズムにより,これらのバイアスを最小の計算コストで大幅に低減することを示す。
論文参考訳（メタデータ） (2025-07-01T23:17:12Z)
BP-Seg: A graphical model approach to unsupervised and non-contiguous text segmentation using belief propagation [5.9737438702986765]
本稿では,効率的なテキストセグメンテーションのためのグラフモデルに基づく教師なし学習手法BP-Segを提案する。本手法は, 局所的コヒーレンスを考慮し, 隣接文がより関連性が高いという直感を捉えるだけでなく, 意味論的に類似しない文章を効果的にグループ化する。
論文参考訳（メタデータ） (2025-05-22T17:46:23Z)
Mining Asymmetric Intertextuality [0.0]
非対称的テクスト間性(英: Asymmetric intertextuality)とは、テキスト間の一方的な関係を指す。非対称なテクスチュアリティをマイニングするためのスケーラブルで適応的なアプローチを提案する。本システムでは, 直接引用からパラフレーズ化, 文書間影響に至るまで, 様々なレベルのテクスト間関係を扱う。
論文参考訳（メタデータ） (2024-10-19T16:12:22Z)
Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文参考訳（メタデータ） (2024-10-03T14:33:34Z)
Hypergraph based Understanding for Document Semantic Entity Recognition [65.84258776834524]
我々は,ハイパグラフアテンションを利用したハイパグラフアテンション文書セマンティックエンティティ認識フレームワークHGAを構築し,エンティティ境界とエンティティカテゴリを同時に重視する。 FUNSD, CORD, XFUNDIE で得られた結果は,本手法が意味的エンティティ認識タスクの性能を効果的に向上できることを示す。
論文参考訳（メタデータ） (2024-07-09T14:35:49Z)
Description-Based Text Similarity [59.552704474862004]
我々は、その内容の抽象的な記述に基づいて、テキストを検索する必要性を特定する。そこで本研究では,近隣の標準探索で使用する場合の精度を大幅に向上する代替モデルを提案する。
論文参考訳（メタデータ） (2023-05-21T17:14:31Z)
Specialized Document Embeddings for Aspect-based Similarity of Research Papers [4.661692753666685]
アスペクトベースの類似性は、アスペクト固有の埋め込み空間における古典的ベクトル類似性問題として扱う。文書は単一の汎用的な埋め込みではなく、複数の専門的な埋め込みとして表現する。当社のアプローチは、暗黙の偏見から生じる潜在的なリスクを明確化することで軽減します。
論文参考訳（メタデータ） (2022-03-28T07:35:26Z)
Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文参考訳（メタデータ） (2021-10-04T03:59:15Z)
Author Clustering and Topic Estimation for Short Texts [69.54017251622211]
同じ文書中の単語間の強い依存をモデル化することにより、遅延ディリクレ割当を拡張できる新しいモデルを提案する。同時にユーザをクラスタ化し、ホック後のクラスタ推定の必要性を排除しています。我々の手法は、短文で生じる問題に対する従来のアプローチよりも、-または----------- で機能する。
論文参考訳（メタデータ） (2021-06-15T20:55:55Z)
Efficient Clustering from Distributions over Topics [0.0]
本稿では,類似度関数を計算可能な文書の小さなサブセットを識別する手段として,コレクション内の文書上のトピックモデリングアルゴリズムの結果に依存するアプローチを提案する。このアプローチは、科学出版分野における類似文書の特定において、有望な結果を得ることが証明されている。
論文参考訳（メタデータ） (2020-12-15T10:52:19Z)
A Topological Method for Comparing Document Semantics [0.0]
2つの文書間の意味的類似性を比較するための新しいアルゴリズムを提案する。私たちの実験は、人間の判定結果を含む文書データセット上で行われます。提案アルゴリズムは,NLTKとの結びつきはあるものの,人間の一貫性の高い結果が得られるとともに,ほとんどの最先端の手法に勝る。
論文参考訳（メタデータ） (2020-12-08T04:21:40Z)
A Comparative Study on Structural and Semantic Properties of Sentence Embeddings [77.34726150561087]
本稿では,関係抽出に広く利用されている大規模データセットを用いた実験セットを提案する。異なる埋め込み空間は、構造的および意味的特性に対して異なる強度を持つことを示す。これらの結果は,埋め込み型関係抽出法の開発に有用な情報を提供する。
論文参考訳（メタデータ） (2020-09-23T15:45:32Z)
Document Network Projection in Pretrained Word Embedding Space [7.455546102930911]
本稿では,リンクされた文書の集合を事前学習した単語埋め込み空間に投影する新しい手法である正規化線形埋め込み(RLE)を提案する。我々は相補的な情報を提供するペアワイズ類似性の行列を利用する(例えば、引用グラフ内の2つの文書のネットワーク近接)。ドキュメント表現は、レコメンデーション、分類、クラスタリングなど、多くの情報検索タスクを解決するのに役立つ。
論文参考訳（メタデータ） (2020-01-16T10:16:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。