論文の概要: Specialized Document Embeddings for Aspect-based Similarity of Research
Papers
- arxiv url: http://arxiv.org/abs/2203.14541v1
- Date: Mon, 28 Mar 2022 07:35:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-30 04:35:57.687349
- Title: Specialized Document Embeddings for Aspect-based Similarity of Research
Papers
- Title(参考訳): 研究論文のアスペクト的類似性のための特別文書埋め込み
- Authors: Malte Ostendorff, Till Blume, Terry Ruas, Bela Gipp, Georg Rehm
- Abstract要約: アスペクトベースの類似性は、アスペクト固有の埋め込み空間における古典的ベクトル類似性問題として扱う。
文書は単一の汎用的な埋め込みではなく、複数の専門的な埋め込みとして表現する。
当社のアプローチは、暗黙の偏見から生じる潜在的なリスクを明確化することで軽減します。
- 参考スコア(独自算出の注目度): 4.661692753666685
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Document embeddings and similarity measures underpin content-based
recommender systems, whereby a document is commonly represented as a single
generic embedding. However, similarity computed on single vector
representations provides only one perspective on document similarity that
ignores which aspects make two documents alike. To address this limitation,
aspect-based similarity measures have been developed using document
segmentation or pairwise multi-class document classification. While
segmentation harms the document coherence, the pairwise classification approach
scales poorly to large scale corpora. In this paper, we treat aspect-based
similarity as a classical vector similarity problem in aspect-specific
embedding spaces. We represent a document not as a single generic embedding but
as multiple specialized embeddings. Our approach avoids document segmentation
and scales linearly w.r.t.the corpus size. In an empirical study, we use the
Papers with Code corpus containing 157,606 research papers and consider the
task, method, and dataset of the respective research papers as their aspects.
We compare and analyze three generic document embeddings, six specialized
document embeddings and a pairwise classification baseline in the context of
research paper recommendations. As generic document embeddings, we consider
FastText, SciBERT, and SPECTER. To compute the specialized document embeddings,
we compare three alternative methods inspired by retrofitting, fine-tuning, and
Siamese networks. In our experiments, Siamese SciBERT achieved the highest
scores. Additional analyses indicate an implicit bias of the generic document
embeddings towards the dataset aspect and against the method aspect of each
research paper. Our approach of aspect-based document embeddings mitigates
potential risks arising from implicit biases by making them explicit.
- Abstract(参考訳): 文書の埋め込みと類似性は、コンテンツベースのレコメンデーションシステムの下で測定され、文書は単一の汎用的な埋め込みとして一般に表現される。
しかし、単一のベクトル表現で計算される類似性は、文書の類似性に関する1つの視点を提供し、どの側面が2つの文書を類似させるかを無視している。
この制限に対処するため、アスペクトベースの類似度尺度は文書セグメンテーションまたはペアワイズ・マルチクラス文書分類を用いて開発されている。
セグメンテーションは文書のコヒーレンスを損なうが、ペアワイズ分類のアプローチは大規模コーパスに対して不十分である。
本稿では,アスペクト特異的埋め込み空間における古典的なベクトル類似性問題としてアスペクトベース類似性を扱う。
文書は単一の汎用的な埋め込みではなく、複数の特殊な埋め込みとして表現する。
本手法は文書分割を回避し,コーパスサイズを線形にスケールする。
実証研究では,157,606の研究論文を含むコードコーパスを持つ論文を用いて,各研究論文の課題,方法,データセットをその側面として検討する。
研究論文勧告の文脈で,3つの汎用文書埋め込み,6つの特殊文書埋め込み,ペアワイズ分類ベースラインを比較し分析した。
一般的なドキュメントの埋め込みとして、FastText、SciBERT、SPECTERを検討します。
特殊な文書埋め込みを計算するために, 再構成, 微調整, シームズネットワークに触発された3つの代替手法を比較した。
実験では、シャムセ・サイバートが最高点を達成した。
追加分析は、データセットの側面と各研究論文の手法面に対する一般的な文書埋め込みの暗黙の偏りを示している。
アスペクトベースの文書埋め込みのアプローチは、暗黙の偏見から生じる潜在的なリスクを軽減する。
関連論文リスト
- Leveraging Collection-Wide Similarities for Unsupervised Document Structure Extraction [61.998789448260005]
本稿では,コレクション内の文書の典型的構造を特定することを提案する。
任意のヘッダのパラフレーズを抽象化し、各トピックを各ドキュメントのロケーションにグルーピングします。
文書間の類似性を利用した教師なしグラフベース手法を開発した。
論文 参考訳(メタデータ) (2024-02-21T16:22:21Z) - Document Provenance and Authentication through Authorship Classification [5.2545206693029884]
本稿では,単一文書と複数文書の分類のためのアンサンブルベースのテキスト処理フレームワークを提案する。
提案するフレームワークには,最先端のテキスト分類アルゴリズムがいくつか組み込まれている。
フレームワークは大規模なベンチマークデータセットで評価される。
論文 参考訳(メタデータ) (2023-03-02T12:26:03Z) - Representing Mixtures of Word Embeddings with Mixtures of Topic
Embeddings [46.324584649014284]
トピックモデルはしばしば、文書の各単語が、一連のトピックと文書固有のトピック比に基づいてどのように生成されるかを説明する生成モデルとして定式化される。
本稿では、各文書を単語埋め込みベクトルの集合と見なし、各トピックを同じ埋め込み空間に埋め込みベクトルとしてモデル化する新しいトピックモデリングフレームワークを提案する。
同じベクトル空間に単語とトピックを埋め込み、文書の単語の埋め込みベクトルとそれらのトピックのセマンティックな差異を測る方法を定義し、すべての文書に対して期待される差を最小化するためにトピックの埋め込みを最適化する。
論文 参考訳(メタデータ) (2022-03-03T08:46:23Z) - Coherence-Based Distributed Document Representation Learning for
Scientific Documents [9.646001537050925]
本研究では,科学文書の表現を学習するために,結合テキストペア埋め込み(CTPE)モデルを提案する。
我々は、異なる文書から2つの部分を持つ非結合テキストペアを構築するために、負のサンプリングを使用する。
テキストペアが結合されているか、アンカップリングされているかを判断するためにモデルを訓練し、結合されたテキストペアの埋め込みを文書の埋め込みとして使用する。
論文 参考訳(メタデータ) (2022-01-08T15:29:21Z) - Out-of-Category Document Identification Using Target-Category Names as
Weak Supervision [64.671654559798]
Out-of-category Detection は、文書が不適格(またはターゲット)カテゴリと意味的関連性に応じて区別することを目的としている。
対象のカテゴリの1つに属する文書の信頼性を効果的に測定する,カテゴリ外検出フレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-24T21:01:25Z) - Weakly-Supervised Aspect-Based Sentiment Analysis via Joint
Aspect-Sentiment Topic Embedding [71.2260967797055]
アスペクトベース感情分析のための弱教師付きアプローチを提案する。
We learn sentiment, aspects> joint topic embeddeds in the word embedding space。
次に、ニューラルネットワークを用いて単語レベルの識別情報を一般化する。
論文 参考訳(メタデータ) (2020-10-13T21:33:24Z) - Aspect-based Document Similarity for Research Papers [4.661692753666685]
文書分類タスクのペア化によってアスペクト情報との類似性を拡張する。
研究論文のアスペクトベースの文書類似性を評価する。
以上の結果から,SciBERTは最高の演奏システムであることがわかった。
論文 参考訳(メタデータ) (2020-10-13T13:51:21Z) - Multilevel Text Alignment with Cross-Document Attention [59.76351805607481]
既存のアライメントメソッドは、1つの事前定義されたレベルで動作します。
本稿では,文書を文書間注目要素で表現するための階層的アテンションエンコーダを予め確立した新しい学習手法を提案する。
論文 参考訳(メタデータ) (2020-10-03T02:52:28Z) - Fast(er) Reconstruction of Shredded Text Documents via Self-Supervised
Deep Asymmetric Metric Learning [62.34197797857823]
細断文書の自動復元における中心的な問題は、細断文書の相互互換性評価である。
本研究は,推定回数を線形にスケールするペアワイド互換性を測るスケーラブルな深層学習手法を提案する。
提案手法は,505個のシュレッダーを持つテストインスタンスに対して,22倍の高速化を実現した最先端技術に匹敵する精度を有する。
論文 参考訳(メタデータ) (2020-03-23T03:22:06Z) - Pairwise Multi-Class Document Classification for Semantic Relations
between Wikipedia Articles [5.40541521227338]
2つの文書間の関係をペアワイズ文書分類タスクとして検索する問題をモデル化する。
文書間の意味的関係を見つけるために,GloVe, paragraph-s,BERT,XLNetなどの一連の手法を適用する。
我々は,新たに提案された32,168のウィキペディア記事ペアと,セマンティックドキュメントの関係を定義するウィキデータプロパティに関する実験を行った。
論文 参考訳(メタデータ) (2020-03-22T12:52:56Z) - Document Network Projection in Pretrained Word Embedding Space [7.455546102930911]
本稿では,リンクされた文書の集合を事前学習した単語埋め込み空間に投影する新しい手法である正規化線形埋め込み(RLE)を提案する。
我々は相補的な情報を提供するペアワイズ類似性の行列を利用する(例えば、引用グラフ内の2つの文書のネットワーク近接)。
ドキュメント表現は、レコメンデーション、分類、クラスタリングなど、多くの情報検索タスクを解決するのに役立つ。
論文 参考訳(メタデータ) (2020-01-16T10:16:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。