論文の概要: Document Network Projection in Pretrained Word Embedding Space
- arxiv url: http://arxiv.org/abs/2001.05727v1
- Date: Thu, 16 Jan 2020 10:16:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-11 00:30:58.674593
- Title: Document Network Projection in Pretrained Word Embedding Space
- Title(参考訳): 事前学習語埋め込み空間における文書ネットワーク投影
- Authors: Antoine Gourru, Adrien Guille, Julien Velcin and Julien Jacques
- Abstract要約: 本稿では,リンクされた文書の集合を事前学習した単語埋め込み空間に投影する新しい手法である正規化線形埋め込み(RLE)を提案する。
我々は相補的な情報を提供するペアワイズ類似性の行列を利用する(例えば、引用グラフ内の2つの文書のネットワーク近接)。
ドキュメント表現は、レコメンデーション、分類、クラスタリングなど、多くの情報検索タスクを解決するのに役立つ。
- 参考スコア(独自算出の注目度): 7.455546102930911
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Regularized Linear Embedding (RLE), a novel method that projects a
collection of linked documents (e.g. citation network) into a pretrained word
embedding space. In addition to the textual content, we leverage a matrix of
pairwise similarities providing complementary information (e.g., the network
proximity of two documents in a citation graph). We first build a simple word
vector average for each document, and we use the similarities to alter this
average representation. The document representations can help to solve many
information retrieval tasks, such as recommendation, classification and
clustering. We demonstrate that our approach outperforms or matches existing
document network embedding methods on node classification and link prediction
tasks. Furthermore, we show that it helps identifying relevant keywords to
describe document classes.
- Abstract(参考訳): 本稿では,リンクされた文書の集合(引用ネットワークなど)を事前学習された単語埋め込み空間に投影する新しい手法である正規化線形埋め込み(rle)を提案する。
テキストの内容に加えて,補完的情報(例えば,引用グラフ内の2つの文書のネットワーク近接)を提供するペアワイズ類似性の行列も活用する。
まず、各文書に対して単純な単語ベクトル平均を構築し、この平均表現を変更するために類似性を利用する。
ドキュメント表現は、レコメンデーション、分類、クラスタリングなど、多くの情報検索タスクを解決するのに役立つ。
提案手法は,ノード分類やリンク予測タスクにおいて,既存の文書ネットワーク組込み手法を上回ったり,一致させたりすることを実証する。
さらに、文書クラスを記述するための関連するキーワードを特定するのに役立ちます。
関連論文リスト
- Graph-Convolutional Networks: Named Entity Recognition and Large Language Model Embedding in Document Clustering [9.929301228994095]
本稿では、文書クラスタリングのためのグラフベースのフレームワークに、名前付きエンティティ認識(NER)とLarge Language Models(LLM)を組み込む新しいアプローチを提案する。
グラフ畳み込みネットワーク(GCN)を用いて最適化された名前付きエンティティ類似性によって重み付けされた文書とエッジのノードでグラフを構築する。
実験結果から,本手法はクラスタリングにおける従来の共起型手法,特に名前付きエンティティに富んだ文書よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-12-19T14:03:22Z) - Unified Multimodal Interleaved Document Representation for Retrieval [57.65409208879344]
複数のモダリティでインターリーブされた文書を階層的に埋め込む手法を提案する。
セグメント化されたパスの表現を1つのドキュメント表現にマージする。
我々は,本手法が関連するベースラインを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-10-03T17:49:09Z) - Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。
第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。
第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文 参考訳(メタデータ) (2024-10-03T14:33:34Z) - Directed Criteria Citation Recommendation and Ranking Through Link Prediction [0.32885740436059047]
本モデルでは,各文書の意味を要約ネットワーク内のノードとして符号化するために,トランスフォーマーベースのグラフ埋め込みを用いる。
我々のモデルが生成するセマンティック表現は、推薦タスクやランキングタスクにおいて、他のコンテントベースの手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-03-18T20:47:38Z) - Lbl2Vec: An Embedding-Based Approach for Unsupervised Document Retrieval
on Predefined Topics [0.6767885381740952]
本稿では,ラベルのない文書データセットから,文書と単語ベクトルを共同で学習する手法を提案する。
提案手法はテキスト前処理をほとんど必要としないが,高い確率で関連文書の検索に有効である。
当社のアプローチの複製を容易にするため,開発済みのLbl2Vecコードを3Clause BSDライセンスの下で利用可能なツールとして公開しています。
論文 参考訳(メタデータ) (2022-10-12T08:57:01Z) - Unified Pretraining Framework for Document Understanding [52.224359498792836]
文書理解のための統合事前学習フレームワークであるUDocを紹介する。
UDocは、ほとんどのドキュメント理解タスクをサポートするように設計されており、Transformerを拡張してマルチモーダル埋め込みを入力とする。
UDocの重要な特徴は、3つの自己管理的損失を利用して汎用的な表現を学ぶことである。
論文 参考訳(メタデータ) (2022-04-22T21:47:04Z) - Minimally-Supervised Structure-Rich Text Categorization via Learning on
Text-Rich Networks [61.23408995934415]
テキストリッチネットワークから学習することで,最小限に教師付き分類を行う新しいフレームワークを提案する。
具体的には、テキスト理解のためのテキスト解析モジュールと、クラス差別的でスケーラブルなネットワーク学習のためのネットワーク学習モジュールの2つのモジュールを共同でトレーニングします。
実験の結果,1つのカテゴリに3つのシード文書しか与えられず,その精度は約92%であった。
論文 参考訳(メタデータ) (2021-02-23T04:14:34Z) - Multilevel Text Alignment with Cross-Document Attention [59.76351805607481]
既存のアライメントメソッドは、1つの事前定義されたレベルで動作します。
本稿では,文書を文書間注目要素で表現するための階層的アテンションエンコーダを予め確立した新しい学習手法を提案する。
論文 参考訳(メタデータ) (2020-10-03T02:52:28Z) - Learning to Select Bi-Aspect Information for Document-Scale Text Content
Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。
詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。
出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文 参考訳(メタデータ) (2020-02-24T12:52:10Z) - Inductive Document Network Embedding with Topic-Word Attention [5.8010446129208155]
文書ネットワークの埋め込みは、文書が相互にリンクされているとき、構造化されたテキストコーパスの表現を学習することを目的としている。
近年のアルゴリズムでは、ノードに関連付けられたテキストコンテンツを定式化に組み込むことで、ネットワーク埋め込みアプローチを拡張している。
本稿では,解釈可能かつインダクティブな文書ネットワークの埋め込み手法を提案する。
論文 参考訳(メタデータ) (2020-01-10T10:14:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。