論文の概要: Coherence-Based Distributed Document Representation Learning for
Scientific Documents
- arxiv url: http://arxiv.org/abs/2201.02846v1
- Date: Sat, 8 Jan 2022 15:29:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-11 16:11:05.742545
- Title: Coherence-Based Distributed Document Representation Learning for
Scientific Documents
- Title(参考訳): 科学的文書のコヒーレンスに基づく分散文書表現学習
- Authors: Shicheng Tan, Shu Zhao, Yanping Zhang
- Abstract要約: 本研究では,科学文書の表現を学習するために,結合テキストペア埋め込み(CTPE)モデルを提案する。
我々は、異なる文書から2つの部分を持つ非結合テキストペアを構築するために、負のサンプリングを使用する。
テキストペアが結合されているか、アンカップリングされているかを判断するためにモデルを訓練し、結合されたテキストペアの埋め込みを文書の埋め込みとして使用する。
- 参考スコア(独自算出の注目度): 9.646001537050925
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Distributed document representation is one of the basic problems in natural
language processing. Currently distributed document representation methods
mainly consider the context information of words or sentences. These methods do
not take into account the coherence of the document as a whole, e.g., a
relation between the paper title and abstract, headline and description, or
adjacent bodies in the document. The coherence shows whether a document is
meaningful, both logically and syntactically, especially in scientific
documents (papers or patents, etc.). In this paper, we propose a coupled text
pair embedding (CTPE) model to learn the representation of scientific
documents, which maintains the coherence of the document with coupled text
pairs formed by segmenting the document. First, we divide the document into two
parts (e.g., title and abstract, etc) which construct a coupled text pair.
Then, we adopt negative sampling to construct uncoupled text pairs whose two
parts are from different documents. Finally, we train the model to judge
whether the text pair is coupled or uncoupled and use the obtained embedding of
coupled text pairs as the embedding of documents. We perform experiments on
three datasets for one information retrieval task and two recommendation tasks.
The experimental results verify the effectiveness of the proposed CTPE model.
- Abstract(参考訳): 分散文書表現は自然言語処理における基本的な問題の1つである。
現在、分散文書表現手法は、主に単語や文の文脈情報を考慮する。
これらの手法は、文書全体の一貫性を考慮に入れておらず、例えば、論文のタイトルと要約、見出しと記述、あるいは文書の隣接体との関係を考慮に入れている。
このコヒーレンスは、特に科学文書(紙や特許など)において、ある文書が論理的にも統語的にも有意義であるか否かを示す。
本稿では,文書のセグメンテーションによって形成された結合テキストペアによる文書のコヒーレンスを維持する,科学文書の表現を学習するための結合テキストペア埋め込み(CTPE)モデルを提案する。
まず、文書を2つの部分(タイトルと抽象など)に分割し、結合されたテキストペアを構築する。
次に,2つの部分が異なる文書からなる非結合テキストペアを構成するために,負サンプリングを採用する。
最後に,テキストペアが結合されているかアンカップリングされているかを判断するためにモデルを訓練し,結合されたテキストペアの埋め込みを文書の埋め込みとして利用する。
1つの情報検索タスクと2つのレコメンデーションタスクのための3つのデータセットの実験を行う。
実験により,CTPEモデルの有効性が検証された。
関連論文リスト
- Unified Multi-Modal Interleaved Document Representation for Information Retrieval [57.65409208879344]
我々は、異なるモダリティでインターリーブされた文書を均等に埋め込み、より包括的でニュアンスのある文書表現を生成する。
具体的には、テキスト、画像、テーブルの処理と統合を統一されたフォーマットと表現に統合する、近年のビジョン言語モデルの能力を活用して、これを実現する。
論文 参考訳(メタデータ) (2024-10-03T17:49:09Z) - Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。
第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。
第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文 参考訳(メタデータ) (2024-10-03T14:33:34Z) - Knowledge-Driven Cross-Document Relation Extraction [3.868708275322908]
関係抽出(RE)はよく知られたNLPアプリケーションであり、文レベルや文書レベルのタスクとして扱われる。
本稿では,文書横断REのための入力テキストにエンティティのドメイン知識を組み込む新しい手法KXDocREを提案する。
論文 参考訳(メタデータ) (2024-05-22T11:30:59Z) - PropSegmEnt: A Large-Scale Corpus for Proposition-Level Segmentation and
Entailment Recognition [63.51569687229681]
文中の各命題の文的含意関係を個別に認識する必要性について論じる。
提案するPropSegmEntは45K以上の提案のコーパスであり, 専門家によるアノテートを行う。
我々のデータセット構造は、(1)文書内の文章を命題の集合に分割し、(2)異なるが、トポジカルに整合した文書に対して、各命題の含意関係を分類するタスクに類似している。
論文 参考訳(メタデータ) (2022-12-21T04:03:33Z) - Unified Pretraining Framework for Document Understanding [52.224359498792836]
文書理解のための統合事前学習フレームワークであるUDocを紹介する。
UDocは、ほとんどのドキュメント理解タスクをサポートするように設計されており、Transformerを拡張してマルチモーダル埋め込みを入力とする。
UDocの重要な特徴は、3つの自己管理的損失を利用して汎用的な表現を学ぶことである。
論文 参考訳(メタデータ) (2022-04-22T21:47:04Z) - Multi-Vector Models with Textual Guidance for Fine-Grained Scientific
Document Similarity [11.157086694203201]
本稿では, 微粒な面のマッチングに基づく新しい科学的文書類似性モデルを提案する。
本モデルは,テキスト管理の新たな形態として,関連論文の側面を記述した共引用文脈を用いて学習する。
論文 参考訳(メタデータ) (2021-11-16T11:12:30Z) - Eider: Evidence-enhanced Document-level Relation Extraction [56.71004595444816]
文書レベルの関係抽出(DocRE)は、文書内のエンティティペア間の意味関係を抽出することを目的としている。
本稿では,共同関係と証拠抽出,エビデンス中心関係抽出(RE),抽出結果の融合からなる3段階のエビデンス強化DocREフレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-16T09:43:16Z) - Multilevel Text Alignment with Cross-Document Attention [59.76351805607481]
既存のアライメントメソッドは、1つの事前定義されたレベルで動作します。
本稿では,文書を文書間注目要素で表現するための階層的アテンションエンコーダを予め確立した新しい学習手法を提案する。
論文 参考訳(メタデータ) (2020-10-03T02:52:28Z) - Pairwise Multi-Class Document Classification for Semantic Relations
between Wikipedia Articles [5.40541521227338]
2つの文書間の関係をペアワイズ文書分類タスクとして検索する問題をモデル化する。
文書間の意味的関係を見つけるために,GloVe, paragraph-s,BERT,XLNetなどの一連の手法を適用する。
我々は,新たに提案された32,168のウィキペディア記事ペアと,セマンティックドキュメントの関係を定義するウィキデータプロパティに関する実験を行った。
論文 参考訳(メタデータ) (2020-03-22T12:52:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。