論文の概要: Multilevel Text Alignment with Cross-Document Attention
- arxiv url: http://arxiv.org/abs/2010.01263v1
- Date: Sat, 3 Oct 2020 02:52:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-11 09:12:38.650434
- Title: Multilevel Text Alignment with Cross-Document Attention
- Title(参考訳): クロスドキュメントによるマルチレベルテキストアライメント
- Authors: Xuhui Zhou, Nikolaos Pappas, Noah A. Smith
- Abstract要約: 既存のアライメントメソッドは、1つの事前定義されたレベルで動作します。
本稿では,文書を文書間注目要素で表現するための階層的アテンションエンコーダを予め確立した新しい学習手法を提案する。
- 参考スコア(独自算出の注目度): 59.76351805607481
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text alignment finds application in tasks such as citation recommendation and
plagiarism detection. Existing alignment methods operate at a single,
predefined level and cannot learn to align texts at, for example, sentence and
document levels. We propose a new learning approach that equips previously
established hierarchical attention encoders for representing documents with a
cross-document attention component, enabling structural comparisons across
different levels (document-to-document and sentence-to-document). Our component
is weakly supervised from document pairs and can align at multiple levels. Our
evaluation on predicting document-to-document relationships and
sentence-to-document relationships on the tasks of citation recommendation and
plagiarism detection shows that our approach outperforms previously established
hierarchical, attention encoders based on recurrent and transformer
contextualization that are unaware of structural correspondence between
documents.
- Abstract(参考訳): テキストアライメントは引用レコメンデーションや盗作検出などのタスクで応用されている。
既存のアライメントメソッドは、1つの事前定義されたレベルで動作し、例えば文や文書のレベルでテキストのアライメントを学べない。
本稿では,文書を文書横断的に表現するための階層的アテンションエンコーダを新たに導入し,文書間(文書間)と文書間(文書間)の構造的比較を可能にする学習手法を提案する。
私たちのコンポーネントはドキュメントペアから弱く管理されており、複数のレベルで調整することができます。
提案手法は,文書間の構造的対応を意識しない再帰的・変換的文脈化に基づく階層的,注意的エンコーダよりも優れていることを示す。
関連論文リスト
- Leveraging Collection-Wide Similarities for Unsupervised Document
Structure Extraction [69.68042613919447]
本稿では,コレクション内の文書の典型的構造を特定することを提案する。
任意のヘッダのパラフレーズを抽象化し、各トピックを各ドキュメントのロケーションにグルーピングします。
文書間の類似性を利用した教師なしグラフベース手法を開発した。
論文 参考訳(メタデータ) (2024-02-21T16:22:21Z) - Unified Pretraining Framework for Document Understanding [52.224359498792836]
文書理解のための統合事前学習フレームワークであるUDocを紹介する。
UDocは、ほとんどのドキュメント理解タスクをサポートするように設計されており、Transformerを拡張してマルチモーダル埋め込みを入力とする。
UDocの重要な特徴は、3つの自己管理的損失を利用して汎用的な表現を学ぶことである。
論文 参考訳(メタデータ) (2022-04-22T21:47:04Z) - Specialized Document Embeddings for Aspect-based Similarity of Research
Papers [4.661692753666685]
アスペクトベースの類似性は、アスペクト固有の埋め込み空間における古典的ベクトル類似性問題として扱う。
文書は単一の汎用的な埋め込みではなく、複数の専門的な埋め込みとして表現する。
当社のアプローチは、暗黙の偏見から生じる潜在的なリスクを明確化することで軽減します。
論文 参考訳(メタデータ) (2022-03-28T07:35:26Z) - Combining Deep Learning and Reasoning for Address Detection in
Unstructured Text Documents [0.0]
本研究では,非構造化文書からアドレスを検索・抽出する手法として,ディープラーニングと推論を組み合わせたハイブリッド手法を提案する。
スキャンした文書画像上のアドレス領域の境界を検出するために,視覚的深層学習モデルを用いる。
論文 参考訳(メタデータ) (2022-02-07T12:32:00Z) - Automatic Document Sketching: Generating Drafts from Analogous Texts [44.626645471195495]
著者がレビューと修正を行うためのドラフト文書全体を生成する新しいタスクである文書スケッチを導入する。
これらのドラフトは、コンテンツのばらつきながら、形式的に重複するドキュメントのセット - 潜在的に再利用可能なテキストの大きなセグメントを共有する - から作成されます。
本研究は,変圧器を用いた専門家の混合と強化学習の併用を含む,弱教師付き手法の適用について検討する。
論文 参考訳(メタデータ) (2021-06-14T06:46:06Z) - Unsupervised Document Embedding via Contrastive Augmentation [48.71917352110245]
本稿では,教師なしで文書表現を学習するためのデータ拡張手法と対比学習手法を提案する。
画像と事前学習に使われる最近のコントラスト的自己教師付き学習アルゴリズムに触発されて、高品質な文書埋め込みは様々なパラフレーズに不変であるべきだと仮定した。
本手法は,文書分類作業におけるSOTA手法よりも最大6.4%の分類誤差率を減少させることができる。
論文 参考訳(メタデータ) (2021-03-26T15:48:52Z) - SPECTER: Document-level Representation Learning using Citation-informed
Transformers [51.048515757909215]
SPECTERは、Transformer言語モデルの事前学習に基づいて、科学文書の文書レベルの埋め込みを生成する。
SciDocsは、引用予測から文書分類、レコメンデーションまでの7つの文書レベルのタスクからなる新しい評価ベンチマークである。
論文 参考訳(メタデータ) (2020-04-15T16:05:51Z) - Learning to Select Bi-Aspect Information for Document-Scale Text Content
Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。
詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。
出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文 参考訳(メタデータ) (2020-02-24T12:52:10Z) - Document Network Projection in Pretrained Word Embedding Space [7.455546102930911]
本稿では,リンクされた文書の集合を事前学習した単語埋め込み空間に投影する新しい手法である正規化線形埋め込み(RLE)を提案する。
我々は相補的な情報を提供するペアワイズ類似性の行列を利用する(例えば、引用グラフ内の2つの文書のネットワーク近接)。
ドキュメント表現は、レコメンデーション、分類、クラスタリングなど、多くの情報検索タスクを解決するのに役立つ。
論文 参考訳(メタデータ) (2020-01-16T10:16:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。