論文の概要: Multi-Vector Models with Textual Guidance for Fine-Grained Scientific
Document Similarity
- arxiv url: http://arxiv.org/abs/2111.08366v1
- Date: Tue, 16 Nov 2021 11:12:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-17 15:01:23.910316
- Title: Multi-Vector Models with Textual Guidance for Fine-Grained Scientific
Document Similarity
- Title(参考訳): 微粒化科学文書類似性のためのテキストガイダンス付きマルチベクトルモデル
- Authors: Sheshera Mysore, Arman Cohan, Tom Hope
- Abstract要約: 本稿では, 微粒な面のマッチングに基づく新しい科学的文書類似性モデルを提案する。
本モデルは,テキスト管理の新たな形態として,関連論文の側面を記述した共引用文脈を用いて学習する。
- 参考スコア(独自算出の注目度): 11.157086694203201
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present Aspire, a new scientific document similarity model based on
matching fine-grained aspects. Our model is trained using co-citation contexts
that describe related paper aspects as a novel form of textual supervision. We
use multi-vector document representations, recently explored in settings with
short query texts but under-explored in the challenging document-document
setting. We present a fast method that involves matching only single sentence
pairs, and a method that makes sparse multiple matches with optimal transport.
Our model improves performance on document similarity tasks across four
datasets. Moreover, our fast single-match method achieves competitive results,
opening up the possibility of applying fine-grained document similarity models
to large-scale scientific corpora.
- Abstract(参考訳): 我々は,粒度のマッチングに基づく新しい科学的文書類似性モデルであるaspireを提案する。
本モデルは,関連論文の側面をテクスト的監督の新しい形態として記述する共引用文脈を用いて学習する。
我々はマルチベクトル文書表現を使い、最近は短いクエリテキストを含む設定で検討したが、難解な文書文書設定では未検討である。
本稿では,単一文対のみをマッチングする高速手法と,最適なトランスポートと疎一致させる手法を提案する。
我々のモデルは4つのデータセットにわたる文書類似性タスクの性能を向上させる。
さらに,本手法は,大規模科学コーパスに微細な文書類似性モデルを適用する可能性を高めることで,競争結果を得る。
関連論文リスト
- Unified Multi-Modal Interleaved Document Representation for Information Retrieval [57.65409208879344]
我々は、異なるモダリティでインターリーブされた文書を均等に埋め込み、より包括的でニュアンスのある文書表現を生成する。
具体的には、テキスト、画像、テーブルの処理と統合を統一されたフォーマットと表現に統合する、近年のビジョン言語モデルの能力を活用して、これを実現する。
論文 参考訳(メタデータ) (2024-10-03T17:49:09Z) - XDoc: Unified Pre-training for Cross-Format Document Understanding [84.63416346227176]
XDocは、単一のモデルで異なるドキュメントフォーマットを扱う、統合された事前訓練されたモデルである。
XDocは、トレーニング済みの個々のモデルと比較して、さまざまなダウンストリームタスクで同等またはそれ以上のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-10-06T12:07:18Z) - Learning Diverse Document Representations with Deep Query Interactions
for Dense Retrieval [79.37614949970013]
そこで本研究では,問合せの深い文書表現を学習する高密度検索モデルを提案する。
本モデルでは,各文書に生成した擬似クエリをエンコードして,クエリインフォームド・マルチビュー文書表現を得る。
論文 参考訳(メタデータ) (2022-08-08T16:00:55Z) - Large-Scale Multi-Document Summarization with Information Extraction and
Compression [31.601707033466766]
複数の異種文書のラベル付きデータとは無関係に抽象的な要約フレームワークを開発する。
我々のフレームワークは、同じトピックのドキュメントではなく、異なるストーリーを伝えるドキュメントを処理する。
我々の実験は、このより汎用的な設定において、我々のフレームワークが現在の最先端メソッドより優れていることを示した。
論文 参考訳(メタデータ) (2022-05-01T19:49:15Z) - Representing Mixtures of Word Embeddings with Mixtures of Topic
Embeddings [46.324584649014284]
トピックモデルはしばしば、文書の各単語が、一連のトピックと文書固有のトピック比に基づいてどのように生成されるかを説明する生成モデルとして定式化される。
本稿では、各文書を単語埋め込みベクトルの集合と見なし、各トピックを同じ埋め込み空間に埋め込みベクトルとしてモデル化する新しいトピックモデリングフレームワークを提案する。
同じベクトル空間に単語とトピックを埋め込み、文書の単語の埋め込みベクトルとそれらのトピックのセマンティックな差異を測る方法を定義し、すべての文書に対して期待される差を最小化するためにトピックの埋め込みを最適化する。
論文 参考訳(メタデータ) (2022-03-03T08:46:23Z) - Modeling Endorsement for Multi-Document Abstractive Summarization [10.166639983949887]
単一文書の要約と多文書の要約の重大な違いは、文書の中で健全なコンテンツがどのように現れるかである。
本稿では,複数文書要約における文書間補完効果とその活用をモデル化する。
提案手法は各文書から合成を生成し,他の文書から有意な内容を識別する支援者として機能する。
論文 参考訳(メタデータ) (2021-10-15T03:55:42Z) - Automatic Document Sketching: Generating Drafts from Analogous Texts [44.626645471195495]
著者がレビューと修正を行うためのドラフト文書全体を生成する新しいタスクである文書スケッチを導入する。
これらのドラフトは、コンテンツのばらつきながら、形式的に重複するドキュメントのセット - 潜在的に再利用可能なテキストの大きなセグメントを共有する - から作成されます。
本研究は,変圧器を用いた専門家の混合と強化学習の併用を含む,弱教師付き手法の適用について検討する。
論文 参考訳(メタデータ) (2021-06-14T06:46:06Z) - Aspect-based Document Similarity for Research Papers [4.661692753666685]
文書分類タスクのペア化によってアスペクト情報との類似性を拡張する。
研究論文のアスペクトベースの文書類似性を評価する。
以上の結果から,SciBERTは最高の演奏システムであることがわかった。
論文 参考訳(メタデータ) (2020-10-13T13:51:21Z) - Leveraging Graph to Improve Abstractive Multi-Document Summarization [50.62418656177642]
我々は、文書のよく知られたグラフ表現を活用することができる、抽象的多文書要約(MDS)モデルを開発する。
本モデルでは,長い文書の要約に欠かせない文書間関係を捉えるために,文書の符号化にグラフを利用する。
また,このモデルでは,要約生成プロセスの導出にグラフを利用することが可能であり,一貫性と簡潔な要約を生成するのに有用である。
論文 参考訳(メタデータ) (2020-05-20T13:39:47Z) - Explaining Relationships Between Scientific Documents [55.23390424044378]
本稿では,2つの学術文書間の関係を自然言語テキストを用いて記述する課題に対処する。
本稿では154K文書から622Kサンプルのデータセットを作成する。
論文 参考訳(メタデータ) (2020-02-02T03:54:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。