Fugu-MT 論文翻訳(概要): Multi-Vector Models with Textual Guidance for Fine-Grained Scientific Document Similarity

論文の概要: Multi-Vector Models with Textual Guidance for Fine-Grained Scientific Document Similarity

arxiv url: http://arxiv.org/abs/2111.08366v1
Date: Tue, 16 Nov 2021 11:12:30 GMT
ステータス: 翻訳完了
システム内更新日: 2021-11-17 15:01:23.910316
Title: Multi-Vector Models with Textual Guidance for Fine-Grained Scientific Document Similarity
Title（参考訳）: 微粒化科学文書類似性のためのテキストガイダンス付きマルチベクトルモデル
Authors: Sheshera Mysore, Arman Cohan, Tom Hope
Abstract要約: 本稿では, 微粒な面のマッチングに基づく新しい科学的文書類似性モデルを提案する。本モデルは,テキスト管理の新たな形態として,関連論文の側面を記述した共引用文脈を用いて学習する。
参考スコア（独自算出の注目度）: 11.157086694203201
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: We present Aspire, a new scientific document similarity model based on matching fine-grained aspects. Our model is trained using co-citation contexts that describe related paper aspects as a novel form of textual supervision. We use multi-vector document representations, recently explored in settings with short query texts but under-explored in the challenging document-document setting. We present a fast method that involves matching only single sentence pairs, and a method that makes sparse multiple matches with optimal transport. Our model improves performance on document similarity tasks across four datasets. Moreover, our fast single-match method achieves competitive results, opening up the possibility of applying fine-grained document similarity models to large-scale scientific corpora.
Abstract（参考訳）: 我々は,粒度のマッチングに基づく新しい科学的文書類似性モデルであるaspireを提案する。本モデルは,関連論文の側面をテクスト的監督の新しい形態として記述する共引用文脈を用いて学習する。我々はマルチベクトル文書表現を使い、最近は短いクエリテキストを含む設定で検討したが、難解な文書文書設定では未検討である。本稿では,単一文対のみをマッチングする高速手法と,最適なトランスポートと疎一致させる手法を提案する。我々のモデルは4つのデータセットにわたる文書類似性タスクの性能を向上させる。さらに,本手法は,大規模科学コーパスに微細な文書類似性モデルを適用する可能性を高めることで,競争結果を得る。

関連論文リスト

ABCD-LINK: Annotation Bootstrapping for Cross-Document Fine-Grained Links [57.514511353084565]
我々は、最高のパフォーマンスのアプローチを選択し、文書間リンクに注釈を付けるための新しいドメインに依存しないフレームワークを提案する。当社のフレームワークを2つの異なるドメイン – ピアレビューとニュース – に適用しています。結果として得られた新しいデータセットは、メディアフレーミングやピアレビューなど、数多くのクロスドキュメントタスクの基礎を築いた。
論文参考訳（メタデータ） (2025-09-01T11:32:24Z)
PRISM: Fine-Grained Paper-to-Paper Retrieval with Multi-Aspect-Aware Query Optimization [61.783280234747394]
PRISMは文書から文書への検索手法であり、クエリと候補文書の両方に対して、複数のきめ細かい表現を導入している。 SciFullBenchは、クエリと候補の両方のフルペーパーの完全かつセグメンテーションされたコンテキストが利用できる新しいベンチマークである。実験の結果、PRISMは既存の検索基準よりも平均4.3%性能が向上した。
論文参考訳（メタデータ） (2025-07-14T08:41:53Z)
Subtopic-aware View Sampling and Temporal Aggregation for Long-form Document Matching [34.81690842091582]
長文文書マッチングは、2つの文書間の関係を判断することを目的としている。代表的マッチング信号のモデル化のための新しいフレームワークを提案する。我々の学習フレームワークは,ニュース重複や判例検索など,いくつかの文書マッチング作業に有効である。
論文参考訳（メタデータ） (2024-12-10T15:06:48Z)
Unified Multi-Modal Interleaved Document Representation for Information Retrieval [57.65409208879344]
我々は、異なるモダリティでインターリーブされた文書を均等に埋め込み、より包括的でニュアンスのある文書表現を生成する。具体的には、テキスト、画像、テーブルの処理と統合を統一されたフォーマットと表現に統合する、近年のビジョン言語モデルの能力を活用して、これを実現する。
論文参考訳（メタデータ） (2024-10-03T17:49:09Z)
UniDoc: A Universal Large Multimodal Model for Simultaneous Text Detection, Recognition, Spotting and Understanding [93.92313947913831]
テキスト検出と認識機能を備えた新しいマルチモーダルモデルUniDocを紹介する。我々の知る限りでは、これはテキストの検出、認識、スポッティング、理解を同時に行うことができる最初の大規模マルチモーダルモデルである。
論文参考訳（メタデータ） (2023-08-19T17:32:34Z)
XDoc: Unified Pre-training for Cross-Format Document Understanding [84.63416346227176]
XDocは、単一のモデルで異なるドキュメントフォーマットを扱う、統合された事前訓練されたモデルである。 XDocは、トレーニング済みの個々のモデルと比較して、さまざまなダウンストリームタスクで同等またはそれ以上のパフォーマンスを達成する。
論文参考訳（メタデータ） (2022-10-06T12:07:18Z)
Learning Diverse Document Representations with Deep Query Interactions for Dense Retrieval [79.37614949970013]
そこで本研究では,問合せの深い文書表現を学習する高密度検索モデルを提案する。本モデルでは,各文書に生成した擬似クエリをエンコードして,クエリインフォームド・マルチビュー文書表現を得る。
論文参考訳（メタデータ） (2022-08-08T16:00:55Z)
Large-Scale Multi-Document Summarization with Information Extraction and Compression [31.601707033466766]
複数の異種文書のラベル付きデータとは無関係に抽象的な要約フレームワークを開発する。我々のフレームワークは、同じトピックのドキュメントではなく、異なるストーリーを伝えるドキュメントを処理する。我々の実験は、このより汎用的な設定において、我々のフレームワークが現在の最先端メソッドより優れていることを示した。
論文参考訳（メタデータ） (2022-05-01T19:49:15Z)
Representing Mixtures of Word Embeddings with Mixtures of Topic Embeddings [46.324584649014284]
トピックモデルはしばしば、文書の各単語が、一連のトピックと文書固有のトピック比に基づいてどのように生成されるかを説明する生成モデルとして定式化される。本稿では、各文書を単語埋め込みベクトルの集合と見なし、各トピックを同じ埋め込み空間に埋め込みベクトルとしてモデル化する新しいトピックモデリングフレームワークを提案する。同じベクトル空間に単語とトピックを埋め込み、文書の単語の埋め込みベクトルとそれらのトピックのセマンティックな差異を測る方法を定義し、すべての文書に対して期待される差を最小化するためにトピックの埋め込みを最適化する。
論文参考訳（メタデータ） (2022-03-03T08:46:23Z)
Modeling Endorsement for Multi-Document Abstractive Summarization [10.166639983949887]
単一文書の要約と多文書の要約の重大な違いは、文書の中で健全なコンテンツがどのように現れるかである。本稿では,複数文書要約における文書間補完効果とその活用をモデル化する。提案手法は各文書から合成を生成し,他の文書から有意な内容を識別する支援者として機能する。
論文参考訳（メタデータ） (2021-10-15T03:55:42Z)
Automatic Document Sketching: Generating Drafts from Analogous Texts [44.626645471195495]
著者がレビューと修正を行うためのドラフト文書全体を生成する新しいタスクである文書スケッチを導入する。これらのドラフトは、コンテンツのばらつきながら、形式的に重複するドキュメントのセット - 潜在的に再利用可能なテキストの大きなセグメントを共有する - から作成されます。本研究は,変圧器を用いた専門家の混合と強化学習の併用を含む,弱教師付き手法の適用について検討する。
論文参考訳（メタデータ） (2021-06-14T06:46:06Z)
Aspect-based Document Similarity for Research Papers [4.661692753666685]
文書分類タスクのペア化によってアスペクト情報との類似性を拡張する。研究論文のアスペクトベースの文書類似性を評価する。以上の結果から,SciBERTは最高の演奏システムであることがわかった。
論文参考訳（メタデータ） (2020-10-13T13:51:21Z)
Leveraging Graph to Improve Abstractive Multi-Document Summarization [50.62418656177642]
我々は、文書のよく知られたグラフ表現を活用することができる、抽象的多文書要約(MDS)モデルを開発する。本モデルでは,長い文書の要約に欠かせない文書間関係を捉えるために,文書の符号化にグラフを利用する。また,このモデルでは,要約生成プロセスの導出にグラフを利用することが可能であり,一貫性と簡潔な要約を生成するのに有用である。
論文参考訳（メタデータ） (2020-05-20T13:39:47Z)
Explaining Relationships Between Scientific Documents [55.23390424044378]
本稿では,2つの学術文書間の関係を自然言語テキストを用いて記述する課題に対処する。本稿では154K文書から622Kサンプルのデータセットを作成する。
論文参考訳（メタデータ） (2020-02-02T03:54:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。