Fugu-MT 論文翻訳(概要): Pairwise Multi-Class Document Classification for Semantic Relations between Wikipedia Articles

論文の概要: Pairwise Multi-Class Document Classification for Semantic Relations between Wikipedia Articles

arxiv url: http://arxiv.org/abs/2003.09881v1
Date: Sun, 22 Mar 2020 12:52:56 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-21 05:51:40.119482
Title: Pairwise Multi-Class Document Classification for Semantic Relations between Wikipedia Articles
Title（参考訳）: ウィキペディア記事間のセマンティック関係のためのペアワイズ多クラス文書分類
Authors: Malte Ostendorff, Terry Ruas, Moritz Schubotz, Georg Rehm, Bela Gipp
Abstract要約: 2つの文書間の関係をペアワイズ文書分類タスクとして検索する問題をモデル化する。文書間の意味的関係を見つけるために,GloVe, paragraph-s,BERT,XLNetなどの一連の手法を適用する。我々は,新たに提案された32,168のウィキペディア記事ペアと,セマンティックドキュメントの関係を定義するウィキデータプロパティに関する実験を行った。
参考スコア（独自算出の注目度）: 5.40541521227338
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Many digital libraries recommend literature to their users considering the similarity between a query document and their repository. However, they often fail to distinguish what is the relationship that makes two documents alike. In this paper, we model the problem of finding the relationship between two documents as a pairwise document classification task. To find the semantic relation between documents, we apply a series of techniques, such as GloVe, Paragraph-Vectors, BERT, and XLNet under different configurations (e.g., sequence length, vector concatenation scheme), including a Siamese architecture for the Transformer-based systems. We perform our experiments on a newly proposed dataset of 32,168 Wikipedia article pairs and Wikidata properties that define the semantic document relations. Our results show vanilla BERT as the best performing system with an F1-score of 0.93, which we manually examine to better understand its applicability to other domains. Our findings suggest that classifying semantic relations between documents is a solvable task and motivates the development of recommender systems based on the evaluated techniques. The discussions in this paper serve as first steps in the exploration of documents through SPARQL-like queries such that one could find documents that are similar in one aspect but dissimilar in another.
Abstract（参考訳）: 多くのデジタルライブラリは、クエリドキュメントとリポジトリの類似性を考慮した文献をユーザに推奨している。しかし、2つの文書を類似させる関係を区別できないことが多い。本稿では,2つの文書間の関係をペアワイズ文書分類タスクとして求める問題をモデル化する。文書間の意味的関係を求めるために,グラブ,段落ベクトル,bert,xlnet などの手法を,トランスフォーマー系システムのための siamese アーキテクチャを含む,異なる構成(シーケンス長,ベクトル連結スキームなど)で適用する。我々は,新たに提案された32,168のウィキペディア記事ペアと,セマンティックドキュメントの関係を定義するウィキデータプロパティに関する実験を行った。以上の結果から,バニラBERTはF1スコア0.93の最高の演奏システムであり,他の領域への適用性について手作業で検討した。その結果,文書間の意味関係の分類は解決可能な課題であり,評価手法に基づくレコメンダシステムの開発が動機であることが示唆された。本稿では、SPARQLのようなクエリを使って文書を探索する最初のステップとして、ある点で類似しているが別の面では異なっていた文書を見つけることができる。

関連論文リスト

MoDora: Tree-Based Semi-Structured Document Analysis System [62.01015188258797]
半構造化文書は、様々な不規則なレイアウトで配置された様々なインターリーブされたデータ要素を統合する。 MoDora は半構造化文書解析のための LLM を利用したシステムである。実験では、MoDoraは5.97%-61.07%の精度でベースラインを上回っている。
論文参考訳（メタデータ） (2026-02-26T14:48:49Z)
TCDE: Topic-Centric Dual Expansion of Queries and Documents with Large Language Models for Information Retrieval [9.300741539959278]
クエリとドキュメントの両方でトピック中心のエンリッチメントを実現するために,大規模言語モデルを活用する2つの拡張戦略であるTCDEを提案する。 TCDEでは、各クエリとドキュメントを処理するための2つの異なるプロンプトテンプレートを設計する。クエリ側では、各クエリ内で異なるサブトピックを識別し、各サブトピックに注目する擬似ドキュメントを生成する。 TREC Deep LearningとBEIRという2つの挑戦的なベンチマークの実験は、TCDEが最先端の強力な拡張ベースラインよりも大幅に改善されていることを実証している。
論文参考訳（メタデータ） (2025-12-19T01:57:17Z)
Hierarchical Retrieval: The Geometry and a Pretrain-Finetune Recipe [42.35197658021889]
一致するクエリとドキュメントのペアを類似したベクトル表現に埋め込んだデュアルエンコーダ(DE)モデルは、情報検索に広く利用されている。本稿では,階層的検索(HR)の文脈において,文書集合が階層構造を持ち,クエリに適合する文書がすべてその祖先であるような制約について検討する。近い文書の性能を犠牲にすることなく、長距離検索を大幅に改善するプレトレインファインチューンレシピを提案する。
論文参考訳（メタデータ） (2025-09-19T20:35:58Z)
ABCD-LINK: Annotation Bootstrapping for Cross-Document Fine-Grained Links [57.514511353084565]
我々は、最高のパフォーマンスのアプローチを選択し、文書間リンクに注釈を付けるための新しいドメインに依存しないフレームワークを提案する。当社のフレームワークを2つの異なるドメイン – ピアレビューとニュース – に適用しています。結果として得られた新しいデータセットは、メディアフレーミングやピアレビューなど、数多くのクロスドキュメントタスクの基礎を築いた。
論文参考訳（メタデータ） (2025-09-01T11:32:24Z)
Extracting Document Relations from Search Corpus by Marginalizing over User Queries [0.0]
本稿では,クエリ境界化による文書関係の発見を行う新しいフレームワークを提案する。ユーザクエリに対するMarginalizingによるドキュメント関係の抽出は、強く関連するドキュメントが多種多様なユーザクエリで共起する、という洞察に基づいている。私たちのクエリ駆動フレームワークは、異なるユーザ視点と情報ニーズに適応するドキュメント組織に対して、実践的なアプローチを提供します。
論文参考訳（メタデータ） (2025-07-14T18:47:13Z)
Subtopic-aware View Sampling and Temporal Aggregation for Long-form Document Matching [34.81690842091582]
長文文書マッチングは、2つの文書間の関係を判断することを目的としている。代表的マッチング信号のモデル化のための新しいフレームワークを提案する。我々の学習フレームワークは,ニュース重複や判例検索など,いくつかの文書マッチング作業に有効である。
論文参考訳（メタデータ） (2024-12-10T15:06:48Z)
Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文参考訳（メタデータ） (2024-10-03T14:33:34Z)
Generative Retrieval Meets Multi-Graded Relevance [104.75244721442756]
GRADed Generative Retrieval (GR$2$)というフレームワークを紹介します。 GR$2$は2つの重要なコンポーネントに焦点を当てている。マルチグレードとバイナリの関連性を持つデータセットの実験は,GR$2$の有効性を示した。
論文参考訳（メタデータ） (2024-09-27T02:55:53Z)
PDFTriage: Question Answering over Long, Structured Documents [60.96667912964659]
構造化文書をプレーンテキストとして表現することは、これらの文書をリッチな構造でユーザ精神モデルと矛盾する。本稿では,構造や内容に基づいて,モデルがコンテキストを検索できるPDFTriageを提案する。ベンチマークデータセットは,80以上の構造化文書に900以上の人間が生成した質問からなる。
論文参考訳（メタデータ） (2023-09-16T04:29:05Z)
DAPR: A Benchmark on Document-Aware Passage Retrieval [57.45793782107218]
我々は,このタスクemphDocument-Aware Passage Retrieval (DAPR)を提案する。 State-of-The-Art(SoTA)パスレトリバーのエラーを分析しながら、大きなエラー(53.5%)は文書コンテキストの欠如に起因する。提案するベンチマークにより,検索システムの開発・比較を今後行うことができる。
論文参考訳（メタデータ） (2023-05-23T10:39:57Z)
Cross-Modal Entity Matching for Visually Rich Documents [4.8119678510491815]
視覚的にリッチなドキュメントは、視覚的な手がかりを使ってセマンティクスを強化します。これらのドキュメントの構造化クエリを可能にする既存の作業は、これを考慮に入れない。この制限に対処するクロスモーダルなエンティティマッチングフレームワークであるJunoを提案する。
論文参考訳（メタデータ） (2023-03-01T18:26:14Z)
CAPSTONE: Curriculum Sampling for Dense Retrieval with Document Expansion [68.19934563919192]
本稿では,学習中に擬似クエリを利用して,生成したクエリと実際のクエリとの関係を徐々に向上させるカリキュラムサンプリング戦略を提案する。ドメイン内およびドメイン外両方のデータセットに対する実験結果から,本手法が従来の高密度検索モデルより優れていることが示された。
論文参考訳（メタデータ） (2022-12-18T15:57:46Z)
Learning Diverse Document Representations with Deep Query Interactions for Dense Retrieval [79.37614949970013]
そこで本研究では,問合せの深い文書表現を学習する高密度検索モデルを提案する。本モデルでは,各文書に生成した擬似クエリをエンコードして,クエリインフォームド・マルチビュー文書表現を得る。
論文参考訳（メタデータ） (2022-08-08T16:00:55Z)
Specialized Document Embeddings for Aspect-based Similarity of Research Papers [4.661692753666685]
アスペクトベースの類似性は、アスペクト固有の埋め込み空間における古典的ベクトル類似性問題として扱う。文書は単一の汎用的な埋め込みではなく、複数の専門的な埋め込みとして表現する。当社のアプローチは、暗黙の偏見から生じる潜在的なリスクを明確化することで軽減します。
論文参考訳（メタデータ） (2022-03-28T07:35:26Z)
Aspect-based Document Similarity for Research Papers [4.661692753666685]
文書分類タスクのペア化によってアスペクト情報との類似性を拡張する。研究論文のアスペクトベースの文書類似性を評価する。以上の結果から,SciBERTは最高の演奏システムであることがわかった。
論文参考訳（メタデータ） (2020-10-13T13:51:21Z)
Document Network Projection in Pretrained Word Embedding Space [7.455546102930911]
本稿では,リンクされた文書の集合を事前学習した単語埋め込み空間に投影する新しい手法である正規化線形埋め込み(RLE)を提案する。我々は相補的な情報を提供するペアワイズ類似性の行列を利用する(例えば、引用グラフ内の2つの文書のネットワーク近接)。ドキュメント表現は、レコメンデーション、分類、クラスタリングなど、多くの情報検索タスクを解決するのに役立つ。
論文参考訳（メタデータ） (2020-01-16T10:16:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。