論文の概要: Wikiformer: Pre-training with Structured Information of Wikipedia for
Ad-hoc Retrieval
- arxiv url: http://arxiv.org/abs/2312.10661v1
- Date: Sun, 17 Dec 2023 09:31:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 15:06:25.138798
- Title: Wikiformer: Pre-training with Structured Information of Wikipedia for
Ad-hoc Retrieval
- Title(参考訳): Wikiformer: アドホック検索のためのウィキペディアの構造化情報による事前トレーニング
- Authors: Weihang Su, Qingyao Ai, Xiangsheng Li, Jia Chen, Yiqun Liu, Xiaolong
Wu, Shengluan Hou
- Abstract要約: 本稿では,ウィキペディアの構造的知識に基づいて,情報検索タスクに適した4つの事前学習目標を考案する。
既存の事前学習手法と比較して,本手法はトレーニングコーパスにおける意味的知識をよりよく捉えることができる。
生物医学・法学領域における実験結果から,本手法は垂直領域において優れた性能を発揮することが示された。
- 参考スコア(独自算出の注目度): 21.262531222066208
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the development of deep learning and natural language processing
techniques, pre-trained language models have been widely used to solve
information retrieval (IR) problems. Benefiting from the pre-training and
fine-tuning paradigm, these models achieve state-of-the-art performance. In
previous works, plain texts in Wikipedia have been widely used in the
pre-training stage. However, the rich structured information in Wikipedia, such
as the titles, abstracts, hierarchical heading (multi-level title) structure,
relationship between articles, references, hyperlink structures, and the
writing organizations, has not been fully explored. In this paper, we devise
four pre-training objectives tailored for IR tasks based on the structured
knowledge of Wikipedia. Compared to existing pre-training methods, our approach
can better capture the semantic knowledge in the training corpus by leveraging
the human-edited structured data from Wikipedia. Experimental results on
multiple IR benchmark datasets show the superior performance of our model in
both zero-shot and fine-tuning settings compared to existing strong retrieval
baselines. Besides, experimental results in biomedical and legal domains
demonstrate that our approach achieves better performance in vertical domains
compared to previous models, especially in scenarios where long text similarity
matching is needed.
- Abstract(参考訳): ディープラーニングと自然言語処理技術の発展により、事前学習言語モデルは情報検索(IR)問題を解決するために広く利用されている。
事前訓練と微調整のパラダイムから恩恵を受け、これらのモデルは最先端のパフォーマンスを達成する。
以前の作品では、ウィキペディアのプレーンテキストは事前学習段階で広く使用されている。
しかし、ウィキペディアの豊富な構造化情報(タイトル、抽象論、階層的見出し(複数階層的タイトル)構造、記事間の関係、参照、ハイパーリンク構造、執筆組織など)は、完全には調査されていない。
本稿では,ウィキペディアの構造的知識に基づいて,IRタスクに適した4つの事前学習目標を考案する。
既存の事前学習手法と比較して,本手法は,ウィキペディアの人文による構造化データを活用することにより,トレーニングコーパスにおける意味的知識をよりよく捉えることができる。
複数のIRベンチマークデータセットに対する実験結果から,既存の強力な検索ベースラインと比較して,ゼロショットと微調整の両方でモデルの性能が優れていることがわかった。
さらに, 生物医学的, 法学的な領域における実験結果から, 従来のモデルと比較して, 垂直領域では, 特に長文類似性マッチングが必要なシナリオでは, 精度が向上することが示された。
関連論文リスト
- End-to-End Ontology Learning with Large Language Models [11.755755139228219]
大規模言語モデル(LLM)は、オントロジー学習の様々なサブタスクを解決するために応用されている。
我々は、オントロジーの分類学的バックボーンをスクラッチから構築する汎用的でスケーラブルな方法であるOLLMによって、このギャップに対処する。
標準的なメトリクスとは対照的に、私たちのメトリクスは、グラフ間のより堅牢な構造的距離測定を定義するためにディープラーニング技術を使用します。
私たちのモデルは、arXivのような新しいドメインに効果的に適用できます。
論文 参考訳(メタデータ) (2024-10-31T02:52:39Z) - ATLANTIC: Structure-Aware Retrieval-Augmented Language Model for
Interdisciplinary Science [0.0]
大きな言語モデルは、多くの自然言語処理タスクで印象的なパフォーマンスを記録します。
Retrieval augmentationは、外部の知識ソースからコンテキストを取得することで、効果的なソリューションを提供する。
本稿では,検索強化時に文書構造に対応する構造対応検索言語モデルを提案する。
論文 参考訳(メタデータ) (2023-11-21T02:02:46Z) - Unifying Structure and Language Semantic for Efficient Contrastive
Knowledge Graph Completion with Structured Entity Anchors [0.3913403111891026]
知識グラフ補完(KGC)の目標は、すでに知られている訓練された事実を用いて、KGの欠落したリンクを予測することである。
本稿では,帰納的推論の力を失うことなく,構造情報と言語意味を効果的に統一する手法を提案する。
論文 参考訳(メタデータ) (2023-11-07T11:17:55Z) - Pre-Training to Learn in Context [138.0745138788142]
言語モデルが文脈で学習するために明示的に訓練されていないため、コンテキスト内学習の能力は十分に活用されていない。
In-Context Learning のための PICL (Pre-training for In-Context Learning) を提案する。
実験の結果,PICLはベースラインよりも効率が高く,タスクの汎用性が高く,約4倍のパラメータを持つ言語モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-05-16T03:38:06Z) - KEPLET: Knowledge-Enhanced Pretrained Language Model with Topic Entity
Awareness [12.90996504014071]
Topicエンティティ認識を備えた知識強化型LanguagEモデルKEPLETを提案する。
エンドツーエンドの方法で、KEPLETはトピックエンティティの情報をWikipediaの文に追加する場所を特定する。
2つの代表KEPLMに適用したKePLETの一般性と優越性を示す実験を行った。
論文 参考訳(メタデータ) (2023-05-02T22:28:26Z) - Domain-Specific Word Embeddings with Structure Prediction [3.057136788672694]
ニューヨーク・タイムズの記事と2つの英語のウィキペディアデータセットに科学と哲学に関する記事を載せた実証的な評価を提示する。
提案手法は,Word2Vec with Structure Prediction (W2VPred) と呼ばれ,一般的なアナロジーテストにおいて,ベースラインよりも優れた性能を提供する。
デジタル人文科学の分野でのユースケースとして、ドイツ語テキストアーカイブからハイ文学のための新しい研究課題を提起する方法を実証する。
論文 参考訳(メタデータ) (2022-10-06T12:45:48Z) - Joint Language Semantic and Structure Embedding for Knowledge Graph
Completion [66.15933600765835]
本稿では,知識三重項の自然言語記述と構造情報とを共同で組み込むことを提案する。
本手法は,学習済み言語モデルを微調整することで,完了作業のための知識グラフを埋め込む。
各種知識グラフベンチマーク実験により,本手法の最先端性能を実証した。
論文 参考訳(メタデータ) (2022-09-19T02:41:02Z) - CorpusBrain: Pre-train a Generative Retrieval Model for
Knowledge-Intensive Language Tasks [62.22920673080208]
単一ステップ生成モデルは、検索プロセスを劇的に単純化し、エンドツーエンドで最適化することができる。
我々は、事前学習された生成検索モデルをCorpsBrainと名付け、コーパスに関する全ての情報が、追加のインデックスを構築することなく、そのパラメータにエンコードされる。
論文 参考訳(メタデータ) (2022-08-16T10:22:49Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - Pre-training Language Model Incorporating Domain-specific Heterogeneous Knowledge into A Unified Representation [49.89831914386982]
本研究では, 構造化されていないテキスト, 半構造化されたテキスト, 十分に構造化されたテキストを含む, あらゆる形式のテキストに対して, 統一された事前学習言語モデル (PLM) を提案する。
提案手法は,データの1/4のみを用いて,プレーンテキストの事前学習に優れる。
論文 参考訳(メタデータ) (2021-09-02T16:05:24Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。