論文の概要: IR-BERT: Leveraging BERT for Semantic Search in Background Linking for
News Articles
- arxiv url: http://arxiv.org/abs/2007.12603v1
- Date: Fri, 24 Jul 2020 16:02:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-07 06:56:35.149771
- Title: IR-BERT: Leveraging BERT for Semantic Search in Background Linking for
News Articles
- Title(参考訳): IR-BERT:ニュース記事の背景リンクにおけるセマンティック検索のためのBERTの利用
- Authors: Anup Anand Deshmukh and Udhav Sethi
- Abstract要約: 本稿では,TREC 2020 News Trackの背景リンクタスクに対する2つのアプローチについて述べる。
このタスクの主な目的は、読者がコンテキストを理解するために参照すべき関連記事のリストを推薦することである。
言語モデルの導入は、クエリ記事の背景だけでなく、コンテキストを理解する上でも、私たちのアプローチに有効であることを実証的に示します。
- 参考スコア(独自算出の注目度): 2.707154152696381
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work describes our two approaches for the background linking task of
TREC 2020 News Track. The main objective of this task is to recommend a list of
relevant articles that the reader should refer to in order to understand the
context and gain background information of the query article. Our first
approach focuses on building an effective search query by combining weighted
keywords extracted from the query document and uses BM25 for retrieval. The
second approach leverages the capability of SBERT (Nils Reimers et al.) to
learn contextual representations of the query in order to perform semantic
search over the corpus. We empirically show that employing a language model
benefits our approach in understanding the context as well as the background of
the query article. The proposed approaches are evaluated on the TREC 2018
Washington Post dataset and our best model outperforms the TREC median as well
as the highest scoring model of 2018 in terms of the nDCG@5 metric. We further
propose a diversity measure to evaluate the effectiveness of the various
approaches in retrieving a diverse set of documents. This would potentially
motivate researchers to work on introducing diversity in their recommended
list. We have open sourced our implementation on Github and plan to submit our
runs for the background linking task in TREC 2020.
- Abstract(参考訳): 本稿では,TREC 2020 News Trackの背景リンクタスクに対する2つのアプローチについて述べる。
本課題の主な目的は,クエリ項目のコンテキストを理解し,背景情報を取得するために,読者が参照すべき関連記事のリストを推薦することである。
最初のアプローチは、クエリ文書から抽出した重み付きキーワードを組み合わせ、BM25を検索に利用する、効果的な検索クエリの構築に焦点を当てる。
2つ目のアプローチは、SBERT(Nils Reimers et al.)の機能を利用して、クエリのコンテキスト表現を学習し、コーパス上でセマンティック検索を実行する。
経験的に、言語モデルを採用することは、クエリ記事の背景だけでなく、コンテキストを理解するための我々のアプローチに有益であることを示します。
提案手法は、TREC 2018 Washington Postデータセットで評価され、私たちの最良のモデルは、nDCG@5メートル法で2018年の最高スコアモデルとTRECの中央値よりも優れています。
さらに,多様な文書を検索する際の様々な手法の有効性を評価するための多様性尺度を提案する。
これは、研究者が推奨リストに多様性を導入する動機になる可能性がある。
私たちはgithubで実装をオープンソース化し、trec 2020でバックグラウンドリンクタスクの実行を提出する予定です。
関連論文リスト
- Multi-Modal Retrieval For Large Language Model Based Speech Recognition [15.494654232953678]
我々は,kNN-LMとクロスアテンション手法の2つのアプローチによるマルチモーダル検索を提案する。
音声に基づくマルチモーダル検索はテキストベースの検索よりも優れていることを示す。
我々は,Spoken-Squad質問応答データセットを用いて,最先端の認識結果を得る。
論文 参考訳(メタデータ) (2024-06-13T22:55:22Z) - Cross-lingual Contextualized Phrase Retrieval [63.80154430930898]
そこで本研究では,言語間関係の単語検索を多義的に行うタスクの定式化を提案する。
我々は、コントラスト学習を用いて、言語間コンテクスト対応句検索(CCPR)を訓練する。
フレーズ検索タスクでは、CCPRはベースラインをかなり上回り、少なくとも13ポイント高いトップ1の精度を達成する。
論文 参考訳(メタデータ) (2024-03-25T14:46:51Z) - Leveraging Translation For Optimal Recall: Tailoring LLM Personalization
With User Profiles [0.0]
本稿では,言語間情報検索システムにおけるリコール改善のための新しい手法について検討する。
提案手法は,マルチレベル翻訳,セマンティック埋め込みに基づく拡張,ユーザプロファイル中心の拡張を組み合わせた手法である。
ニュースとTwitterデータセットの実験では、ベースラインBM25ランキングよりも優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-02-21T03:25:14Z) - Query Rewriting for Retrieval-Augmented Large Language Models [139.242907155883]
大規模言語モデル(LLM)は、検索対象のパイプラインで強力なブラックボックスリーダーを動作させる。
この作業では、検索拡張LDMに対する以前の検索テーマ読み込みの代わりに、新しいフレームワークであるRewrite-Retrieve-Readを導入する。
論文 参考訳(メタデータ) (2023-05-23T17:27:50Z) - Zero-Shot Listwise Document Reranking with a Large Language Model [58.64141622176841]
本稿では,タスク固有の学習データを用いることなく,言語モデル(LRL)を用いたリスワイズ・リランカを提案する。
3つのTRECウェブサーチデータセットの実験により、LRLは第1段検索結果の再ランク付け時にゼロショットポイントワイズ法より優れるだけでなく、最終段再ランカとしても機能することが示された。
論文 参考訳(メタデータ) (2023-05-03T14:45:34Z) - Simple Yet Effective Neural Ranking and Reranking Baselines for
Cross-Lingual Information Retrieval [50.882816288076725]
言語間情報検索は、ある言語で文書を検索し、別の言語でクエリーを検索するタスクである。
本研究では,多段階アーキテクチャを用いた言語横断検索のための異なるアプローチを体系化するための概念的枠組みを提案する。
我々は、ペルシア、ロシア、中国のTREC 2022 NeuCLIRトラックから収集したテストコレクションに対して、Anserini IRツールキットとPyserini IRツールキットに単純かつ効果的に再現可能なベースラインを実装した。
論文 参考訳(メタデータ) (2023-04-03T14:17:00Z) - Query Expansion Using Contextual Clue Sampling with Language Models [69.51976926838232]
本稿では,実効的なフィルタリング戦略と検索した文書の融合の組み合わせを,各文脈の生成確率に基づいて提案する。
我々の語彙マッチングに基づくアプローチは、よく確立された高密度検索モデルDPRと比較して、同様のトップ5/トップ20検索精度と上位100検索精度を実現する。
エンド・ツー・エンドのQAでは、読者モデルも我々の手法の恩恵を受けており、いくつかの競争基準に対してエクサクト・マッチのスコアが最も高い。
論文 参考訳(メタデータ) (2022-10-13T15:18:04Z) - ArgFuse: A Weakly-Supervised Framework for Document-Level Event Argument
Aggregation [9.56216681584111]
情報集約(Information Aggregation)やArgument Aggregation(Argument Aggregation)というタスクを導入する。
我々の目的は、文レベルで抽出された無関係で冗長な引数の言及をフィルタリングし、文書レベルの情報フレームを描画することである。
低リソース環境下で効率的に動作するために,能動的学習戦略を採用する複数のシーブを持つ抽出アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-21T05:21:27Z) - Query Understanding via Intent Description Generation [75.64800976586771]
問合せ理解のためのQ2ID(Query-to-Intent-Description)タスクを提案する。
クエリとその記述を利用してドキュメントの関連性を計算する既存のランキングタスクとは異なり、Q2IDは自然言語のインテント記述を生成するための逆タスクである。
Q2IDタスクにおける複数の最先端生成モデルとの比較により,本モデルの有効性を実証する。
論文 参考訳(メタデータ) (2020-08-25T08:56:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。