論文の概要: LRG at TREC 2020: Document Ranking with XLNet-Based Models
- arxiv url: http://arxiv.org/abs/2103.00380v1
- Date: Sun, 28 Feb 2021 03:04:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-03 17:07:00.456761
- Title: LRG at TREC 2020: Document Ranking with XLNet-Based Models
- Title(参考訳): LRG at TREC 2020: Document Ranking with XLNet-based Models
- Authors: Abheesht Sharma and Harshit Pandey
- Abstract要約: すべてのポッドキャストを持つ与えられたデータセットから最も関連性の高い短いセグメントを見つけるための説明付きのユーザーのクエリが与えられます。
古典的情報検索(IR)技術のみを含む従来の手法では、記述的なクエリが提示された場合、性能が低下する。
従来のIR技術でユーザからの問い合わせに基づいて最適なポッドキャストをフィルタリングし、詳細な説明に基づいてショートリストのドキュメントを再ランク付けする2つのハイブリッドモデルを試みます。
- 参考スコア(独自算出の注目度): 0.9023847175654602
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Establishing a good information retrieval system in popular mediums of
entertainment is a quickly growing area of investigation for companies and
researchers alike. We delve into the domain of information retrieval for
podcasts. In Spotify's Podcast Challenge, we are given a user's query with a
description to find the most relevant short segment from the given dataset
having all the podcasts. Previous techniques that include solely classical
Information Retrieval (IR) techniques, perform poorly when descriptive queries
are presented. On the other hand, models which exclusively rely on large neural
networks tend to perform better. The downside to this technique is that a
considerable amount of time and computing power are required to infer the
result. We experiment with two hybrid models which first filter out the best
podcasts based on user's query with a classical IR technique, and then perform
re-ranking on the shortlisted documents based on the detailed description using
a transformer-based model.
- Abstract(参考訳): 人気のあるエンターテインメント媒体で優れた情報検索システムを確立することは、企業や研究者にとっても急速に成長している調査分野です。
私たちはポッドキャストの情報検索の領域を掘り下げます。
SpotifyのPodcast Challengeでは、すべてのポッドキャストを持つ特定のデータセットから最も関連する短いセグメントを見つけるための説明付きのユーザーのクエリが与えられています。
古典的情報検索(IR)技術のみを含む従来の手法では、記述的なクエリが提示された場合、性能が低下する。
一方、大規模ニューラルネットワークにのみ依存するモデルは、パフォーマンスが向上する傾向にある。
この手法の欠点は、結果を推測するためにかなりの時間と計算能力が必要であることである。
従来のIR技術を用いて,ユーザからの問い合わせに基づいてベストなポッドキャストをフィルタリングし,トランスベースモデルを用いて詳細記述に基づくショートリスト文書を再ランク付けする2つのハイブリッドモデルを実験した。
関連論文リスト
- Generative Pre-trained Ranking Model with Over-parameterization at Web-Scale (Extended Abstract) [73.57710917145212]
ランク付け学習は、入力クエリに基づいて関連するWebページを優先順位付けするために、Web検索で広く使われている。
本稿では,これらの課題に対処するために,経験的 UlineSemi-uline Supervised ulinePre-trained (GS2P) モデルを提案する。
我々は,公開データセットと大規模検索エンジンから収集した実世界のデータセットの両方に対して,大規模なオフライン実験を行う。
論文 参考訳(メタデータ) (2024-09-25T03:39:14Z) - SPRINT: A Unified Toolkit for Evaluating and Demystifying Zero-shot
Neural Sparse Retrieval [92.27387459751309]
ニューラルスパース検索を評価するための統一PythonツールキットであるSPRINTを提供する。
我々は、よく認識されているベンチマークBEIRにおいて、強く再現可能なゼロショットスパース検索ベースラインを確立する。
SPLADEv2は、元のクエリとドキュメントの外で、ほとんどのトークンでスパース表現を生成する。
論文 参考訳(メタデータ) (2023-07-19T22:48:02Z) - Incorporating Relevance Feedback for Information-Seeking Retrieval using
Few-Shot Document Re-Ranking [56.80065604034095]
我々は,クエリとユーザが関連すると考えるドキュメントとの類似性に基づいて,文書を再参照するkNNアプローチを提案する。
異なる統合戦略を評価するため、既存の4つの情報検索データセットを関連フィードバックシナリオに変換する。
論文 参考訳(メタデータ) (2022-10-19T16:19:37Z) - Generate rather than Retrieve: Large Language Models are Strong Context
Generators [74.87021992611672]
本稿では,文書検索を大規模言語モデル生成器に置き換えることで,知識集約型タスクを解く新しい視点を提案する。
我々は,提案手法をgenRead (genRead) と呼び,まず大きな言語モデルに対して,与えられた質問に基づいて文脈文書を生成し,次に生成された文書を読み出して最終回答を生成する。
論文 参考訳(メタデータ) (2022-09-21T01:30:59Z) - CorpusBrain: Pre-train a Generative Retrieval Model for
Knowledge-Intensive Language Tasks [62.22920673080208]
単一ステップ生成モデルは、検索プロセスを劇的に単純化し、エンドツーエンドで最適化することができる。
我々は、事前学習された生成検索モデルをCorpsBrainと名付け、コーパスに関する全ての情報が、追加のインデックスを構築することなく、そのパラメータにエンコードされる。
論文 参考訳(メタデータ) (2022-08-16T10:22:49Z) - Topic Modeling on Podcast Short-Text Metadata [0.9539495585692009]
短いテキストのモデリング技術を用いて,ポッドキャストのメタデータやタイトル,記述から関連トピックを発見できる可能性を評価する。
非負行列因子化モデリングフレームワークにおいて、しばしばポッドキャストメタデータに現れる名前付きエンティティ(NE)に対する新しい戦略を提案する。
SpotifyとiTunesとDeezerの既存の2つのデータセットに対する実験により、提案したドキュメント表現であるNEiCEがベースラインの一貫性を改善していることが示された。
論文 参考訳(メタデータ) (2022-01-12T11:07:05Z) - Spotify at TREC 2020: Genre-Aware Abstractive Podcast Summarization [4.456617185465443]
この挑戦の目的は、ポッドキャストエピソードに存在する重要な情報を含む短く有益な要約を生成することでした。
ジャンルと名前付きエンティティを明確に考慮した2つの要約モデルを提案する。
我々のモデルは抽象的であり、創造者が提供する記述を根拠となる真実の要約として利用している。
論文 参考訳(メタデータ) (2021-04-07T18:27:28Z) - PodSumm -- Podcast Audio Summarization [0.0]
テキストドメインからのガイダンスを用いて,ポッドキャストの要約を自動的に作成する手法を提案する。
このタスクにはデータセットが不足しているため、内部データセットをキュレートし、データ拡張の効果的なスキームを見つけ、アノテータから要約を集めるためのプロトコルを設計する。
本手法は, ROUGE-F(1/2/L) スコア0.63/0.53/0.63をデータセット上で達成する。
論文 参考訳(メタデータ) (2020-09-22T04:49:33Z) - A Baseline Analysis for Podcast Abstractive Summarization [18.35061145103997]
本稿では,Spotify Podcastデータセットを用いたポッドキャスト要約のベースライン解析について述べる。
研究者が現在の最先端の事前訓練モデルを理解するのを助け、より良いモデルを作るための基盤を構築することを目的としている。
論文 参考訳(メタデータ) (2020-08-24T18:38:42Z) - Query Resolution for Conversational Search with Limited Supervision [63.131221660019776]
本稿では,双方向トランスフォーマに基づくニューラルクエリ解決モデルQuReTeCを提案する。
我々はQuReTeCが最先端モデルより優れており、また、QuReTeCのトレーニングに必要な人為的なデータ量を大幅に削減するために、我々の遠隔監視手法が有効であることを示す。
論文 参考訳(メタデータ) (2020-05-24T11:37:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。