論文の概要: Understanding Performance of Long-Document Ranking Models through
Comprehensive Evaluation and Leaderboarding
- arxiv url: http://arxiv.org/abs/2207.01262v1
- Date: Mon, 4 Jul 2022 08:54:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-05 15:46:23.241763
- Title: Understanding Performance of Long-Document Ranking Models through
Comprehensive Evaluation and Leaderboarding
- Title(参考訳): 包括的評価とリーダーシップによる長期文書ランキングモデルの性能理解
- Authors: Leonid Boytsov, Tianyi Lin, Fangwei Gao, Yutian Zhao, Jeffrey Huang,
Eric Nyberg
- Abstract要約: 我々は2つの一般的なコレクション(MS MARCO 文書と Robust04)を用いて、長い文書のランク付けのための13の最新のモデルを評価する。
単純なFirstPベースライン(典型的トランスフォーマーモデルの入力シーケンス制約を満たすために文書をトランケートする)は非常に効果的である。
我々は,ロバスト04とMS MARCOの文書が広く使用されているにもかかわらず,長期文書モデルのベンチマークには特に有用ではないと主張している。
- 参考スコア(独自算出の注目度): 11.25399488981492
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We carry out a comprehensive evaluation of 13 recent models for ranking of
long documents using two popular collections (MS MARCO documents and Robust04).
Our model zoo includes two specialized Transformer models (such as Longformer)
that can process long documents without the need to split them. Along the way,
we document several difficulties regarding training and comparing such models.
Somewhat surprisingly, we find the simple FirstP baseline (truncating documents
to satisfy the input-sequence constraint of a typical Transformer model) to be
quite effective. We analyze the distribution of relevant passages (inside
documents) to explain this phenomenon. We further argue that, despite their
widespread use, Robust04 and MS MARCO documents are not particularly useful for
benchmarking of long-document models.
- Abstract(参考訳): 2つの人気コレクション(ms marco文書とロバスト04)を用いて,最近の13種類の長文分類モデルの包括的評価を行った。
私たちのモデル動物園には、2つの特殊なTransformerモデル(Longformerなど)が含まれています。
その過程で,これらのモデルの学習と比較に関するいくつかの困難を文書化する。
意外なことに、単純なFirstPベースライン(典型的なTransformerモデルの入力シーケンス制約を満たすためにドキュメントをトランクする)は非常に効果的である。
この現象を説明するために,関連文(文書内)の分布を分析する。
また,ロバスト04とMS MARCOの文書は広く使用されているが,長期文書モデルのベンチマークには特に有用ではない。
関連論文リスト
- Long-Range Transformer Architectures for Document Understanding [1.9331361036118608]
Document Understanding (DU)は、2019年後半のDUの最初のTransformerベースのモデルで残されたものではなかった。
本稿では,2つの新しいマルチモーダル(テキスト+レイアウト)長範囲モデルを提案する。
相対的な2次元の注意は、正規および長距離の両方のモデルにおいて高密度テキストに有効であることが判明した。
論文 参考訳(メタデータ) (2023-09-11T14:45:24Z) - Peek Across: Improving Multi-Document Modeling via Cross-Document
Question-Answering [49.85790367128085]
我々は,事前学習対象に答える新しいクロスドキュメント質問から,汎用的なマルチドキュメントモデルを事前学習する。
この新規なマルチドキュメントQA定式化は、クロステキスト情報関係をよりよく回復させるようモデルに指示する。
分類タスクや要約タスクに焦点を当てた従来のマルチドキュメントモデルとは異なり、事前学習対象の定式化により、短いテキスト生成と長いテキスト生成の両方を含むタスクを実行できる。
論文 参考訳(メタデータ) (2023-05-24T17:48:40Z) - Transformer-based Models for Long-Form Document Matching: Challenges and
Empirical Analysis [12.269318291685753]
単純なニューラルネットワークは、より複雑なBERTベースのモデルよりも優れていることを示す。
単純なモデルは、文書の長さやテキストの摂動のバリエーションに対して、より堅牢である。
論文 参考訳(メタデータ) (2023-02-07T21:51:05Z) - DSI++: Updating Transformer Memory with New Documents [95.70264288158766]
DSI++は、DSIが新たなドキュメントをインクリメンタルにインデクシングするための継続的な学習課題である。
新たな文書の連続的な索引付けは,それまでの索引付け文書をかなり忘れてしまうことを示す。
文書の擬似クエリをサンプルとして生成メモリを導入し、連続的なインデックス付け中に補足することで、検索タスクの忘れを防止する。
論文 参考訳(メタデータ) (2022-12-19T18:59:34Z) - An Exploration of Hierarchical Attention Transformers for Efficient Long
Document Classification [37.069127262896764]
ロングフォーマーやビッグバードのようなトランスフォーマーベースのモデルは、長いドキュメントを扱うための一般的なアプローチである。
セグメントワイドおよびクロスセグメントエンコーダを用いた完全事前学習型HATモデルの開発とリリースを行う。
最高のHATモデルは、GPUメモリを10~20%削減し、文書処理を40~45%高速化しながら、同等の大きさのLongformerモデルより優れています。
論文 参考訳(メタデータ) (2022-10-11T15:17:56Z) - XDoc: Unified Pre-training for Cross-Format Document Understanding [84.63416346227176]
XDocは、単一のモデルで異なるドキュメントフォーマットを扱う、統合された事前訓練されたモデルである。
XDocは、トレーニング済みの個々のモデルと比較して、さまざまなダウンストリームタスクで同等またはそれ以上のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-10-06T12:07:18Z) - Long Document Summarization with Top-down and Bottom-up Inference [113.29319668246407]
本稿では、2つの側面の要約モデルを改善するための原則的推論フレームワークを提案する。
我々のフレームワークは、トップレベルが長距離依存性をキャプチャするドキュメントの階層的な潜在構造を前提としています。
本稿では,様々な要約データセットに対して提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-03-15T01:24:51Z) - MuLD: The Multitask Long Document Benchmark [4.835289158553091]
我々は1万以上のトークンからなる文書のみからなる新しい長期文書ベンチマークを示す。
文脈長の増大したモデルでは,課題の解決がより容易であることを示す。
論文 参考訳(メタデータ) (2022-02-15T12:42:55Z) - PRIMER: Pyramid-based Masked Sentence Pre-training for Multi-document
Summarization [16.830963601598242]
要約に着目した多文書表現のための事前学習モデルであるPRIMERを提案する。
具体的には,マルチドキュメント入力に適した適切な入力変換とグローバルアテンションを備えたLongformerアーキテクチャを採用する。
私たちのモデルであるPRIMERは、これらのほとんどの設定において、現在の最先端モデルよりも大きなマージンでパフォーマンスします。
論文 参考訳(メタデータ) (2021-10-16T07:22:24Z) - Fast(er) Reconstruction of Shredded Text Documents via Self-Supervised
Deep Asymmetric Metric Learning [62.34197797857823]
細断文書の自動復元における中心的な問題は、細断文書の相互互換性評価である。
本研究は,推定回数を線形にスケールするペアワイド互換性を測るスケーラブルな深層学習手法を提案する。
提案手法は,505個のシュレッダーを持つテストインスタンスに対して,22倍の高速化を実現した最先端技術に匹敵する精度を有する。
論文 参考訳(メタデータ) (2020-03-23T03:22:06Z) - Pre-training Tasks for Embedding-based Large-scale Retrieval [68.01167604281578]
本稿では,大規模クエリ文書検索問題について考察する。
クエリ(例えば質問)が与えられたら、関連するドキュメントのセットを大きなドキュメントコーパスから返します。
本稿では, 組込み型トランスフォーマーモデルの学習の鍵となる要素が, 事前学習作業のセットであることを示す。
論文 参考訳(メタデータ) (2020-02-10T16:44:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。