論文の概要: Understanding Performance of Long-Document Ranking Models through
Comprehensive Evaluation and Leaderboarding
- arxiv url: http://arxiv.org/abs/2207.01262v1
- Date: Mon, 4 Jul 2022 08:54:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-05 15:46:23.241763
- Title: Understanding Performance of Long-Document Ranking Models through
Comprehensive Evaluation and Leaderboarding
- Title(参考訳): 包括的評価とリーダーシップによる長期文書ランキングモデルの性能理解
- Authors: Leonid Boytsov, Tianyi Lin, Fangwei Gao, Yutian Zhao, Jeffrey Huang,
Eric Nyberg
- Abstract要約: 我々は2つの一般的なコレクション(MS MARCO 文書と Robust04)を用いて、長い文書のランク付けのための13の最新のモデルを評価する。
単純なFirstPベースライン(典型的トランスフォーマーモデルの入力シーケンス制約を満たすために文書をトランケートする)は非常に効果的である。
我々は,ロバスト04とMS MARCOの文書が広く使用されているにもかかわらず,長期文書モデルのベンチマークには特に有用ではないと主張している。
- 参考スコア(独自算出の注目度): 11.25399488981492
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We carry out a comprehensive evaluation of 13 recent models for ranking of
long documents using two popular collections (MS MARCO documents and Robust04).
Our model zoo includes two specialized Transformer models (such as Longformer)
that can process long documents without the need to split them. Along the way,
we document several difficulties regarding training and comparing such models.
Somewhat surprisingly, we find the simple FirstP baseline (truncating documents
to satisfy the input-sequence constraint of a typical Transformer model) to be
quite effective. We analyze the distribution of relevant passages (inside
documents) to explain this phenomenon. We further argue that, despite their
widespread use, Robust04 and MS MARCO documents are not particularly useful for
benchmarking of long-document models.
- Abstract(参考訳): 2つの人気コレクション(ms marco文書とロバスト04)を用いて,最近の13種類の長文分類モデルの包括的評価を行った。
私たちのモデル動物園には、2つの特殊なTransformerモデル(Longformerなど)が含まれています。
その過程で,これらのモデルの学習と比較に関するいくつかの困難を文書化する。
意外なことに、単純なFirstPベースライン(典型的なTransformerモデルの入力シーケンス制約を満たすためにドキュメントをトランクする)は非常に効果的である。
この現象を説明するために,関連文(文書内)の分布を分析する。
また,ロバスト04とMS MARCOの文書は広く使用されているが,長期文書モデルのベンチマークには特に有用ではない。
関連論文リスト
- Margin Matching Preference Optimization: Enhanced Model Alignment with Granular Feedback [64.67540769692074]
人間のフィードバックからの強化学習など、アライメント技術で微調整された大規模言語モデル(LLM)は、これまでで最も有能なAIシステムの開発に役立っている。
マージンマッチング選好最適化(MMPO)と呼ばれる手法を導入し、相対的な品質マージンを最適化し、LLMポリシーと報酬モデルを改善する。
人間とAIの両方のフィードバックデータによる実験によると、MMPOはMT-benchやRewardBenchといった一般的なベンチマークにおいて、ベースラインメソッドよりも一貫してパフォーマンスが向上している。
論文 参考訳(メタデータ) (2024-10-04T04:56:11Z) - Eliminating Position Bias of Language Models: A Mechanistic Approach [119.34143323054143]
位置バイアスは現代言語モデル (LM) の一般的な問題であることが証明されている。
我々の力学解析は、ほぼ全ての最先端のLMで使われている2つのコンポーネント(因果的注意と相対的位置エンコーディング)に位置バイアスが関係している。
位置バイアスを排除することによって、LM-as-a-judge、検索強化QA、分子生成、数学推論など、下流タスクのパフォーマンスと信頼性が向上する。
論文 参考訳(メタデータ) (2024-07-01T09:06:57Z) - Efficient Document Ranking with Learnable Late Interactions [73.41976017860006]
クロスエンコーダ(CE)とデュアルエンコーダ(DE)モデルは,情報検索におけるクエリドキュメント関連性の2つの基本的なアプローチである。
関連性を予測するため、CEモデルは共同クエリドキュメントの埋め込みを使用し、DEモデルは分解クエリとドキュメントの埋め込みを維持している。
近年、DEM構造と軽量スコアラを用いて、より好ましいレイテンシ品質のトレードオフを実現するために、遅延相互作用モデルが提案されている。
論文 参考訳(メタデータ) (2024-06-25T22:50:48Z) - LIMIT: Less Is More for Instruction Tuning Across Evaluation Paradigms [2.249916681499244]
オープンソースMPT-7BおよびMPT-30Bモデルを1kから60kのサンプルから様々なサイズの命令微調整データセットに微調整する。
我々は,(1)従来のNLPベンチマークと(2)モデルに基づく評価の両方において,1k-6k命令の微調整サンプルのサブセットが良好な性能を達成するのに十分であることを確認した。
論文 参考訳(メタデータ) (2023-11-22T03:37:01Z) - Generalized Logit Adjustment: Calibrating Fine-tuned Models by Removing Label Bias in Foundation Models [75.9543301303586]
CLIPのようなファンデーションモデルは、追加のトレーニングデータなしで、さまざまなタスクでゼロショット転送を可能にする。
微調整やアンサンブルも一般的に下流のタスクに合うように採用されている。
しかし、先行研究は基礎モデルに固有のバイアスを見落としていると論じる。
論文 参考訳(メタデータ) (2023-10-12T08:01:11Z) - Billions of Parameters Are Worth More Than In-domain Training Data: A
case study in the Legal Case Entailment Task [4.186775801993103]
言語モデルにおけるパラメータのスケーリングは、以前のゼロショット結果のF1スコアを6ポイント以上向上させることを示す。
大規模な言語モデルによってもたらされる課題にも拘わらず、我々はゼロショットの monoT5-3b モデルが検索エンジンとして本番で使用されていることを実演する。
論文 参考訳(メタデータ) (2022-05-30T15:21:26Z) - Deconstructing Distributions: A Pointwise Framework of Learning [15.517383696434162]
テスト分布におけるモデルの平均性能と、この個々の点におけるポイントワイズ性能の関係について調べる。
プロファイルは、モデルとデータの構造 -- 分布の内外 -- に新しい洞察を与えることができる。
論文 参考訳(メタデータ) (2022-02-20T23:25:28Z) - Evaluation of HTR models without Ground Truth Material [2.4792948967354236]
手書き文字認識モデルの開発における評価は容易である。
しかし、開発からアプリケーションに切り替えると、評価プロセスはトリッキーになります。
我々は,レキシコンに基づく評価が,レキシコンに基づく手法と競合することを示す。
論文 参考訳(メタデータ) (2022-01-17T01:26:09Z) - Few-shot Instruction Prompts for Pretrained Language Models to Detect
Social Biases [55.45617404586874]
我々は、事前訓練された言語モデル(LM)を誘導する数ショットの命令ベース手法を提案する。
大規模なLMは、微調整モデルとよく似た精度で、異なる種類の細粒度バイアスを検出できることを示す。
論文 参考訳(メタデータ) (2021-12-15T04:19:52Z) - When Liebig's Barrel Meets Facial Landmark Detection: A Practical Model [87.25037167380522]
正確で、堅牢で、効率的で、一般化可能で、エンドツーエンドのトレーニングが可能なモデルを提案する。
精度を向上させるために,2つの軽量モジュールを提案する。
DQInitは、インプットからデコーダのクエリを動的に初期化し、複数のデコーダ層を持つものと同じ精度でモデルを実現する。
QAMemは、共有するクエリではなく、それぞれのクエリに別々のメモリ値を割り当てることで、低解像度のフィーチャーマップ上のクエリの識別能力を高めるように設計されている。
論文 参考訳(メタデータ) (2021-05-27T13:51:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。