論文の概要: Large-scale Evaluation of Transformer-based Article Encoders on the Task
of Citation Recommendation
- arxiv url: http://arxiv.org/abs/2209.05452v1
- Date: Mon, 12 Sep 2022 17:53:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-13 13:32:12.766668
- Title: Large-scale Evaluation of Transformer-based Article Encoders on the Task
of Citation Recommendation
- Title(参考訳): 励磁課題を考慮した変圧器を用いた物品エンコーダの大規模評価
- Authors: Zoran Medi\'c, Jan \v{S}najder
- Abstract要約: Transformer-based article encoders (TAEs)は、科学論文推薦のためのベンチマークデータセットで強力なパフォーマンスを示している。
本稿では,TAE と語彙検索ベースラインモデルBM25 を比較し,引用推薦の課題について述べる。
我々は,科学論文の表現を評価するための新しいベンチマークデータセットを提案する: マルチドメイン・クエンテーション・レコメンデーション・データセット(MDCR)。
- 参考スコア(独自算出の注目度): 0.30458514384586405
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently introduced transformer-based article encoders (TAEs) designed to
produce similar vector representations for mutually related scientific articles
have demonstrated strong performance on benchmark datasets for scientific
article recommendation. However, the existing benchmark datasets are
predominantly focused on single domains and, in some cases, contain easy
negatives in small candidate pools. Evaluating representations on such
benchmarks might obscure the realistic performance of TAEs in setups with
thousands of articles in candidate pools. In this work, we evaluate TAEs on
large benchmarks with more challenging candidate pools. We compare the
performance of TAEs with a lexical retrieval baseline model BM25 on the task of
citation recommendation, where the model produces a list of recommendations for
citing in a given input article. We find out that BM25 is still very
competitive with the state-of-the-art neural retrievers, a finding which is
surprising given the strong performance of TAEs on small benchmarks. As a
remedy for the limitations of the existing benchmarks, we propose a new
benchmark dataset for evaluating scientific article representations:
Multi-Domain Citation Recommendation dataset (MDCR), which covers different
scientific fields and contains challenging candidate pools.
- Abstract(参考訳): 近年、相互に関連のある科学論文の類似ベクトル表現を生成するために設計されたtransformer-based article encoder (taes)が、科学論文推薦のためのベンチマークデータセットで強力な性能を示している。
しかし、既存のベンチマークデータセットは、主に単一のドメインに焦点を当てており、場合によっては小さな候補プールに容易に負の値を含む。
このようなベンチマークでの表現の評価は、候補プールに何千もの記事があるセットアップにおけるtaesの現実的なパフォーマンスを曖昧にする可能性がある。
本研究では,より挑戦的な候補プールを持つ大規模ベンチマークでTAEを評価する。
我々は,TAEの性能を引用推薦タスクにおける語彙検索ベースラインモデルBM25と比較し,そのモデルが与えられた入力項目に引用するレコメンデーションのリストを生成する。
BM25は、まだ最先端のニューラルレトリバーと非常に競合していることがわかっています。
既存のベンチマークの限界に対する修正として、科学論文の表現を評価するための新しいベンチマークデータセットを提案する: 多領域引用推奨データセット(mdcr)は、異なる科学分野をカバーするもので、挑戦的な候補プールを含んでいる。
関連論文リスト
- All Data on the Table: Novel Dataset and Benchmark for Cross-Modality
Scientific Information Extraction [39.05577374775964]
本稿では,テキスト中のエンティティをアノテートする半教師付きパイプラインと,テーブル内のエンティティとリレーションを反復的に提案する。
我々は,高品質なベンチマーク,大規模コーパス,半教師付きアノテーションパイプラインなど,科学コミュニティのための新たなリソースをリリースする。
論文 参考訳(メタデータ) (2023-11-14T14:22:47Z) - What a MESS: Multi-Domain Evaluation of Zero-Shot Semantic Segmentation [2.7036595757881323]
セマンティック(MESS)のマルチドメイン評価のためのベンチマークを構築した。
MESSは、幅広いドメイン固有のデータセットにわたるパフォーマンスの全体的な分析を可能にする。
提案したMESSベンチマークを用いて,最近発表された8つのモデルを評価し,ゼロショット転送モデルの性能評価を行った。
論文 参考訳(メタデータ) (2023-06-27T14:47:43Z) - Summarization from Leaderboards to Practice: Choosing A Representation
Backbone and Ensuring Robustness [21.567112955050582]
自動評価と人的評価の両方において、BARTはPEGやT5よりも優れている。
システム出力のかなりのばらつきは、人間の評価でのみ捉えられる。
論文 参考訳(メタデータ) (2023-06-18T13:35:41Z) - Not All Metrics Are Guilty: Improving NLG Evaluation with LLM
Paraphrasing [92.17776245159622]
Para-Refは、参照数を増やして評価ベンチマークを強化する新しい方法である。
我々は,大規模言語モデル(LLM)を用いて,単一の参照を多種多様な表現で複数の高品質なものに表現する。
提案手法は, 自動評価値16の相関を+7.82%の比率で効果的に改善することができる。
論文 参考訳(メタデータ) (2023-05-24T11:53:29Z) - GEMv2: Multilingual NLG Benchmarking in a Single Line of Code [161.1761414080574]
Generation, Evaluation, and Metrics Benchmarkは、データセット、モデル、メトリック開発者のためのモジュラーインフラストラクチャを提供する。
GEMv2は51言語で40のドキュメントデータセットをサポートする。
すべてのデータセットのモデルはオンラインで評価でき、インタラクティブなデータカード作成とレンダリングツールによって、生きたベンチマークに新しいデータセットを簡単に追加できます。
論文 参考訳(メタデータ) (2022-06-22T17:52:30Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z) - TTRS: Tinkoff Transactions Recommender System benchmark [62.997667081978825]
TTRS - Tinkoff Transactions Recommender Systemベンチマークを示す。
この金融取引ベンチマークには、約1万人のユーザーと、14ヶ月で1000以上の商業ブランドの間で200万以上のインタラクションが含まれている。
また,現在普及しているRecSys手法を次の期間の推薦タスクで総合的に比較し,その性能を様々な指標や推奨目標に対して詳細に分析する。
論文 参考訳(メタデータ) (2021-10-11T20:04:07Z) - Reenvisioning Collaborative Filtering vs Matrix Factorization [65.74881520196762]
近年,行列因数分解に基づく協調フィルタリングモデルや,ニューラルネットワーク(ANN)を用いた類似性の学習が注目されている。
推薦エコシステム内でのANNの発表が最近疑問視され、効率性と有効性に関していくつかの比較がなされている。
本研究では,これらの手法が相補的評価次元に与える影響を解析しながら,超精度評価にもたらす可能性を示す。
論文 参考訳(メタデータ) (2021-07-28T16:29:38Z) - BEIR: A Heterogenous Benchmark for Zero-shot Evaluation of Information
Retrieval Models [41.45240621979654]
情報検索のための異種ベンチマークであるBEIRを紹介する。
ゼロショット評価設定における9つの最先端の検索モデルの有効性を検討する。
Dense-Retrievalモデルは計算効率が良いが、他のアプローチでは性能が劣ることが多い。
論文 参考訳(メタデータ) (2021-04-17T23:29:55Z) - Reliable Evaluations for Natural Language Inference based on a Unified
Cross-dataset Benchmark [54.782397511033345]
クラウドソースの自然言語推論(NLI)データセットは、アノテーションアーティファクトのような重大なバイアスに悩まされる可能性がある。
14のNLIデータセットと9つの広く使用されているニューラルネットワークベースのNLIモデルを再評価した、新しいクロスデータセットベンチマークを提案する。
提案した評価手法と実験ベースラインは,将来信頼性の高いNLI研究を刺激する基盤となる可能性がある。
論文 参考訳(メタデータ) (2020-10-15T11:50:12Z) - Interpretable Meta-Measure for Model Performance [4.91155110560629]
Elo-based Predictive Power (EPP) と呼ばれる新しいメタスコアアセスメントを導入する。
EPPは、他のパフォーマンス指標の上に構築されており、モデルの解釈可能な比較を可能にする。
本研究では,EPPの数学的特性を証明し,30の分類データセット上の大規模ベンチマークと実世界のビジュアルデータに対するベンチマークを実証的に支援する。
論文 参考訳(メタデータ) (2020-06-02T14:10:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。