論文の概要: Large-scale Evaluation of Transformer-based Article Encoders on the Task
of Citation Recommendation
- arxiv url: http://arxiv.org/abs/2209.05452v1
- Date: Mon, 12 Sep 2022 17:53:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-13 13:32:12.766668
- Title: Large-scale Evaluation of Transformer-based Article Encoders on the Task
of Citation Recommendation
- Title(参考訳): 励磁課題を考慮した変圧器を用いた物品エンコーダの大規模評価
- Authors: Zoran Medi\'c, Jan \v{S}najder
- Abstract要約: Transformer-based article encoders (TAEs)は、科学論文推薦のためのベンチマークデータセットで強力なパフォーマンスを示している。
本稿では,TAE と語彙検索ベースラインモデルBM25 を比較し,引用推薦の課題について述べる。
我々は,科学論文の表現を評価するための新しいベンチマークデータセットを提案する: マルチドメイン・クエンテーション・レコメンデーション・データセット(MDCR)。
- 参考スコア(独自算出の注目度): 0.30458514384586405
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently introduced transformer-based article encoders (TAEs) designed to
produce similar vector representations for mutually related scientific articles
have demonstrated strong performance on benchmark datasets for scientific
article recommendation. However, the existing benchmark datasets are
predominantly focused on single domains and, in some cases, contain easy
negatives in small candidate pools. Evaluating representations on such
benchmarks might obscure the realistic performance of TAEs in setups with
thousands of articles in candidate pools. In this work, we evaluate TAEs on
large benchmarks with more challenging candidate pools. We compare the
performance of TAEs with a lexical retrieval baseline model BM25 on the task of
citation recommendation, where the model produces a list of recommendations for
citing in a given input article. We find out that BM25 is still very
competitive with the state-of-the-art neural retrievers, a finding which is
surprising given the strong performance of TAEs on small benchmarks. As a
remedy for the limitations of the existing benchmarks, we propose a new
benchmark dataset for evaluating scientific article representations:
Multi-Domain Citation Recommendation dataset (MDCR), which covers different
scientific fields and contains challenging candidate pools.
- Abstract(参考訳): 近年、相互に関連のある科学論文の類似ベクトル表現を生成するために設計されたtransformer-based article encoder (taes)が、科学論文推薦のためのベンチマークデータセットで強力な性能を示している。
しかし、既存のベンチマークデータセットは、主に単一のドメインに焦点を当てており、場合によっては小さな候補プールに容易に負の値を含む。
このようなベンチマークでの表現の評価は、候補プールに何千もの記事があるセットアップにおけるtaesの現実的なパフォーマンスを曖昧にする可能性がある。
本研究では,より挑戦的な候補プールを持つ大規模ベンチマークでTAEを評価する。
我々は,TAEの性能を引用推薦タスクにおける語彙検索ベースラインモデルBM25と比較し,そのモデルが与えられた入力項目に引用するレコメンデーションのリストを生成する。
BM25は、まだ最先端のニューラルレトリバーと非常に競合していることがわかっています。
既存のベンチマークの限界に対する修正として、科学論文の表現を評価するための新しいベンチマークデータセットを提案する: 多領域引用推奨データセット(mdcr)は、異なる科学分野をカバーするもので、挑戦的な候補プールを含んでいる。
関連論文リスト
- Beyond the Numbers: Transparency in Relation Extraction Benchmark Creation and Leaderboards [5.632231145349045]
本稿では,NLPにおけるベンチマーク作成の透明性と,NLPの進捗測定におけるリーダボードの利用について検討する。
既存の関係抽出ベンチマークは、ドキュメントが不十分で重要な詳細が欠如していることが多い。
議論の中心はREベンチマークとリーダボードの透明性ですが、議論する観察は他のNLPタスクにも広く適用できます。
論文 参考訳(メタデータ) (2024-11-07T22:36:19Z) - Are Large Language Models Good Classifiers? A Study on Edit Intent Classification in Scientific Document Revisions [62.12545440385489]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩をもたらしたが、分類タスクの強化の可能性はまだ未検討である。
生成と符号化の両方のアプローチを含む分類のための微調整LDMを徹底的に研究するためのフレームワークを提案する。
我々はこのフレームワークを編集意図分類(EIC)においてインスタンス化する。
論文 参考訳(メタデータ) (2024-10-02T20:48:28Z) - Revisiting BPR: A Replicability Study of a Common Recommender System Baseline [78.00363373925758]
我々は,BPRモデルの特徴を考察し,その性能への影響を示し,オープンソースのBPR実装について検討する。
分析の結果,これらの実装とオリジナルのBPR論文の矛盾が明らかとなり,特定の実装に対して最大50%の性能低下がみられた。
BPRモデルは、トップnのレコメンデーションタスクにおける最先端メソッドに近いパフォーマンスレベルを達成でき、特定のデータセット上でもパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2024-09-21T18:39:53Z) - Evaluating Retrieval Quality in Retrieval-Augmented Generation [21.115495457454365]
従来のエンドツーエンド評価手法は計算コストが高い。
本稿では,検索リストの各文書をRAGシステム内の大規模言語モデルで個別に利用するeRAGを提案する。
eRAGは、ランタイムを改善し、エンドツーエンド評価の最大50倍のGPUメモリを消費する、大きな計算上のアドバンテージを提供する。
論文 参考訳(メタデータ) (2024-04-21T21:22:28Z) - Less is More for Improving Automatic Evaluation of Factual Consistency [13.748739666737517]
少数のデータポイントを利用することで、実際にパフォーマンスが向上することを示す。
元のAlignScoreトレーニングデータセットを処理し、ノイズを除去し、頑健なサンプルを増強し、データの10%からなるサブセットを使用して、改善された事実整合性評価モデルをトレーニングする。
実験の結果、LIM-RAは33の試験データセットのうち24の最高スコアを達成し、残りは競争力を維持していることがわかった。
論文 参考訳(メタデータ) (2024-04-09T19:02:12Z) - All Data on the Table: Novel Dataset and Benchmark for Cross-Modality
Scientific Information Extraction [39.05577374775964]
本稿では,テキスト中のエンティティをアノテートする半教師付きパイプラインと,テーブル内のエンティティとリレーションを反復的に提案する。
我々は,高品質なベンチマーク,大規模コーパス,半教師付きアノテーションパイプラインなど,科学コミュニティのための新たなリソースをリリースする。
論文 参考訳(メタデータ) (2023-11-14T14:22:47Z) - An Examination of the Compositionality of Large Generative Vision-Language Models [7.639748270719836]
GVLM(Generative Vision-Language Models)はマルチモーダル・インストラクション・チューニングによって構築されている。
本稿では,GVLMの構成性を評価するための評価指標(VisualGPTScoreなど)と現在のベンチマークについて検討する。
我々は,GVLMの言語的能力を利用して,現在のベンチマークにおける構文バイアスを同定する。
論文 参考訳(メタデータ) (2023-08-21T06:50:29Z) - Not All Metrics Are Guilty: Improving NLG Evaluation by Diversifying References [123.39034752499076]
Div-Refは、参照数を増やして評価ベンチマークを強化する方法である。
本研究では,参照表現の多様化が自動評価と人的評価の相関性を大幅に向上させることを示す実験を行った。
論文 参考訳(メタデータ) (2023-05-24T11:53:29Z) - TTRS: Tinkoff Transactions Recommender System benchmark [62.997667081978825]
TTRS - Tinkoff Transactions Recommender Systemベンチマークを示す。
この金融取引ベンチマークには、約1万人のユーザーと、14ヶ月で1000以上の商業ブランドの間で200万以上のインタラクションが含まれている。
また,現在普及しているRecSys手法を次の期間の推薦タスクで総合的に比較し,その性能を様々な指標や推奨目標に対して詳細に分析する。
論文 参考訳(メタデータ) (2021-10-11T20:04:07Z) - Reenvisioning Collaborative Filtering vs Matrix Factorization [65.74881520196762]
近年,行列因数分解に基づく協調フィルタリングモデルや,ニューラルネットワーク(ANN)を用いた類似性の学習が注目されている。
推薦エコシステム内でのANNの発表が最近疑問視され、効率性と有効性に関していくつかの比較がなされている。
本研究では,これらの手法が相補的評価次元に与える影響を解析しながら,超精度評価にもたらす可能性を示す。
論文 参考訳(メタデータ) (2021-07-28T16:29:38Z) - Reliable Evaluations for Natural Language Inference based on a Unified
Cross-dataset Benchmark [54.782397511033345]
クラウドソースの自然言語推論(NLI)データセットは、アノテーションアーティファクトのような重大なバイアスに悩まされる可能性がある。
14のNLIデータセットと9つの広く使用されているニューラルネットワークベースのNLIモデルを再評価した、新しいクロスデータセットベンチマークを提案する。
提案した評価手法と実験ベースラインは,将来信頼性の高いNLI研究を刺激する基盤となる可能性がある。
論文 参考訳(メタデータ) (2020-10-15T11:50:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。