Fugu-MT 論文翻訳(概要): Large-scale Evaluation of Transformer-based Article Encoders on the Task of Citation Recommendation

論文の概要: Large-scale Evaluation of Transformer-based Article Encoders on the Task of Citation Recommendation

arxiv url: http://arxiv.org/abs/2209.05452v1
Date: Mon, 12 Sep 2022 17:53:12 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-13 13:32:12.766668
Title: Large-scale Evaluation of Transformer-based Article Encoders on the Task of Citation Recommendation
Title（参考訳）: 励磁課題を考慮した変圧器を用いた物品エンコーダの大規模評価
Authors: Zoran Medi\'c, Jan \v{S}najder
Abstract要約: Transformer-based article encoders (TAEs)は、科学論文推薦のためのベンチマークデータセットで強力なパフォーマンスを示している。本稿では,TAE と語彙検索ベースラインモデルBM25 を比較し,引用推薦の課題について述べる。我々は,科学論文の表現を評価するための新しいベンチマークデータセットを提案する: マルチドメイン・クエンテーション・レコメンデーション・データセット(MDCR)。
参考スコア（独自算出の注目度）: 0.30458514384586405
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recently introduced transformer-based article encoders (TAEs) designed to produce similar vector representations for mutually related scientific articles have demonstrated strong performance on benchmark datasets for scientific article recommendation. However, the existing benchmark datasets are predominantly focused on single domains and, in some cases, contain easy negatives in small candidate pools. Evaluating representations on such benchmarks might obscure the realistic performance of TAEs in setups with thousands of articles in candidate pools. In this work, we evaluate TAEs on large benchmarks with more challenging candidate pools. We compare the performance of TAEs with a lexical retrieval baseline model BM25 on the task of citation recommendation, where the model produces a list of recommendations for citing in a given input article. We find out that BM25 is still very competitive with the state-of-the-art neural retrievers, a finding which is surprising given the strong performance of TAEs on small benchmarks. As a remedy for the limitations of the existing benchmarks, we propose a new benchmark dataset for evaluating scientific article representations: Multi-Domain Citation Recommendation dataset (MDCR), which covers different scientific fields and contains challenging candidate pools.
Abstract（参考訳）: 近年、相互に関連のある科学論文の類似ベクトル表現を生成するために設計されたtransformer-based article encoder (taes)が、科学論文推薦のためのベンチマークデータセットで強力な性能を示している。しかし、既存のベンチマークデータセットは、主に単一のドメインに焦点を当てており、場合によっては小さな候補プールに容易に負の値を含む。このようなベンチマークでの表現の評価は、候補プールに何千もの記事があるセットアップにおけるtaesの現実的なパフォーマンスを曖昧にする可能性がある。本研究では,より挑戦的な候補プールを持つ大規模ベンチマークでTAEを評価する。我々は,TAEの性能を引用推薦タスクにおける語彙検索ベースラインモデルBM25と比較し,そのモデルが与えられた入力項目に引用するレコメンデーションのリストを生成する。 BM25は、まだ最先端のニューラルレトリバーと非常に競合していることがわかっています。既存のベンチマークの限界に対する修正として、科学論文の表現を評価するための新しいベンチマークデータセットを提案する: 多領域引用推奨データセット(mdcr)は、異なる科学分野をカバーするもので、挑戦的な候補プールを含んでいる。

関連論文リスト

Something's Fishy In The Data Lake: A Critical Re-evaluation of Table Union Search Benchmarks [0.9374652839580181]
近年の表表現学習とデータ発見手法は,データレイク内の表結合探索(TUS)に取り組みつつある。これらの手法は、実世界のTUSタスクにおける意味的理解を評価するためのベンチマークを用いて、一般的に評価される。本稿では,セマンティックテーブル統合検索における進捗のより現実的で信頼性の高い評価を可能にするために,将来のベンチマークに不可欠な基準を提案する。
論文参考訳（メタデータ） (2025-05-27T15:23:52Z)
Can LLMs Generate Tabular Summaries of Science Papers? Rethinking the Evaluation Protocol [83.90769864167301]
文献レビュー表は、科学論文の集合を要約し比較するために欠かせないものである。学術論文の収集にあたり,ユーザの情報ニーズを最大限に満たす表を作成するタスクについて検討する。我々の貢献は、現実世界で遭遇する3つの重要な課題に焦点を当てている: (i)ユーザープロンプトは、しばしば未特定である; (ii)検索された候補論文は、しばしば無関係な内容を含む; (iii)タスク評価は、浅いテキスト類似性技術を超えて進むべきである。
論文参考訳（メタデータ） (2025-04-14T14:52:28Z)
Scenario-Wise Rec: A Multi-Scenario Recommendation Benchmark [54.93461228053298]
6つの公開データセットと12のベンチマークモデルと、トレーニングと評価パイプラインで構成されるベンチマークである textbfScenario-Wise Rec を紹介します。このベンチマークは、研究者に先行研究から貴重な洞察を提供することを目的としており、新しいモデルの開発を可能にしている。
論文参考訳（メタデータ） (2024-12-23T08:15:34Z)
Beyond the Numbers: Transparency in Relation Extraction Benchmark Creation and Leaderboards [5.632231145349045]
本稿では,NLPにおけるベンチマーク作成の透明性と,NLPの進捗測定におけるリーダボードの利用について検討する。既存の関係抽出ベンチマークは、ドキュメントが不十分で重要な詳細が欠如していることが多い。議論の中心はREベンチマークとリーダボードの透明性ですが、議論する観察は他のNLPタスクにも広く適用できます。
論文参考訳（メタデータ） (2024-11-07T22:36:19Z)
Varco Arena: A Tournament Approach to Reference-Free Benchmarking Large Language Models [0.29687381456164]
VARCO Arenaは、大規模言語モデルのための新しく、費用対効果が高く、堅牢なベンチマーク手法である。 VARCO Arenaは信頼性の高いLCMランキングを生成するだけでなく、質的評価のためのスケーラブルで適応可能なソリューションを提供する。
論文参考訳（メタデータ） (2024-11-02T15:23:28Z)
Are Large Language Models Good Classifiers? A Study on Edit Intent Classification in Scientific Document Revisions [62.12545440385489]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩をもたらしたが、分類タスクの強化の可能性はまだ未検討である。生成と符号化の両方のアプローチを含む分類のための微調整LDMを徹底的に研究するためのフレームワークを提案する。我々はこのフレームワークを編集意図分類(EIC)においてインスタンス化する。
論文参考訳（メタデータ） (2024-10-02T20:48:28Z)
Revisiting BPR: A Replicability Study of a Common Recommender System Baseline [78.00363373925758]
我々は,BPRモデルの特徴を考察し,その性能への影響を示し,オープンソースのBPR実装について検討する。分析の結果,これらの実装とオリジナルのBPR論文の矛盾が明らかとなり,特定の実装に対して最大50%の性能低下がみられた。 BPRモデルは、トップnのレコメンデーションタスクにおける最先端メソッドに近いパフォーマンスレベルを達成でき、特定のデータセット上でもパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (2024-09-21T18:39:53Z)
Evaluating Retrieval Quality in Retrieval-Augmented Generation [21.115495457454365]
従来のエンドツーエンド評価手法は計算コストが高い。本稿では,検索リストの各文書をRAGシステム内の大規模言語モデルで個別に利用するeRAGを提案する。 eRAGは、ランタイムを改善し、エンドツーエンド評価の最大50倍のGPUメモリを消費する、大きな計算上のアドバンテージを提供する。
論文参考訳（メタデータ） (2024-04-21T21:22:28Z)
Less is More for Improving Automatic Evaluation of Factual Consistency [13.748739666737517]
少数のデータポイントを利用することで、実際にパフォーマンスが向上することを示す。元のAlignScoreトレーニングデータセットを処理し、ノイズを除去し、頑健なサンプルを増強し、データの10%からなるサブセットを使用して、改善された事実整合性評価モデルをトレーニングする。実験の結果、LIM-RAは33の試験データセットのうち24の最高スコアを達成し、残りは競争力を維持していることがわかった。
論文参考訳（メタデータ） (2024-04-09T19:02:12Z)
All Data on the Table: Novel Dataset and Benchmark for Cross-Modality Scientific Information Extraction [39.05577374775964]
本稿では,テキスト中のエンティティをアノテートする半教師付きパイプラインと,テーブル内のエンティティとリレーションを反復的に提案する。我々は,高品質なベンチマーク,大規模コーパス,半教師付きアノテーションパイプラインなど,科学コミュニティのための新たなリソースをリリースする。
論文参考訳（メタデータ） (2023-11-14T14:22:47Z)
An Examination of the Compositionality of Large Generative Vision-Language Models [7.639748270719836]
GVLM(Generative Vision-Language Models)はマルチモーダル・インストラクション・チューニングによって構築されている。本稿では,GVLMの構成性を評価するための評価指標(VisualGPTScoreなど)と現在のベンチマークについて検討する。我々は,GVLMの言語的能力を利用して,現在のベンチマークにおける構文バイアスを同定する。
論文参考訳（メタデータ） (2023-08-21T06:50:29Z)
Not All Metrics Are Guilty: Improving NLG Evaluation by Diversifying References [123.39034752499076]
Div-Refは、参照数を増やして評価ベンチマークを強化する方法である。本研究では,参照表現の多様化が自動評価と人的評価の相関性を大幅に向上させることを示す実験を行った。
論文参考訳（メタデータ） (2023-05-24T11:53:29Z)
TTRS: Tinkoff Transactions Recommender System benchmark [62.997667081978825]
TTRS - Tinkoff Transactions Recommender Systemベンチマークを示す。この金融取引ベンチマークには、約1万人のユーザーと、14ヶ月で1000以上の商業ブランドの間で200万以上のインタラクションが含まれている。また,現在普及しているRecSys手法を次の期間の推薦タスクで総合的に比較し,その性能を様々な指標や推奨目標に対して詳細に分析する。
論文参考訳（メタデータ） (2021-10-11T20:04:07Z)
Reenvisioning Collaborative Filtering vs Matrix Factorization [65.74881520196762]
近年,行列因数分解に基づく協調フィルタリングモデルや,ニューラルネットワーク(ANN)を用いた類似性の学習が注目されている。推薦エコシステム内でのANNの発表が最近疑問視され、効率性と有効性に関していくつかの比較がなされている。本研究では,これらの手法が相補的評価次元に与える影響を解析しながら,超精度評価にもたらす可能性を示す。
論文参考訳（メタデータ） (2021-07-28T16:29:38Z)
Reliable Evaluations for Natural Language Inference based on a Unified Cross-dataset Benchmark [54.782397511033345]
クラウドソースの自然言語推論(NLI)データセットは、アノテーションアーティファクトのような重大なバイアスに悩まされる可能性がある。 14のNLIデータセットと9つの広く使用されているニューラルネットワークベースのNLIモデルを再評価した、新しいクロスデータセットベンチマークを提案する。提案した評価手法と実験ベースラインは,将来信頼性の高いNLI研究を刺激する基盤となる可能性がある。
論文参考訳（メタデータ） (2020-10-15T11:50:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。