論文の概要: DaisyRec 2.0: Benchmarking Recommendation for Rigorous Evaluation
- arxiv url: http://arxiv.org/abs/2206.10848v1
- Date: Wed, 22 Jun 2022 05:17:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-23 16:18:15.227222
- Title: DaisyRec 2.0: Benchmarking Recommendation for Rigorous Evaluation
- Title(参考訳): DaisyRec 2.0: 厳格な評価のためのベンチマーク勧告
- Authors: Zhu Sun, Hui Fang, Jie Yang, Xinghua Qu, Hongyang Liu, Di Yu, Yew-Soon
Ong, Jie Zhang
- Abstract要約: 我々は,厳密な評価のための推薦のベンチマークを目指して,実践理論と実験の観点から研究を行う。
理論的には, 評価連鎖全体を通して, 推薦性能に影響を与える一連の超因子を体系的に要約し, 分析する。
実験では,これらのハイパーファクタを統合し,厳密な評価を行うことにより,DaisyRec 2.0ライブラリをリリースする。
- 参考スコア(独自算出の注目度): 24.12886646161467
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recently, one critical issue looms large in the field of recommender systems
-- there are no effective benchmarks for rigorous evaluation -- which
consequently leads to unreproducible evaluation and unfair comparison. We,
therefore, conduct studies from the perspectives of practical theory and
experiments, aiming at benchmarking recommendation for rigorous evaluation.
Regarding the theoretical study, a series of hyper-factors affecting
recommendation performance throughout the whole evaluation chain are
systematically summarized and analyzed via an exhaustive review on 141 papers
published at eight top-tier conferences within 2017-2020. We then classify them
into model-independent and model-dependent hyper-factors, and different modes
of rigorous evaluation are defined and discussed in-depth accordingly. For the
experimental study, we release DaisyRec 2.0 library by integrating these
hyper-factors to perform rigorous evaluation, whereby a holistic empirical
study is conducted to unveil the impacts of different hyper-factors on
recommendation performance. Supported by the theoretical and experimental
studies, we finally create benchmarks for rigorous evaluation by proposing
standardized procedures and providing performance of ten state-of-the-arts
across six evaluation metrics on six datasets as a reference for later study.
Overall, our work sheds light on the issues in recommendation evaluation,
provides potential solutions for rigorous evaluation, and lays foundation for
further investigation.
- Abstract(参考訳): 最近、リコメンデータシステム分野において重要な問題の一つが、厳格な評価のための効果的なベンチマークがないことであり、結果として再現不可能な評価と不公平な比較につながっている。
そこで本研究では, 実践理論と実験の観点から, 厳密な評価のためのベンチマーク・レコメンデーションをめざして研究を行う。
理論的には,2017~2020年の8つのトップレベル会議において発表された141論文の総括的レビューを通じて,評価チェーン全体のレコメンデーションパフォーマンスに影響を及ぼす一連の超因子を体系的に要約し,分析する。
次に、モデル非依存型およびモデル依存型ハイパーファクターに分類し、それに応じて厳密な評価の異なるモードを定義し、議論する。
本研究では,これらのハイパーファクタを統合して厳密な評価を行い,様々なハイパーファクタがレコメンデーションパフォーマンスに与える影響を明らかにするための総合的な実証的研究を行った。
理論的および実験的研究の支援により、6つのデータセット上の6つの評価基準にまたがって、標準化された手順の提案と10の最先端のパフォーマンスを提供することにより、厳密な評価のためのベンチマークを最終的に作成する。
全体としては、推奨評価の問題に光を当て、厳格な評価のための潜在的な解決策を提供し、さらなる調査の基礎を築きます。
関連論文リスト
- One Prompt To Rule Them All: LLMs for Opinion Summary Evaluation [31.587877806983748]
我々は,Op-I-Promptが,人間との平均スピアマン相関を0。
我々の知る限り、我々は、意見要約領域において、クローズドソースモデルとオープンソースモデルの両方において、LCMを評価対象として調査した最初の人物です。
論文 参考訳(メタデータ) (2024-02-18T19:13:52Z) - Evaluation in Neural Style Transfer: A Review [0.7614628596146599]
既存の評価手法の詳細な分析を行い、現在の評価手法の不整合と限界を特定し、標準化された評価手法の推奨を行う。
我々は、ロバストな評価フレームワークの開発により、より有意義で公平な比較が可能になるだけでなく、この分野における研究成果の理解と解釈を高めることができると考えている。
論文 参考訳(メタデータ) (2024-01-30T15:45:30Z) - Zero-shot Generative Large Language Models for Systematic Review
Screening Automation [55.403958106416574]
本研究では,ゼロショット大言語モデルを用いた自動スクリーニングの有効性について検討した。
本研究では, 8種類のLCMの有効性を評価し, 予め定義されたリコール閾値を用いた校正手法について検討する。
論文 参考訳(メタデータ) (2024-01-12T01:54:08Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z) - Revisiting the Gold Standard: Grounding Summarization Evaluation with
Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。
細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。
ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文 参考訳(メタデータ) (2022-12-15T17:26:05Z) - Measuring "Why" in Recommender Systems: a Comprehensive Survey on the
Evaluation of Explainable Recommendation [87.82664566721917]
この調査は、IJCAI、AAAI、TheWebConf、Recsys、UMAP、IUIといったトップレベルのカンファレンスから100以上の論文に基づいています。
論文 参考訳(メタデータ) (2022-02-14T02:58:55Z) - Investigating Crowdsourcing Protocols for Evaluating the Factual
Consistency of Summaries [59.27273928454995]
要約に適用される現在の事前学習モデルは、ソーステキストを誤って表現したり、外部情報を導入したりする事実上の矛盾がちである。
評価ベースのLikertスケールとランキングベースのBest-Worst Scalingプロトコルを用いた,事実整合性のためのクラウドソーシング評価フレームワークを構築した。
ランキングベースのプロトコルは、データセット間の要約品質をより信頼性の高い尺度を提供するのに対して、Likertレーティングの信頼性はターゲットデータセットと評価設計に依存する。
論文 参考訳(メタデータ) (2021-09-19T19:05:00Z) - Ranking Scientific Papers Using Preference Learning [48.78161994501516]
我々はこれをピアレビューテキストとレビュアースコアに基づく論文ランキング問題とみなした。
ピアレビューに基づいて最終決定を行うための,新しい多面的総合評価フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-02T19:41:47Z) - How to Evaluate a Summarizer: Study Design and Statistical Analysis for
Manual Linguistic Quality Evaluation [3.624563211765782]
評価手法の最良の選択は、ある側面から別の側面まで様々であることを示す。
その結果,アノテータの総数は研究力に強い影響を及ぼす可能性が示唆された。
現在の統計解析手法では、I型エラー率を最大8倍にすることができる。
論文 参考訳(メタデータ) (2021-01-27T10:14:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。