論文の概要: DaisyRec 2.0: Benchmarking Recommendation for Rigorous Evaluation
- arxiv url: http://arxiv.org/abs/2206.10848v1
- Date: Wed, 22 Jun 2022 05:17:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-23 16:18:15.227222
- Title: DaisyRec 2.0: Benchmarking Recommendation for Rigorous Evaluation
- Title(参考訳): DaisyRec 2.0: 厳格な評価のためのベンチマーク勧告
- Authors: Zhu Sun, Hui Fang, Jie Yang, Xinghua Qu, Hongyang Liu, Di Yu, Yew-Soon
Ong, Jie Zhang
- Abstract要約: 我々は,厳密な評価のための推薦のベンチマークを目指して,実践理論と実験の観点から研究を行う。
理論的には, 評価連鎖全体を通して, 推薦性能に影響を与える一連の超因子を体系的に要約し, 分析する。
実験では,これらのハイパーファクタを統合し,厳密な評価を行うことにより,DaisyRec 2.0ライブラリをリリースする。
- 参考スコア(独自算出の注目度): 24.12886646161467
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recently, one critical issue looms large in the field of recommender systems
-- there are no effective benchmarks for rigorous evaluation -- which
consequently leads to unreproducible evaluation and unfair comparison. We,
therefore, conduct studies from the perspectives of practical theory and
experiments, aiming at benchmarking recommendation for rigorous evaluation.
Regarding the theoretical study, a series of hyper-factors affecting
recommendation performance throughout the whole evaluation chain are
systematically summarized and analyzed via an exhaustive review on 141 papers
published at eight top-tier conferences within 2017-2020. We then classify them
into model-independent and model-dependent hyper-factors, and different modes
of rigorous evaluation are defined and discussed in-depth accordingly. For the
experimental study, we release DaisyRec 2.0 library by integrating these
hyper-factors to perform rigorous evaluation, whereby a holistic empirical
study is conducted to unveil the impacts of different hyper-factors on
recommendation performance. Supported by the theoretical and experimental
studies, we finally create benchmarks for rigorous evaluation by proposing
standardized procedures and providing performance of ten state-of-the-arts
across six evaluation metrics on six datasets as a reference for later study.
Overall, our work sheds light on the issues in recommendation evaluation,
provides potential solutions for rigorous evaluation, and lays foundation for
further investigation.
- Abstract(参考訳): 最近、リコメンデータシステム分野において重要な問題の一つが、厳格な評価のための効果的なベンチマークがないことであり、結果として再現不可能な評価と不公平な比較につながっている。
そこで本研究では, 実践理論と実験の観点から, 厳密な評価のためのベンチマーク・レコメンデーションをめざして研究を行う。
理論的には,2017~2020年の8つのトップレベル会議において発表された141論文の総括的レビューを通じて,評価チェーン全体のレコメンデーションパフォーマンスに影響を及ぼす一連の超因子を体系的に要約し,分析する。
次に、モデル非依存型およびモデル依存型ハイパーファクターに分類し、それに応じて厳密な評価の異なるモードを定義し、議論する。
本研究では,これらのハイパーファクタを統合して厳密な評価を行い,様々なハイパーファクタがレコメンデーションパフォーマンスに与える影響を明らかにするための総合的な実証的研究を行った。
理論的および実験的研究の支援により、6つのデータセット上の6つの評価基準にまたがって、標準化された手順の提案と10の最先端のパフォーマンスを提供することにより、厳密な評価のためのベンチマークを最終的に作成する。
全体としては、推奨評価の問題に光を当て、厳格な評価のための潜在的な解決策を提供し、さらなる調査の基礎を築きます。
関連論文リスト
- An Automatic and Cost-Efficient Peer-Review Framework for Language Generation Evaluation [29.81362106367831]
既存の評価手法は、しばしば高いコスト、限られたテスト形式、人間の参照の必要性、体系的な評価バイアスに悩まされる。
人間のアノテーションに依存する以前の研究とは対照的に、Auto-PREはそれら固有の特性に基づいて自動的に評価者を選択する。
実験結果から,我々のAuto-PREは最先端の性能を低コストで達成できることが示された。
論文 参考訳(メタデータ) (2024-10-16T06:06:06Z) - Revisiting Reciprocal Recommender Systems: Metrics, Formulation, and Method [60.364834418531366]
RRSの性能を包括的かつ正確に評価する5つの新しい評価指標を提案する。
因果的観点からRSを定式化し、二元的介入として勧告を定式化する。
提案手法では,結果の一致を最大化する手法を提案する。
論文 参考訳(メタデータ) (2024-08-19T07:21:02Z) - Are we making progress in unlearning? Findings from the first NeurIPS unlearning competition [70.60872754129832]
アンラーニングに関する最初のNeurIPSコンペティションは、新しいアルゴリズムの開発を刺激しようとした。
世界中から約1200チームが参加した。
トップソリューションを分析し、アンラーニングのベンチマークに関する議論を掘り下げます。
論文 参考訳(メタデータ) (2024-06-13T12:58:00Z) - One Prompt To Rule Them All: LLMs for Opinion Summary Evaluation [30.674896082482476]
我々は,Op-I-Promptが,人間との平均スピアマン相関を0。
我々の知る限り、我々は、意見要約領域において、クローズドソースモデルとオープンソースモデルの両方において、LCMを評価対象として調査した最初の人物です。
論文 参考訳(メタデータ) (2024-02-18T19:13:52Z) - Evaluation in Neural Style Transfer: A Review [0.7614628596146599]
既存の評価手法の詳細な分析を行い、現在の評価手法の不整合と限界を特定し、標準化された評価手法の推奨を行う。
我々は、ロバストな評価フレームワークの開発により、より有意義で公平な比較が可能になるだけでなく、この分野における研究成果の理解と解釈を高めることができると考えている。
論文 参考訳(メタデータ) (2024-01-30T15:45:30Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z) - A Double Machine Learning Approach to Combining Experimental and Observational Data [59.29868677652324]
実験と観測を組み合わせた二重機械学習手法を提案する。
我々の枠組みは、より軽度の仮定の下で、外部の妥当性と無知の違反を検査する。
論文 参考訳(メタデータ) (2023-07-04T02:53:11Z) - Revisiting the Gold Standard: Grounding Summarization Evaluation with
Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。
細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。
ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文 参考訳(メタデータ) (2022-12-15T17:26:05Z) - Measuring "Why" in Recommender Systems: a Comprehensive Survey on the
Evaluation of Explainable Recommendation [87.82664566721917]
この調査は、IJCAI、AAAI、TheWebConf、Recsys、UMAP、IUIといったトップレベルのカンファレンスから100以上の論文に基づいています。
論文 参考訳(メタデータ) (2022-02-14T02:58:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。