論文の概要: RBoard: A Unified Platform for Reproducible and Reusable Recommender System Benchmarks
- arxiv url: http://arxiv.org/abs/2409.05526v2
- Date: Tue, 10 Sep 2024 16:46:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-10 15:56:16.479397
- Title: RBoard: A Unified Platform for Reproducible and Reusable Recommender System Benchmarks
- Title(参考訳): RBoard: 再現性と再利用可能なレコメンダシステムベンチマークのための統一プラットフォーム
- Authors: Xinyang Shao, Edoardo D'Amico, Gabor Fodor, Tri Kurniawan Wijaya,
- Abstract要約: RBoardは推奨システムのベンチマークのための新しいフレームワークである。
CTR予測やTop-Nレコメンデーションなど、さまざまなレコメンデーションタスクをベンチマークするための総合的なプラットフォームを提供する。
このフレームワークは各タスク内の複数のデータセットにまたがるアルゴリズムを評価し、総合的なパフォーマンス評価の結果を集約する。
- 参考スコア(独自算出の注目度): 0.4312340306206883
- License:
- Abstract: Recommender systems research lacks standardized benchmarks for reproducibility and algorithm comparisons. We introduce RBoard, a novel framework addressing these challenges by providing a comprehensive platform for benchmarking diverse recommendation tasks, including CTR prediction, Top-N recommendation, and others. RBoard's primary objective is to enable fully reproducible and reusable experiments across these scenarios. The framework evaluates algorithms across multiple datasets within each task, aggregating results for a holistic performance assessment. It implements standardized evaluation protocols, ensuring consistency and comparability. To facilitate reproducibility, all user-provided code can be easily downloaded and executed, allowing researchers to reliably replicate studies and build upon previous work. By offering a unified platform for rigorous, reproducible evaluation across various recommendation scenarios, RBoard aims to accelerate progress in the field and establish a new standard for recommender systems benchmarking in both academia and industry. The platform is available at https://rboard.org and the demo video can be found at https://bit.ly/rboard-demo.
- Abstract(参考訳): Recommenderシステム研究は再現性とアルゴリズムの比較のための標準ベンチマークを欠いている。
我々は、CTR予測やTop-Nレコメンデーションなど、さまざまなレコメンデーションタスクをベンチマークするための包括的なプラットフォームを提供することで、これらの課題に対処する新しいフレームワークであるRBoardを紹介します。
RBoardの主な目的は、これらのシナリオで完全に再現可能で再利用可能な実験を可能にすることである。
このフレームワークは各タスク内の複数のデータセットにまたがるアルゴリズムを評価し、総合的なパフォーマンス評価の結果を集約する。
標準化された評価プロトコルを実装し、一貫性と互換性を確保する。
再現性を容易にするため、すべてのユーザが提供したコードは簡単にダウンロードして実行でき、研究者は研究を確実に複製し、以前の研究を構築できる。
さまざまなレコメンデーションシナリオにわたる厳格で再現可能な評価のための統一されたプラットフォームを提供することで、RBoardは分野の進歩を加速し、アカデミックと業界の両方で推奨システムのベンチマークを行うための新しい標準を確立することを目指している。
プラットフォームはhttps://rboard.orgで公開されており、デモビデオはhttps://bit.ly/rboard-demo.comで見ることができる。
関連論文リスト
- UniTTA: Unified Benchmark and Versatile Framework Towards Realistic Test-Time Adaptation [66.05528698010697]
Test-Time Adaptationは、テスト中にトレーニング済みのモデルを対象のドメインに適応させることを目的としている。
研究者は様々な挑戦シナリオを特定し、これらの課題に対処するための様々な方法を開発した。
本稿では,包括的かつ広く適用可能な統一テスト時間適応ベンチマークを提案する。
論文 参考訳(メタデータ) (2024-07-29T15:04:53Z) - ReFeR: Improving Evaluation and Reasoning through Hierarchy of Models [12.035509884945789]
テキストと画像の両方を含む生成出力を評価するために設計されたReFeRというチューニング不要のフレームワークを導入する。
フレームワークであるReFeRを4つの多様な評価タスクで厳格に評価します。
4つの推論タスクの実験は、フレームワークのより優れた集団推論能力を示す。
論文 参考訳(メタデータ) (2024-07-16T08:25:26Z) - Top-K Pairwise Ranking: Bridging the Gap Among Ranking-Based Measures for Multi-Label Classification [120.37051160567277]
本稿では,Top-K Pairwise Ranking(TKPR)という新しい尺度を提案する。
一連の分析により、TKPRは既存のランキングベースの尺度と互換性があることが示されている。
一方,データ依存縮約法という新しい手法に基づいて,提案手法の急激な一般化を確立する。
論文 参考訳(メタデータ) (2024-07-09T09:36:37Z) - Summarization from Leaderboards to Practice: Choosing A Representation
Backbone and Ensuring Robustness [21.567112955050582]
自動評価と人的評価の両方において、BARTはPEGやT5よりも優れている。
システム出力のかなりのばらつきは、人間の評価でのみ捉えられる。
論文 参考訳(メタデータ) (2023-06-18T13:35:41Z) - Vote'n'Rank: Revision of Benchmarking with Social Choice Theory [7.224599819499157]
本稿では,社会的選択論の原理に基づき,マルチタスクベンチマークにおけるシステムランキングの枠組みであるVote'n'Rankを提案する。
いくつかのMLサブフィールドにおいて,ベンチマークに関する新たな洞察を引き出すために,我々の手法を効率的に活用できることを実証する。
論文 参考訳(メタデータ) (2022-10-11T20:19:11Z) - RGRecSys: A Toolkit for Robustness Evaluation of Recommender Systems [100.54655931138444]
複数の次元を包含するレコメンダシステムに対して,ロバスト性に関するより包括的視点を提案する。
本稿では、RecSys用のロバストネス評価ツールキットRobustness Gymを紹介し、リコメンダシステムモデルのロバストネスを迅速かつ均一に評価できるようにする。
論文 参考訳(メタデータ) (2022-01-12T10:32:53Z) - Dynaboard: An Evaluation-As-A-Service Platform for Holistic
Next-Generation Benchmarking [41.99715850562528]
ベンチマークをホスティングし、全体モデル比較を行うための評価・アズ・ア・サービスフレームワークであるDynaboardを紹介した。
我々のプラットフォームは、単一のデータセットで自己報告されたメトリクスや予測に頼るのではなく、NLPモデルを直接評価します。
論文 参考訳(メタデータ) (2021-05-21T01:17:52Z) - USACv20: robust essential, fundamental and homography matrix estimation [68.65610177368617]
最新のRANSACのような仮説と検証の堅牢な推定器をレビューします。
最高のパフォーマンスは、Universal Sample Consensus (USAC)アルゴリズムの最先端バージョンを作成するために組み合わせられる。
提案手法であるUSACv20は、公開された8つの実世界のデータセットでテストされる。
論文 参考訳(メタデータ) (2021-04-11T16:27:02Z) - CRACT: Cascaded Regression-Align-Classification for Robust Visual
Tracking [97.84109669027225]
改良された提案改良モジュールCascaded Regression-Align- Classification (CRAC)を導入する。
CRACは多くのベンチマークで最先端のパフォーマンスを得る。
OTB-2015、UAV123、NfS、VOT-2018、TrackingNet、GOT-10k、LaSOTを含む7つのベンチマークの実験において、我々のCRACTは最先端の競合他社と比較して非常に有望な結果を示している。
論文 参考訳(メタデータ) (2020-11-25T02:18:33Z) - Controllable Multi-Interest Framework for Recommendation [64.30030600415654]
我々はレコメンデータシステムを逐次レコメンデーション問題として定式化する。
我々は,ComiRec と呼ばれる連続的なレコメンデーションのための新しい制御可能な多目的フレームワークを提案する。
私たちのフレームワークは、オフラインのAlibaba分散クラウドプラットフォームにうまくデプロイされています。
論文 参考訳(メタデータ) (2020-05-19T10:18:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。