論文の概要: ORBIT - Open Recommendation Benchmark for Reproducible Research with Hidden Tests
- arxiv url: http://arxiv.org/abs/2510.26095v1
- Date: Thu, 30 Oct 2025 03:10:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.638685
- Title: ORBIT - Open Recommendation Benchmark for Reproducible Research with Hidden Tests
- Title(参考訳): ORBIT - 隠れテストによる再現可能な研究のためのオープンレコメンデーションベンチマーク
- Authors: Jingyuan He, Jiongnan Liu, Vishan Vishesh Oberoi, Bolin Wu, Mahima Jagadeesh Patel, Kangrui Mao, Chuning Shi, I-Ta Lee, Arnold Overwijk, Chenyan Xiong,
- Abstract要約: 隠れテストを用いた再現性研究のためのオープンレコメンデーションベンチマーク(Open Recommendation Benchmark)を提案する。
ORBITは、公開データセットの標準化された評価フレームワークで、再現可能な分割と、公開リーダボードの透過的な設定を提供する。
ClueWeb-Recoは、リアル、ユーザ合意、プライバシ保証されたブラウジングデータから派生した合成データセットである。
- 参考スコア(独自算出の注目度): 19.650424878799246
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recommender systems are among the most impactful AI applications, interacting with billions of users every day, guiding them to relevant products, services, or information tailored to their preferences. However, the research and development of recommender systems are hindered by existing datasets that fail to capture realistic user behaviors and inconsistent evaluation settings that lead to ambiguous conclusions. This paper introduces the Open Recommendation Benchmark for Reproducible Research with HIdden Tests (ORBIT), a unified benchmark for consistent and realistic evaluation of recommendation models. ORBIT offers a standardized evaluation framework of public datasets with reproducible splits and transparent settings for its public leaderboard. Additionally, ORBIT introduces a new webpage recommendation task, ClueWeb-Reco, featuring web browsing sequences from 87 million public, high-quality webpages. ClueWeb-Reco is a synthetic dataset derived from real, user-consented, and privacy-guaranteed browsing data. It aligns with modern recommendation scenarios and is reserved as the hidden test part of our leaderboard to challenge recommendation models' generalization ability. ORBIT measures 12 representative recommendation models on its public benchmark and introduces a prompted LLM baseline on the ClueWeb-Reco hidden test. Our benchmark results reflect general improvements of recommender systems on the public datasets, with variable individual performances. The results on the hidden test reveal the limitations of existing approaches in large-scale webpage recommendation and highlight the potential for improvements with LLM integrations. ORBIT benchmark, leaderboard, and codebase are available at https://www.open-reco-bench.ai.
- Abstract(参考訳): リコメンダシステムは最も影響力のあるAIアプリケーションのひとつで、毎日何十億ものユーザーと対話し、関連する製品やサービス、あるいは好みに合わせて調整された情報に誘導する。
しかし、レコメンダシステムの研究と開発は、現実的なユーザの振る舞いを捉えるのに失敗する既存のデータセットや、曖昧な結論につながる一貫性のない評価設定によって妨げられている。
本稿では,提案手法の統一的評価手法であるOpen Recommendation Benchmark for Reproducible Research with HIdden Tests (ORBIT)を紹介する。
ORBITは、公開データセットの標準化された評価フレームワークで、再現可能な分割と、公開リーダボードの透過的な設定を提供する。
さらに、ORBITは新しいWebページレコメンデーションタスクClueWeb-Recoを導入し、8700万のパブリックな高品質なWebページのWebブラウジングシーケンスを特徴としている。
ClueWeb-Recoは、リアル、ユーザ合意、プライバシ保証されたブラウジングデータから派生した合成データセットである。
モダンなレコメンデーションシナリオと整合し、レコメンデーションモデルの一般化能力に挑戦するために、リーダボードの隠れテスト部分として予約されています。
ORBITは、公開ベンチマークで12の代表的なレコメンデーションモデルを測定し、ClueWeb-RecoシークレットテストにLLMベースラインを導入している。
提案するベンチマークの結果は,公共データセット上でのリコメンデータシステムの全般的な改善を反映しており,個々のパフォーマンスが変動している。
隠れテストの結果は、大規模Webページレコメンデーションにおける既存のアプローチの限界を明らかにし、LLM統合の改善の可能性を強調している。
ORBITベンチマーク、リーダーボード、コードベースはhttps://www.open-reco-bench.ai.comで入手できる。
関連論文リスト
- Towards a Real-World Aligned Benchmark for Unlearning in Recommender Systems [49.766845975588275]
推薦システムにおける非学習のためのより現実的なベンチマークの開発を導くために,設計デシダータと研究質問のセットを提案する。
我々は、現実世界の削除要求の逐次的で時間に敏感な性質を反映した、未学習のセットアップについて論じる。
本稿では,提案したdesiderataをベースとした次世代レコメンデーションセッティングの予備実験を行い,アンラーニングが逐次レコメンデーションモデルにも有効であることを確認した。
論文 参考訳(メタデータ) (2025-08-23T16:05:40Z) - Why am I seeing this? Towards recognizing social media recommender systems with missing recommendations [4.242821809663174]
グラフニューラルネットワーク(GNN)を用いた自動レコメンダ認識手法を提案する。
提案手法は,隠されたレコメンデータの正確な検出とユーザ行動への影響を可能にする。
この研究は、レコメンダが行動をどのように形成し、偏光と誤情報を減らすための努力を支援するかについての洞察を提供する。
論文 参考訳(メタデータ) (2025-04-15T09:16:17Z) - Can LLMs Outshine Conventional Recommenders? A Comparative Evaluation [33.031903907256606]
本稿では、クリックスルーレート予測(CTR)とシーケンシャルレコメンデーション(SeqRec)という2つの主要なレコメンデーションタスクを評価するRecBenchを紹介する。
実験は最大17種類の大モデルを対象としており、ファッション、ニュース、ビデオ、書籍、音楽ドメインの5つの多様なデータセットで実施されている。
以上の結果から,LCMベースのレコメンデータは従来のレコメンデータよりも優れ,CTRシナリオでは最大5%のAUC改善,SeqRecシナリオでは最大170%のNDCG@10改善を実現した。
論文 参考訳(メタデータ) (2025-03-07T15:05:23Z) - Interactive Visualization Recommendation with Hier-SUCB [52.11209329270573]
本稿では,従来のインタラクションからユーザフィードバックを学習する対話型パーソナライズドビジュアライゼーションレコメンデーション(PVisRec)システムを提案する。
よりインタラクティブで正確なレコメンデーションのために、PVisRec設定における文脈的半帯域であるHier-SUCBを提案する。
論文 参考訳(メタデータ) (2025-02-05T17:14:45Z) - The BrowserGym Ecosystem for Web Agent Research [151.90034093362343]
BrowserGymエコシステムは、Webエージェントの効率的な評価とベンチマークの必要性の高まりに対処する。
本稿では,Webエージェント研究のためのBrowserGymベースの拡張エコシステムを提案する。
大規模なマルチベンチマークWebエージェント実験を初めて実施し、6つのWebエージェントベンチマークで6つの最先端LCMの性能を比較した。
論文 参考訳(メタデータ) (2024-12-06T23:43:59Z) - Revisiting BPR: A Replicability Study of a Common Recommender System Baseline [78.00363373925758]
我々は,BPRモデルの特徴を考察し,その性能への影響を示し,オープンソースのBPR実装について検討する。
分析の結果,これらの実装とオリジナルのBPR論文の矛盾が明らかとなり,特定の実装に対して最大50%の性能低下がみられた。
BPRモデルは、トップnのレコメンデーションタスクにおける最先端メソッドに近いパフォーマンスレベルを達成でき、特定のデータセット上でもパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2024-09-21T18:39:53Z) - RBoard: A Unified Platform for Reproducible and Reusable Recommender System Benchmarks [0.4312340306206883]
RBoardは推奨システムのベンチマークのための新しいフレームワークである。
CTR予測やTop-Nレコメンデーションなど、さまざまなレコメンデーションタスクをベンチマークするための総合的なプラットフォームを提供する。
このフレームワークは各タスク内の複数のデータセットにまたがるアルゴリズムを評価し、総合的なパフォーマンス評価の結果を集約する。
論文 参考訳(メタデータ) (2024-09-09T11:35:35Z) - PLIERS: a Popularity-Based Recommender System for Content Dissemination
in Online Social Networks [5.505634045241288]
PLIERSと呼ばれる新しいタグベースのレコメンデーションシステムを提案する。
これは、ユーザーが主にアイテムやタグに興味を持ち、既に所有しているものと同様の人気があるという仮定に依存している。
PLIERSは、アルゴリズムと推奨項目のパーソナライズレベルとの良好なトレードオフを達成することを目的としている。
論文 参考訳(メタデータ) (2023-07-06T09:04:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。