論文の概要: Evaluating Recabilities of Foundation Models: A Multi-Domain, Multi-Dataset Benchmark
- arxiv url: http://arxiv.org/abs/2508.21354v1
- Date: Fri, 29 Aug 2025 06:40:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-01 19:45:10.937049
- Title: Evaluating Recabilities of Foundation Models: A Multi-Domain, Multi-Dataset Benchmark
- Title(参考訳): 基礎モデルの信頼性を評価する:マルチドメイン・マルチデータセットベンチマーク
- Authors: Qijiong Liu, Jieming Zhu, Yingxin Lai, Xiaoyu Dong, Lu Fan, Zhipeng Bian, Zhenhua Dong, Xiao-Ming Wu,
- Abstract要約: RecBench-MDは,基礎モデルの推薦能力を評価するために考案された,新規かつ包括的なベンチマークである。
電子商取引、エンターテイメント、ソーシャルメディアを含む10の異なる領域にまたがる15のデータセットにまたがる19のファンデーションモデルを評価する。
本研究は,ドメイン内ファインチューニングが最適性能を実現するのに対して,クロスデータセット転送学習は効果的な実践的支援を提供することを示す。
- 参考スコア(独自算出の注目度): 36.94895721052766
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Comprehensive evaluation of the recommendation capabilities of existing foundation models across diverse datasets and domains is essential for advancing the development of recommendation foundation models. In this study, we introduce RecBench-MD, a novel and comprehensive benchmark designed to assess the recommendation abilities of foundation models from a zero-resource, multi-dataset, and multi-domain perspective. Through extensive evaluations of 19 foundation models across 15 datasets spanning 10 diverse domains -- including e-commerce, entertainment, and social media -- we identify key characteristics of these models in recommendation tasks. Our findings suggest that in-domain fine-tuning achieves optimal performance, while cross-dataset transfer learning provides effective practical support for new recommendation scenarios. Additionally, we observe that multi-domain training significantly enhances the adaptability of foundation models. All code and data have been publicly released to facilitate future research.
- Abstract(参考訳): 多様なデータセットやドメインにまたがる既存ファンデーションモデルのレコメンデーション能力の総合評価は,レコメンデーションファンデーションモデルの発展に不可欠である。
本研究では、ゼロリソース、マルチデータセット、マルチドメインの観点から基礎モデルの推薦能力を評価するために設計された、新しい総合的なベンチマークであるRecBench-MDを紹介する。
電子商取引、エンターテイメント、ソーシャルメディアを含む10のドメインにまたがる15のデータセットにまたがる19のファンデーションモデルの広範な評価を通じて、推奨タスクにおいてこれらのモデルの重要な特徴を特定します。
本研究は,ドメイン内ファインチューニングが最適性能を実現するのに対して,クロスデータセット転送学習は,新たなレコメンデーションシナリオを効果的に支援するものであることを示唆する。
さらに,マルチドメイン学習は基礎モデルの適応性を著しく向上させる。
すべてのコードとデータは、将来の研究を促進するために公開された。
関連論文リスト
- A Survey of Optimization Modeling Meets LLMs: Progress and Future Directions [27.77977859998504]
大規模言語モデル(LLM)の出現に伴い、数学的モデリングの手順を自動化する新たな機会が出現した。
この調査は、技術的スタック全体をカバーする最近の進歩を包括的にレビューする。
論文 参考訳(メタデータ) (2025-08-12T06:55:33Z) - EduBench: A Comprehensive Benchmarking Dataset for Evaluating Large Language Models in Diverse Educational Scenarios [41.370448581863194]
教育シナリオに適した最初の多様なベンチマークを紹介します。
本稿では,教師と学生の両方に関係のある12つの重要な側面をカバーする多次元評価指標を提案する。
構築したデータセット上で比較的小規模なモデルをトレーニングし、最先端の大規模モデルに匹敵するパフォーマンスを実現することを実証する。
論文 参考訳(メタデータ) (2025-05-22T03:01:28Z) - Scenario-Wise Rec: A Multi-Scenario Recommendation Benchmark [54.93461228053298]
6つの公開データセットと12のベンチマークモデルと、トレーニングと評価パイプラインで構成されるベンチマークである textbfScenario-Wise Rec を紹介します。
このベンチマークは、研究者に先行研究から貴重な洞察を提供することを目的としており、新しいモデルの開発を可能にしている。
論文 参考訳(メタデータ) (2024-12-23T08:15:34Z) - GIFT-Eval: A Benchmark For General Time Series Forecasting Model Evaluation [90.53485251837235]
時系列基礎モデルはゼロショット予測に優れ、明示的なトレーニングなしで多様なタスクを処理する。
GIFT-Evalは、多様なデータセットに対する評価を促進するための先駆的なベンチマークである。
GIFT-Evalには、144,000の時系列と17700万のデータポイントの23のデータセットが含まれている。
論文 参考訳(メタデータ) (2024-10-14T11:29:38Z) - Multi-document Summarization: A Comparative Evaluation [0.0]
本論文は,多文書要約(MDS)のための最先端モデルの評価を,様々な領域の異なるタイプのデータセット上で行うことを目的としている。
我々は,Big-SurveyおよびMS$2$データセット上でのPRIMERAおよびPEGモデルの性能を解析した。
論文 参考訳(メタデータ) (2023-09-10T07:43:42Z) - GEO-Bench: Toward Foundation Models for Earth Monitoring [139.77907168809085]
6つの分類と6つのセグメンテーションタスクからなるベンチマークを提案する。
このベンチマークは、さまざまな地球観測タスクの進行の原動力となる。
論文 参考訳(メタデータ) (2023-06-06T16:16:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。