論文の概要: HotelRec: a Novel Very Large-Scale Hotel Recommendation Dataset
- arxiv url: http://arxiv.org/abs/2002.06854v1
- Date: Mon, 17 Feb 2020 09:30:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-31 13:03:15.896741
- Title: HotelRec: a Novel Very Large-Scale Hotel Recommendation Dataset
- Title(参考訳): HotelRec: 非常に大規模なホテルレコメンデーションデータセット
- Authors: Diego Antognini, Boi Faltings
- Abstract要約: 最先端のディープラーニングベースのモデルは、最高のパフォーマンスを達成するために、大量のデータを必要とします。
HotelRecは、5000万のレビューがあるホテルドメインで最大の公開データセットである。
- 参考スコア(独自算出の注目度): 39.38032088973816
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Today, recommender systems are an inevitable part of everyone's daily digital
routine and are present on most internet platforms. State-of-the-art deep
learning-based models require a large number of data to achieve their best
performance. Many datasets fulfilling this criterion have been proposed for
multiple domains, such as Amazon products, restaurants, or beers. However,
works and datasets in the hotel domain are limited: the largest hotel review
dataset is below the million samples. Additionally, the hotel domain suffers
from a higher data sparsity than traditional recommendation datasets and
therefore, traditional collaborative-filtering approaches cannot be applied to
such data. In this paper, we propose HotelRec, a very large-scale hotel
recommendation dataset, based on TripAdvisor, containing 50 million reviews. To
the best of our knowledge, HotelRec is the largest publicly available dataset
in the hotel domain (50M versus 0.9M) and additionally, the largest
recommendation dataset in a single domain and with textual reviews (50M versus
22M). We release HotelRec for further research:
https://github.com/Diego999/HotelRec.
- Abstract(参考訳): 今日、レコメンダシステムは、すべての人の毎日のデジタルルーチンの必然的な部分であり、ほとんどのインターネットプラットフォームに存在している。
最先端のディープラーニングベースのモデルは、最高のパフォーマンスを達成するために大量のデータを必要とする。
この基準を満たす多くのデータセットが、Amazon製品、レストラン、ビールなど、複数のドメインに対して提案されている。
しかし、ホテルドメインの作業やデータセットは限られており、最大のホテルレビューデータセットは100万のサンプル以下である。
さらに、ホテルドメインは従来のレコメンデーションデータセットよりも高いデータ空間に悩まされているため、従来の協調フィルタリングアプローチはそのようなデータに適用できない。
本稿では,TripAdvisorに基づく大規模ホテルレコメンデーションデータセットであるHotelRecを提案する。
われわれの知る限りでは、HotelRecはホテルのドメインで最大の公開データセット(0.9Mに対して50M)であり、また単一のドメインで最大のレコメンデーションデータセットであり、テキストレビュー(50M対2M)がある。
さらなる調査のためにHotelRecをリリースします。
関連論文リスト
- A Natural Language Processing Framework for Hotel Recommendation Based on Users' Text Reviews [0.0]
このフレームワークは、BERT(Bidirectional Representations from Transformers)と微調整/バリデーションパイプラインに基づいている。
提案するホテルレコメンデーションシステムは,予約施設のユーザエクスペリエンスを著しく向上させることができる。
論文 参考訳(メタデータ) (2024-08-01T17:01:29Z) - LMSYS-Chat-1M: A Large-Scale Real-World LLM Conversation Dataset [75.9621305227523]
LMSYS-Chat-1M(LMSYS-Chat-1M)について紹介する。
このデータセットは、VicunaのデモとArenaのWebサイトで、210KのIPアドレスから収集されています。
GPT-4と同様の動作を行うコンテンツモデレーションモデルの開発、安全性ベンチマークの構築、Vicunaと同様の動作を行う命令追従モデルのトレーニング、挑戦的なベンチマーク問題の作成、という4つのユースケースを通じて、その汎用性を実証する。
論文 参考訳(メタデータ) (2023-09-21T12:13:55Z) - CSPRD: A Financial Policy Retrieval Dataset for Chinese Stock Market [61.59326951366202]
我々は、中国株式政策検索データセット(CSPRD)を導入して、新たな課題である政策検索を提案する。
CSPRDは、中国の政策コーパスの10k以上の項目から、経験豊富な専門家によってラベル付けされた700以上のパスを提供する。
我々の最高のパフォーマンスベースラインは56.1% MRR@10、28.5% NDCG@10、37.5% Recall@10、80.6% Precision@10である。
論文 参考訳(メタデータ) (2023-09-08T15:40:54Z) - Amazon-M2: A Multilingual Multi-locale Shopping Session Dataset for
Recommendation and Text Generation [127.35910314813854]
Amazon Multi-locale Shopping Sessionデータセット、すなわちAmazon-M2を提示します。
6つの異なるローカライズされた数百万のユーザセッションからなる、最初の多言語データセットである。
注目すべきは、データセットがパーソナライズとユーザの好みの理解を高めるのに役立つことだ。
論文 参考訳(メタデータ) (2023-07-19T00:08:49Z) - DataFinder: Scientific Dataset Recommendation from Natural Language
Descriptions [100.52917027038369]
我々は、短い自然言語記述を与えられたデータセットを推奨するタスクを運用する。
この作業を容易にするために、我々は、より大規模な自動構築トレーニングセットと、より少ない専門家によるアノテート評価セットからなるDataFinderデータセットを構築した。
このシステムは、DataFinderデータセットに基づいてトレーニングされ、既存のサードパーティのデータセット検索エンジンよりも関連性の高い検索結果を見つける。
論文 参考訳(メタデータ) (2023-05-26T05:22:36Z) - MobileRec: A Large-Scale Dataset for Mobile Apps Recommendation [13.500977307018669]
MobileRecには1930万のユーザインタラクション(すなわちアプリのユーザレビュー)があり、48のカテゴリに10万以上のユニークなアプリがある。
MobileRecは、インストールされたアプリに対するユーザーの評価だけでなく、インストールされたアプリに対する感情も提示し、各アプリには、アプリ名、カテゴリ、説明、全体的な評価といった豊富なメタデータが含まれている。
論文 参考訳(メタデータ) (2023-03-12T06:39:40Z) - T5Score: Discriminative Fine-tuning of Generative Evaluation Metrics [94.69907794006826]
我々は、現在利用可能なデータから、教師なし信号と教師なし信号の両方を用いて、両方の世界のベストを結合するフレームワークを提案する。
このアイデアを,mT5をバックボーンとするトレーニング信号を使用するメトリックであるT5Scoreをトレーニングすることで,運用する。
T5Scoreは、セグメントレベルの既存のトップスコアメトリクスに対して、すべてのデータセットで最高のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-12-12T06:29:04Z) - Revisiting Hotels-50K and Hotel-ID [4.794489647730955]
本稿では,ホテル50KとホテルIDの2つのホテル認識データセットの改訂版を提案する。
再検討されたバージョンは、意図した現実世界のアプリケーションとの整合性を改善するために、さまざまなレベルの困難を伴う評価設定を提供する。
論文 参考訳(メタデータ) (2022-07-20T21:38:19Z) - Hotel Recognition via Latent Image Embedding [1.0013376065994979]
我々は,メトリクス学習モデルをベンチマークするための堅牢なパイプラインを構築した。
対照的なTriplet損失は、Hotels-50kデータセットでのより良い検索を実現するために示される。
論文 参考訳(メタデータ) (2021-06-15T10:52:07Z) - The 2021 Hotel-ID to Combat Human Trafficking Competition Dataset [2.597151774317691]
ホテルの認識は、被害者がホテルの部屋でしばしば撮影されるため、人身売買の捜査にとって重要な課題である。
本稿では,この問題に対する意識を高め,新たなアプローチを生み出すために,2021年のHotel-IDデータセットを提案する。
データセットは、TraffickCamモバイルアプリケーションを通じてクラウドソースされアップロードされたホテルのルームイメージで構成されている。
論文 参考訳(メタデータ) (2021-06-10T13:50:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。