Fugu-MT 論文翻訳(概要): HORIZON: A Benchmark for In-the-wild User Behaviour Modeling

論文の概要: HORIZON: A Benchmark for In-the-wild User Behaviour Modeling

arxiv url: http://arxiv.org/abs/2604.17259v1
Date: Sun, 19 Apr 2026 04:45:48 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-21 21:52:52.422823
Title: HORIZON: A Benchmark for In-the-wild User Behaviour Modeling
Title（参考訳）: HoriZON: ユーザビヘイビアモデリングのためのベンチマーク
Authors: Arnav Goel, Pranjal A Chitale, Bhawna Paliwal, Bishal Santra, Amit Sharma,
Abstract要約: 本稿では,データセット,タスク,評価の3つの軸に沿ってユーザモデリングを再構築する新しいベンチマークであるHoriZONを紹介する。大規模でクロスドメインなAmazon Reviewsから構築されたHoriZONは、54万のユーザと3500万のアイテムをカバーしている。以前のベンチマークとは異なり、同じドメインにおける標準の欠落陽性予測を超えて、ドメイン、ユーザ、時間にわたってモデルを一般化するよう、モデルに挑戦する。
参考スコア（独自算出の注目度）: 14.815729073163729
License: http://creativecommons.org/licenses/by/4.0/
Abstract: User behavior in the real world is diverse, cross-domain, and spans long time horizons. Existing user modeling benchmarks however remain narrow, focusing mainly on short sessions and next-item prediction within a single domain. Such limitations hinder progress toward robust and generalizable user models. We present HORIZON, a new benchmark that reformulates user modeling along three axes i.e. dataset, task, and evaluation. Built from a large-scale, cross-domain reformulation of Amazon Reviews, HORIZON covers 54M users and 35M items, enabling both pretraining and realistic evaluation of models in heterogeneous environments. Unlike prior benchmarks, it challenges models to generalize across domains, users, and time, moving beyond standard missing-positive prediction in the same domain. We propose new tasks and evaluation setups that better reflect real-world deployment scenarios. These include temporal generalization, sequence-length variation, and modeling unseen users, with metrics designed to assess general user behavior understanding rather than isolated next-item prediction. We benchmark popular sequential recommendation architectures alongside LLM-based baselines that leverage long-term interaction histories. Our results highlight the gap between current methods and the demands of real-world user modeling, while establishing HORIZON as a foundation for research on temporally robust, cross-domain, and general-purpose user models.
Abstract（参考訳）: 現実世界のユーザ行動は多様であり、ドメイン横断であり、長い時間的地平線にまたがっている。しかし、既存のユーザモデリングベンチマークは依然として狭く、主にショートセッションと1つのドメイン内の次のイテム予測に焦点を当てている。このような制限は、堅牢で一般化可能なユーザーモデルへの進歩を妨げる。本稿では,データセット,タスク,評価の3つの軸に沿ってユーザモデリングを再構築する新しいベンチマークであるHoriZONを紹介する。 HORIZONは、Amazon Reviewsの大規模でクロスドメインな改訂によって構築され、54万のユーザと3500万のアイテムをカバーし、異種環境におけるモデルの事前トレーニングと現実的な評価を可能にする。以前のベンチマークとは異なり、同じドメインにおける標準の欠落陽性予測を超えて、ドメイン、ユーザ、時間にわたってモデルを一般化するよう、モデルに挑戦する。実世界の展開シナリオをよりよく反映した新しいタスクと評価設定を提案する。これには、時間的一般化、シーケンス長の変動、不明なユーザをモデル化するメトリクスが含まれており、孤立した次のイテム予測ではなく、一般的なユーザ行動の理解を評価するために設計された。我々は,長期の相互作用履歴を利用するLLMベースのベースラインとともに,人気のあるシーケンシャルレコメンデーションアーキテクチャをベンチマークする。本研究は,時間的ロバスト,クロスドメイン,汎用ユーザモデルの研究基盤としてHoriZONを確立するとともに,現在の手法と実世界のユーザモデリングの要求とのギャップを浮き彫りにするものである。

関連論文リスト

Towards Real-world Human Behavior Simulation: Benchmarking Large Language Models on Long-horizon, Cross-scenario, Heterogeneous Behavior Traces [81.41397370235102]
我々はOmniBehaviorを紹介した。OmniBehaviorは実世界のデータから構築された最初のユーザシミュレーションベンチマークである。現在のモデルでは,コンテキストウィンドウが拡大しても,複雑な振る舞いを正確にシミュレートすることが困難であることを示す。この結果、個人差や長い尾の挙動が失われ、将来の高忠実度シミュレーション研究における重要な方向性が浮き彫りになる。
論文参考訳（メタデータ） (2026-04-09T15:26:21Z)
It's TIME: Towards the Next Generation of Time Series Forecasting Benchmarks [87.7937890373758]
時系列基礎モデル(TSFM)は,特定のデータセットモデルから一般化可能なタスク評価に至るまで,予測環境に革命をもたらしている。我々は、50の新しいデータセットと98の予測タスクからなる次世代タスク中心のベンチマークであるTIMEを紹介する。静的なメタラベルに基づく従来のデータセットレベルの評価を超える新しいパターンレベルの評価視点を提案する。
論文参考訳（メタデータ） (2026-02-12T16:31:01Z)
P-GenRM: Personalized Generative Reward Model with Test-time User-based Scaling [66.55381105691818]
P-GenRM(Personalized Generative Reward Model)を提案する。 P-GenRMは、選好信号を適応的なペルソナとスコアリングルーリックを導出する構造化評価チェーンに変換する。さらにユーザをユーザプロトタイプにクラスタリングし、二重粒度スケーリングメカニズムを導入している。
論文参考訳（メタデータ） (2026-02-12T16:07:22Z)
REVELIO -- Universal Multimodal Task Load Estimation for Cross-Domain Generalization [2.689067085628911]
本稿では,実世界のゲームアプリケーションを用いて,認知負荷検出ベンチマークを拡張したマルチモーダルデータセットを提案する。タスク負荷アノテーションは、客観的なパフォーマンス、主観的なNASA-TLX評価、タスクレベルの設計から派生している。 xLSTM、ConvNeXt、Transformerアーキテクチャを含む最先端のエンドツーエンドモデルは、体系的にトレーニングされ、評価される。
論文参考訳（メタデータ） (2025-09-01T17:36:09Z)
A Third Paradigm for LLM Evaluation: Dialogue Game-Based Evaluation using clembench [18.149327897427234]
2023年から継続的開発が続けられているClembenchについて紹介する。我々は、それが自身のモデル(英語で提供されるベンチマークゲームインスタンスのセットを使用して)のベンチマークにどのように使用できるかを説明する。
論文参考訳（メタデータ） (2025-07-11T11:16:01Z)
Time Series Generation Under Data Scarcity: A Unified Generative Modeling Approach [7.631288333466648]
データ・スカース・セッティングにおける主要な生成モデルを評価するための大規模な研究を初めて行った。本稿では,いくつかの例を用いて高忠実度時系列を合成できる拡散型統合生成フレームワークを提案する。
論文参考訳（メタデータ） (2025-05-26T18:39:04Z)
EdgeWisePersona: A Dataset for On-Device User Profiling from Natural Language Interactions [0.6650227510403052]
本稿では,エッジデバイス上に展開可能な小型言語モデルの評価と改善を目的とした,新しいデータセットを提案する。データセットの中核は構造化されたユーザプロファイルであり、それぞれがルーチンのセットによって定義される。大規模言語モデル(LLM)は、現実的で多様性があり、コンテキスト対応の対話をシミュレートする、対応する対話セッションを生成する。
論文参考訳（メタデータ） (2025-05-16T16:29:21Z)
Modeling the Heterogeneous Duration of User Interest in Time-Dependent Recommendation: A Hidden Semi-Markov Approach [11.392605386729699]
ユーザの関心事の変化を追跡するために,隠れたセミマルコフモデルを提案する。このモデルでは、(最近)関心のある状態に留まるユーザの異なる期間をキャプチャすることができる。パラメータを推定し,ユーザの行動を予測するためのアルゴリズムを導出する。
論文参考訳（メタデータ） (2024-12-15T09:17:45Z)
Domain-Expanded ASTE: Rethinking Generalization in Aspect Sentiment Triplet Extraction [67.54420015049732]
Aspect Sentiment Triplet extract (ASTE) は感情分析における課題であり、人間の感情に対するきめ細かい洞察を提供することを目的としている。既存のベンチマークは2つのドメインに限定されており、目に見えないドメイン上でのモデルパフォーマンスを評価しない。各種ドメインのサンプルに注釈を付けることでドメイン拡張ベンチマークを導入し,ドメイン内設定とドメイン外設定の両方でモデルの評価を可能にする。
論文参考訳（メタデータ） (2023-05-23T18:01:49Z)
Global-to-Local Modeling for Video-based 3D Human Pose and Shape Estimation [53.04781510348416]
フレーム内精度とフレーム間スムーズさにより,映像に基づく3次元人間のポーズと形状推定を評価する。エンドツーエンドフレームワークGLoT(Global-to-Local Transformer)における長期的・短期的相関のモデル化を構造的に分離することを提案する。我々のGLoTは、一般的なベンチマーク(3DPW、MPI-INF-3DHP、Human3.6M)において、最も低いモデルパラメータを持つ従来の最先端の手法を上回る。
論文参考訳（メタデータ） (2023-03-26T14:57:49Z)
Federated Privacy-preserving Collaborative Filtering for On-Device Next App Prediction [52.16923290335873]
本稿では,モバイルデバイス使用時の次のアプリの起動を予測するための新しいSeqMFモデルを提案する。古典行列分解モデルの構造を修正し、学習手順を逐次学習に更新する。提案手法のもうひとつの要素は,ユーザからリモートサーバへの送信データの保護を保証する,新たなプライバシメカニズムである。
論文参考訳（メタデータ） (2023-02-05T10:29:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。