論文の概要: HorizonBench: Long-Horizon Personalization with Evolving Preferences
- arxiv url: http://arxiv.org/abs/2604.17283v1
- Date: Sun, 19 Apr 2026 06:55:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.435169
- Title: HorizonBench: Long-Horizon Personalization with Evolving Preferences
- Title(参考訳): HorizonBench: 進化する選好を伴うロングホライゾンパーソナライゼーション
- Authors: Shuyue Stella Li, Bhargavi Paranjape, Kerem Oktar, Zhongyao Ma, Gelin Zhou, Lin Guan, Na Zhang, Sem Park, Lin Chen, Diyi Yang, Yulia Tsvetkov, Asli Celikyilmaz,
- Abstract要約: 構造化されたメンタルステートグラフから会話を生成するデータジェネレータを導入する。
そこからHorizonBenchを構築する。これは6ヶ月の会話履歴を持つ360のシミュレーションユーザーから4,245項目のベンチマークである。
HorizonBenchは、長期コンテキストモデリング、メモリ拡張アーキテクチャ、理論・オブ・ミンド推論、ユーザーモデリングのためのテストベッドを提供する。
- 参考スコア(独自算出の注目度): 73.32940850193681
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: User preferences evolve across months of interaction, and tracking them requires inferring when a stated preference has been changed by a subsequent life event. We define this problem as long-horizon personalization and observe that progress on it is limited by data availability and measurement, with no existing resource providing both naturalistic long-horizon interactions and the ground-truth provenance needed to diagnose why models fail. We introduce a data generator that produces conversations from a structured mental state graph, yielding ground-truth provenance for every preference change across 6-month timelines, and from it construct HorizonBench, a benchmark of 4,245 items from 360 simulated users with 6-month conversation histories averaging ~4,300 turns and ~163K tokens. HorizonBench provides a testbed for long-context modeling, memory-augmented architectures, theory-of-mind reasoning, and user modeling. Across 25 frontier models, the best model reaches 52.8% and most score at or below the 20% chance baseline. When these models err on evolved preferences, over a third of the time they select the user's originally stated value without tracking the updated user state. This belief-update failure persists across context lengths and expression explicitness levels, identifying state-tracking capability as the primary bottleneck for long-horizon personalization.
- Abstract(参考訳): ユーザの嗜好は、数ヶ月間のインタラクションを通じて進化し、それらを追跡するには、後続のライフイベントによって、記述された嗜好が変更された場合の推論が必要である。
我々は、この問題を長期個人化として定義し、データの可用性と測定によって進行が制限されていることを観察する。
構造化されたメンタルステートグラフから会話を生成するデータ生成装置を導入し、6ヶ月のタイムラインをまたいだ選好変化の基調的証明を行い、6ヶ月の会話履歴が平均4,300回、約163Kのトークンを持つ360ユーザからの4,245項目のベンチマークであるHorizonBenchを構築した。
HorizonBenchは、長期コンテキストモデリング、メモリ拡張アーキテクチャ、理論・オブ・ミンド推論、ユーザーモデリングのためのテストベッドを提供する。
25のフロンティアモデルで、最高のモデルは52.8%に達し、ほとんどのスコアは20%の確率ベースライン以下である。
これらのモデルが進化した嗜好に基づいてくると、その3分の1以上は、更新されたユーザ状態を追跡することなく、ユーザの最初に宣言された値を選択する。
この信念更新障害は、コンテキスト長と表現明示度レベルにわたって持続し、状態追跡能力が長期的パーソナライズの主要なボトルネックであると同定する。
関連論文リスト
- HORIZON: A Benchmark for In-the-wild User Behaviour Modeling [14.815729073163729]
本稿では,データセット,タスク,評価の3つの軸に沿ってユーザモデリングを再構築する新しいベンチマークであるHoriZONを紹介する。
大規模でクロスドメインなAmazon Reviewsから構築されたHoriZONは、54万のユーザと3500万のアイテムをカバーしている。
以前のベンチマークとは異なり、同じドメインにおける標準の欠落陽性予測を超えて、ドメイン、ユーザ、時間にわたってモデルを一般化するよう、モデルに挑戦する。
論文 参考訳(メタデータ) (2026-04-19T04:45:48Z) - A Grid-Based Framework for E-Scooter Demand Representation and Temporal Input Design for Deep Learning: Evidence from Austin, Texas [0.17188280334580194]
本稿では,画像から画像への需要予測のための時間的入力構造を統計的に設計する手法を提案する。
我々は、旅行記録を時間ごとのピックアップ・アンド・ドロップオフ需要画像に変換することにより、グリッドベースの国勢調査データセットを構築した。
提案した設計では、次の24時間予測では平均2乗誤差を最大37%削減し、次の24時間予測では35%削減する。
論文 参考訳(メタデータ) (2026-03-13T21:36:04Z) - It's TIME: Towards the Next Generation of Time Series Forecasting Benchmarks [87.7937890373758]
時系列基礎モデル(TSFM)は,特定のデータセットモデルから一般化可能なタスク評価に至るまで,予測環境に革命をもたらしている。
我々は、50の新しいデータセットと98の予測タスクからなる次世代タスク中心のベンチマークであるTIMEを紹介する。
静的なメタラベルに基づく従来のデータセットレベルの評価を超える新しいパターンレベルの評価視点を提案する。
論文 参考訳(メタデータ) (2026-02-12T16:31:01Z) - ALPBench: A Benchmark for Attribution-level Long-term Personal Behavior Understanding [53.88804678012327]
ALPBenchは属性レベルの長期的個人行動理解のためのベンチマークである。
ユーザと興味のある属性の組み合わせを予測し、基幹構造評価を可能にする。
ユーザの明示的に表現された要求よりも、長期的な歴史的行動の好みをモデル化する。
論文 参考訳(メタデータ) (2026-02-03T03:32:16Z) - SPRInG: Continual LLM Personalization via Selective Parametric Adaptation and Retrieval-Interpolated Generation [11.253466187411524]
SPRInGは、効果的な継続パーソナライズを目的とした、新しい半パラメトリックフレームワークである。
訓練中、SPRInGはドリフト駆動の選択的適応を採用しており、これは確率に基づくスコアリング機能を用いて高能率相互作用を識別する。
長期のパーソナライズされた生成ベンチマークの実験は、SPRInGが既存のベースラインを上回っていることを示している。
論文 参考訳(メタデータ) (2026-01-15T01:32:27Z) - GRAID: Enhancing Spatial Reasoning of VLMs Through High-Fidelity Data Generation [31.365285503503475]
標準検出器から2次元ボックスを用いて空間推論を学習するためのフレームワークを提案する。
GRAIDデータに基づいて訓練すると、モデルは過剰詳細保持型を一般化する空間的推論概念を学習する。
また、すべての質問タイプでトレーニングすると、いくつかの既存のベンチマークの改善が達成されることを示す。
論文 参考訳(メタデータ) (2025-10-25T02:07:23Z) - Discrete-event Tensor Factorization: Learning a Smooth Embedding for Continuous Domains [0.0]
本稿では、因子化スタイルのレコメンデーションモデルにおいて、時間がどのように符号化されるかを分析する。
機能として絶対時間を含めることで、私たちのモデルはさまざまなユーザの好みを学習し、時間とともにアイテムの知覚を変化させることができます。
論文 参考訳(メタデータ) (2025-08-06T08:54:57Z) - OmniTraj: Pre-Training on Heterogeneous Data for Adaptive and Zero-Shot Human Trajectory Prediction [62.385417528148224]
OmniTrajは、大規模な異種データセットで事前トレーニングされたトランスフォーマーベースのモデルである。
実験によると、フレームレートを明示的に条件付けすることで、OmniTrajは最先端のゼロショット転送性能を実現することができる。
論文 参考訳(メタデータ) (2025-07-31T15:37:09Z) - Output Scaling: YingLong-Delayed Chain of Thought in a Large Pretrained Time Series Forecasting Model [55.25659103706409]
このフレームワークは,設計した基盤モデルであるYingLongの最先端性能を実現する。
YingLongは、マスク付きトークンリカバリによってトレーニングされた非因果的双方向アテンションエンコーダのみのトランスフォーマーである。
我々は、6Mから3Mパラメータの4つの基礎モデルをリリースし、ゼロショットタスクにおいて優れた結果を示す。
論文 参考訳(メタデータ) (2025-05-20T14:31:06Z) - Learning Transferrable Parameters for Long-tailed Sequential User
Behavior Modeling [70.64257515361972]
テールユーザに注力することで、より多くのメリットをもたらし、長いテールの問題に対処できる、と私たちは主張しています。
具体的には、頭部から尾部への知識伝達を容易にするために、勾配アライメントを提案し、敵のトレーニングスキームを採用する。
論文 参考訳(メタデータ) (2020-10-22T03:12:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。