論文の概要: An Embarrassingly Simple Graph Heuristic Reveals Shortcut-Solvable Benchmarks for Sequential Recommendation
- arxiv url: http://arxiv.org/abs/2605.07125v1
- Date: Fri, 08 May 2026 02:00:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.735929
- Title: An Embarrassingly Simple Graph Heuristic Reveals Shortcut-Solvable Benchmarks for Sequential Recommendation
- Title(参考訳): シークエンシャルレコメンデーションのためのショートカット・ソルバブルベンチマークの非常に単純なグラフヒューリスティック
- Authors: Haoyu Han, Li Ma, Hanbing Wang, Bingheng Li, Daochen Zha, Chun How Tan, Huiji Gao, Xin Liu, Stephanie Moyerman, Sanjeev Katariya, Hui Liu, Jiliang Tang,
- Abstract要約: Sequentialsolvは、シーケンシャルなパターンとセマンティックなアイテム情報を組み合わせたジェネレーティブなレコメンデーターへと移行している。
これらの手法は、しばしば、広く使われている少数のベンチマークで評価され、重要な疑問を提起する: これらのベンチマークは、現代のジェネレーティブレコメンデーターが提供しようとしている高度なモデリング機能を必要としているか?
我々は、意図的な単純なグラフでベンチマーク監査を行い、最後の1つか2つの項目から、数ホップの項目遷移グラフから候補を検索し、項目間類似度でランク付けする。
- 参考スコア(独自算出の注目度): 50.09718257952108
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sequential recommendation has increasingly shifted toward generative recommenders that combine sequential patterns with semantic item information. Yet these methods are often evaluated on a small set of widely used benchmarks, raising a key question: do these benchmarks actually require the advanced modeling capabilities that modern generative recommenders claim to provide? We conduct a benchmark audit with an intentionally simple graph heuristic. Starting from only the last one or two interacted items, it retrieves candidates from a few-hop item-transition graph and ranks them by item-feature similarity. Despite using no sequence encoder, generative objective, or training, this heuristic matches or outperforms many modern baselines, with relative NDCG@10 improvements of 38.10% and 44.18% over the best competing baseline on Amazon Review Sports and CDs. We show that this behavior reflects shortcut solvability rather than an artifact of one heuristic. We identify three shortcut structures that can make next-item prediction easier than expected: low-branching local transitions, feature-smooth transitions, and limited dependence on long user histories. These shortcuts need not appear together; even one or two strong signals can make simple local retrieval highly competitive, while weakening them makes the benefits of more sophisticated models clearer. Across 14 datasets, model rankings vary substantially with dataset properties, yet the heuristic remains competitive on 10 of them. Our findings suggest that strong performance on standard benchmarks does not always demonstrate advanced sequential, semantic, or generative modeling ability. We call for more careful dataset selection and dataset-level diagnostic analysis when using benchmarks to support claims about new recommendation models.
- Abstract(参考訳): シーケンシャル・レコメンデーションは、シーケンシャル・パターンとセマンティック・アイテム情報を組み合わせたジェネレーティブ・レコメンデーションへと移りつつある。
しかし、これらの手法はしばしば、広く使われている少数のベンチマークで評価され、重要な疑問を提起する: これらのベンチマークは、現代のジェネレーティブレコメンデーターが提供しようとしている高度なモデリング機能を必要としているのだろうか?
我々は、意図的に単純なグラフヒューリスティックでベンチマーク監査を行う。
最後の1つか2つのインタラクションアイテムから始めて、いくつかのホップアイテムの遷移グラフから候補を検索し、アイテムとフィーチャーの類似度でランク付けする。
シーケンシャルエンコーダ、生成目的、トレーニングは使用していないが、このヒューリスティック・マッチは、Amazon Review SportsとCDのベスト・ベースラインよりも38.10%と44.18%の相対的なNDCG@10の改善により、多くのモダン・ベースラインに匹敵する。
この挙動は, 1つのヒューリスティックな人工物ではなく, ショートカットの可解性を反映していることを示す。
低分岐局所遷移、機能スムース遷移、長期ユーザ履歴への限定的依存の3つのショートカット構造を同定する。
これらのショートカットは同時に現れる必要はなく、1つまたは2つの強い信号でさえ、単純な局所的な検索を非常に競争力のあるものにすることができる一方で、それらを弱めれば、より洗練されたモデルの利点がより明確になる。
14のデータセットで、モデルランキングはデータセットの特性と大きく異なるが、その内10のヒューリスティックは依然として競争力がある。
この結果から,標準ベンチマークの性能は必ずしも高度なシーケンシャル,セマンティック,ジェネレーティブなモデリング能力を示すとは限らないことが示唆された。
ベンチマークを使用して新しいレコメンデーションモデルに関するクレームをサポートする場合、より慎重なデータセット選択とデータセットレベルの診断分析が求められます。
関連論文リスト
- Heuristic-inspired Reasoning Priors Facilitate Data-Efficient Referring Object Detection [53.988759250627425]
HeROD(Heuristic-inspired ROD)は、明示的で解釈可能な空間的および意味的推論を注入する軽量でモデルに依存しないフレームワークである。
HeRODは、スカーセラベル体制において強い接地ベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2026-03-25T10:33:22Z) - Aligning Language Model Benchmarks with Pairwise Preferences [15.427340427081843]
ベンチマークアライメントを導入し、モデルパフォーマンスに関する限られた量の情報を使用して、オフラインベンチマークを自動的に更新します。
次に、ベンチマーク問題に対する優先順の重み付けを学習するBenchAlignを提案する。
我々の実験は、一致したベンチマークが、異なるサイズであっても、人間の好みのモデルに従って、正確に、見つからないモデルをランク付けできることを示している。
論文 参考訳(メタデータ) (2026-02-02T23:11:09Z) - QDER: Query-Specific Document and Entity Representations for Multi-Vector Document Re-Ranking [5.469844680867749]
本稿では,知識グラフのセマンティクスをマルチベクタモデルに統合することで,アプローチを統一するニューラルリグレードモデルQDERを紹介する。
QDERの重要なイノベーションは、クエリとドキュメントの関係のモデリングである。
まず、これらの微粒化表現を学習注意パターンで変換し、精密マッチングに慎重に選択した数学的操作を適用する。
論文 参考訳(メタデータ) (2025-10-13T16:31:06Z) - Evaluating Graph Neural Networks for Link Prediction: Current Pitfalls
and New Benchmarking [66.83273589348758]
リンク予測は、グラフのエッジの一部のみに基づいて、目に見えないエッジが存在するかどうかを予測しようとする。
近年,この課題にグラフニューラルネットワーク(GNN)を活用すべく,一連の手法が導入されている。
これらの新しいモデルの有効性をよりよく評価するために、新しい多様なデータセットも作成されている。
論文 参考訳(メタデータ) (2023-06-18T01:58:59Z) - Simple Cues Lead to a Strong Multi-Object Tracker [3.7189423451031356]
マルチオブジェクト追跡のための新しいタイプのトラッキング・バイ・ディテクト(TbD)を提案する。
単純な動作モデルと外観特徴を組み合わせることで,強い追跡結果が得られることを示す。
私たちのトラッカーは、MOT17、MOT20、BDD100k、DanceTrackの4つの公開データセットに一般化され、最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2022-06-09T17:55:51Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z) - Frustratingly Simple Few-Shot Object Detection [98.42824677627581]
希少なクラスにおける既存検出器の最後の層のみを微調整することは、数発の物体検出タスクに不可欠である。
このような単純なアプローチは、現在のベンチマークで約220ポイントのメタ学習方法より優れている。
論文 参考訳(メタデータ) (2020-03-16T00:29:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。