論文の概要: An Efficient Attention Mechanism for Sequential Recommendation Tasks: HydraRec
- arxiv url: http://arxiv.org/abs/2501.01242v1
- Date: Thu, 02 Jan 2025 13:03:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 17:15:10.625921
- Title: An Efficient Attention Mechanism for Sequential Recommendation Tasks: HydraRec
- Title(参考訳): シークエンシャルレコメンデーションタスクの効率的なアテンションメカニズム:HydraRec
- Authors: Uzma Mushtaque,
- Abstract要約: 本稿では,より長いシーケンスとより大きなデータセットに対する計算注意の理論的複雑さを大幅に改善する,効率的なトランスフォーマーベースのシーケンスRS(HydraRec)を提案する。
HydraRecは、次のアイテム予測タスクのシーケンシャルレコメンデーションに因果マスキングを使用する場合、他の線形アテンションベースモデルやドット製品ベースのアテンションモデルよりも優れています。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Transformer based models are increasingly being used in various domains including recommender systems (RS). Pretrained transformer models such as BERT have shown good performance at language modelling. With the greater ability to model sequential tasks, variants of Encoder-only models (like BERT4Rec, SASRec etc.) have found success in sequential RS problems. Computing dot-product attention in traditional transformer models has quadratic complexity in sequence length. This is a bigger problem with RS because unlike language models, new items are added to the catalogue every day. User buying history is a dynamic sequence which depends on multiple factors. Recently, various linear attention models have tried to solve this problem by making the model linear in sequence length (token dimensions). Hydra attention is one such linear complexity model proposed for vision transformers which reduces the complexity of attention for both the number of tokens as well as model embedding dimensions. Building on the idea of Hydra attention, we introduce an efficient Transformer based Sequential RS (HydraRec) which significantly improves theoretical complexity of computing attention for longer sequences and bigger datasets while preserving the temporal context. Extensive experiments are conducted to evaluate other linear transformer-based RS models and compared with HydraRec across various evaluation metrics. HydraRec outperforms other linear attention-based models as well as dot-product based attention models when used with causal masking for sequential recommendation next item prediction tasks. For bi-directional models its performance is comparable to the BERT4Rec model with an improvement in running time.
- Abstract(参考訳): トランスフォーマーベースのモデルは、レコメンダシステム(RS)など、さまざまな領域でますます使われている。
BERTのような事前訓練されたトランスフォーマーモデルは、言語モデリングにおいて優れた性能を示している。
シーケンシャルタスクをモデル化する能力の向上により、エンコーダのみのモデル(BERT4Rec、SASRecなど)がシーケンシャルRS問題で成功した。
従来の変圧器モデルにおけるドット積の注意力の計算は、シーケンス長の2次複雑さを持つ。
なぜなら言語モデルとは異なり、新しいアイテムが毎日カタログに追加されるからです。
ユーザ購入履歴は、複数の要因に依存する動的シーケンスである。
近年、様々な線形アテンションモデルがこの問題を、列長(トークン次元)で線形にすることで解決しようと試みている。
ハイドラ・アテンション(Hydra attention)は、トークン数とモデル埋め込み次元の両方に対する注意の複雑さを低減させるビジョントランスフォーマーのために提案された線形複雑性モデルである。
本研究では,Hydraアテンション(Hydra attention,Hydra attention,Hydra attention,HydraRec)のアイデアに基づいて,時間的コンテキストを維持しながら,より長いシーケンスやより大きなデータセットに対する計算注意の理論的複雑さを大幅に改善する,効率的なトランスフォーマーベースのシーケンスRS(HydraRec)を提案する。
線形変圧器を用いたRSモデルの評価実験を行い,HydraRecとの比較を行った。
HydraRecは、次のアイテム予測タスクのシーケンシャルレコメンデーションに因果マスキングを使用する場合、他の線形アテンションベースモデルやドット製品ベースのアテンションモデルよりも優れています。
双方向モデルでは、パフォーマンスはBERT4Recモデルに匹敵し、実行時間が改善されている。
関連論文リスト
- RingFormer: Rethinking Recurrent Transformer with Adaptive Level Signals [2.287772422489548]
本稿では,リング状に繰り返し入力を処理するトランスフォーマー層を1つ導入したリングホルダーを提案する。
これにより、翻訳や画像分類といった様々なタスクにおいて、高い性能を維持しながら、モデルパラメータを大幅に削減できる。
論文 参考訳(メタデータ) (2025-02-18T09:34:31Z) - sTransformer: A Modular Approach for Extracting Inter-Sequential and Temporal Information for Time-Series Forecasting [6.434378359932152]
既存のTransformerベースのモデルを,(1)モデル構造の変更,(2)入力データの変更の2つのタイプに分類する。
我々は、シーケンシャル情報と時間情報の両方をフルにキャプチャするSequence and Temporal Convolutional Network(STCN)を導入する$textbfsTransformer$を提案する。
我々は,線形モデルと既存予測モデルとを長期時系列予測で比較し,新たな成果を得た。
論文 参考訳(メタデータ) (2024-08-19T06:23:41Z) - Parallelizing Linear Transformers with the Delta Rule over Sequence Length [49.88826673324244]
この研究は、デルタ則で線形変圧器を訓練するためのハードウェア効率の良いアルゴリズムについて述べる。
我々は100Bトークンに対して1.3Bモデルをトレーニングし、最近の線形時間ベースラインよりも優れていることを発見した。
論文 参考訳(メタデータ) (2024-06-10T17:24:42Z) - DuETT: Dual Event Time Transformer for Electronic Health Records [14.520791492631114]
我々はDuETTアーキテクチャを紹介した。これは、時間とイベントの両タイプにまたがるように設計されたトランスフォーマーの拡張である。
DuETTは集約された入力を使用し、スパース時系列は一定長さの正規シーケンスに変換される。
本モデルでは,MIMIC-IV と PhysioNet-2012 EHR データセットを用いて,複数の下流タスクにおける最先端のディープラーニングモデルより優れています。
論文 参考訳(メタデータ) (2023-04-25T17:47:48Z) - Robust representations of oil wells' intervals via sparse attention
mechanism [2.604557228169423]
正規化変換器(Reguformers)と呼ばれる効率的な変換器のクラスを導入する。
私たちの実験の焦点は、石油とガスのデータ、すなわちウェルログにあります。
このような問題に対する我々のモデルを評価するために、20以上の井戸からなるウェルログからなる産業規模のオープンデータセットで作業する。
論文 参考訳(メタデータ) (2022-12-29T09:56:33Z) - Dynamically-Scaled Deep Canonical Correlation Analysis [77.34726150561087]
カノニカル相関解析 (CCA) は, 2つのビューの特徴抽出手法である。
本稿では,入力依存の正準相関モデルをトレーニングするための新しい動的スケーリング手法を提案する。
論文 参考訳(メタデータ) (2022-03-23T12:52:49Z) - STAR: Sparse Transformer-based Action Recognition [61.490243467748314]
本研究は,空間的次元と時間的次元に細かな注意を払っている新しいスケルトンに基づく人間行動認識モデルを提案する。
実験により、トレーニング可能なパラメータをはるかに少なくし、トレーニングや推論の高速化を図りながら、モデルが同等のパフォーマンスを達成できることが示されている。
論文 参考訳(メタデータ) (2021-07-15T02:53:11Z) - Random Feature Attention [69.4671822971207]
ソフトマックス関数を近似するためにランダム特徴法を用いる線形時間空間アテンション RFA を提案する。
RFAは、従来のソフトマックスアテンションのドロップイン代替として使用することができ、オプションのゲーティング機構を通じて、遅延バイアスで直接学習する方法を提供する。
言語モデリングと機械翻訳の実験は、RFAが強力なトランスのベースラインと類似またはより良いパフォーマンスを達成することを実証します。
論文 参考訳(メタデータ) (2021-03-03T02:48:56Z) - Long Range Arena: A Benchmark for Efficient Transformers [115.1654897514089]
ロングレンジアリーナベンチマーク(Long-rangearena benchmark)は、1Kドルから16Kドルまでの一連のタスクからなるスイートである。
我々は,新たに提案したベンチマークスイートを用いて,よく確立された10種類の長距離トランスフォーマーモデルを体系的に評価した。
論文 参考訳(メタデータ) (2020-11-08T15:53:56Z) - On the Discrepancy between Density Estimation and Sequence Generation [92.70116082182076]
log-likelihoodは、同じファミリー内のモデルを考えるとき、BLEUと非常に相関している。
異なる家族間でのモデルランキングの相関はみられない。
論文 参考訳(メタデータ) (2020-02-17T20:13:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。