論文の概要: CTR-Sink: Attention Sink for Language Models in Click-Through Rate Prediction
- arxiv url: http://arxiv.org/abs/2508.03668v1
- Date: Tue, 05 Aug 2025 17:30:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:56.100219
- Title: CTR-Sink: Attention Sink for Language Models in Click-Through Rate Prediction
- Title(参考訳): CTRシンク:クリックスルーレート予測における言語モデルの注意シンク
- Authors: Zixuan Li, Binzong Geng, Jing Xiong, Yong He, Yuxuan Hu, Jian Chen, Dingwei Chen, Xiyu Chang, Liang Zhang, Linjian Mo, Chengming Li, Chuan Yuan, Zhenan Sun,
- Abstract要約: $textitCTR-Sink$は、レコメンデーションシナリオに適した振る舞いレベルの注意シンクを導入した、新しいフレームワークである。
注意シンク理論にヒントを得て、注意集中シンクを構築し、外部情報を介して注意集約を動的に制御する。
- 参考スコア(独自算出の注目度): 42.92011330807996
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Click-Through Rate (CTR) prediction, a core task in recommendation systems, estimates user click likelihood using historical behavioral data. Modeling user behavior sequences as text to leverage Language Models (LMs) for this task has gained traction, owing to LMs' strong semantic understanding and contextual modeling capabilities. However, a critical structural gap exists: user behavior sequences consist of discrete actions connected by semantically empty separators, differing fundamentally from the coherent natural language in LM pre-training. This mismatch causes semantic fragmentation, where LM attention scatters across irrelevant tokens instead of focusing on meaningful behavior boundaries and inter-behavior relationships, degrading prediction performance. To address this, we propose $\textit{CTR-Sink}$, a novel framework introducing behavior-level attention sinks tailored for recommendation scenarios. Inspired by attention sink theory, it constructs attention focus sinks and dynamically regulates attention aggregation via external information. Specifically, we insert sink tokens between consecutive behaviors, incorporating recommendation-specific signals such as temporal distance to serve as stable attention sinks. To enhance generality, we design a two-stage training strategy that explicitly guides LM attention toward sink tokens and a attention sink mechanism that amplifies inter-sink dependencies to better capture behavioral correlations. Experiments on one industrial dataset and two open-source datasets (MovieLens, Kuairec), alongside visualization results, validate the method's effectiveness across scenarios.
- Abstract(参考訳): CTR(Click-Through Rate)予測(Click-Through Rate)は、過去の行動データを用いてユーザのクリック率を推定する。
このタスクに言語モデル(LM)を活用するために、ユーザ行動シーケンスをテキストとしてモデル化することは、LMの強い意味理解とコンテキストモデリング能力により、牽引力を高めている。
ユーザ行動シーケンスは、意味論的に空のセパレータによって連結された離散的なアクションで構成され、LM事前学習における一貫性のある自然言語と根本的に異なる。
このミスマッチは意味的な断片化を引き起こし、LMの注意は意味のある行動境界や行動間の関係に焦点をあてるのではなく、無関係なトークンに散らばり、予測性能を低下させる。
これを解決するために、推奨シナリオに適した行動レベルの注意シンクを導入した新しいフレームワークである$\textit{CTR-Sink}$を提案する。
注意シンク理論にヒントを得て、注意集中シンクを構築し、外部情報を介して注意集約を動的に制御する。
具体的には、連続した行動の間にシンクトークンを挿入し、時間的距離などのレコメンデーション固有の信号を組み込んで、安定したアテンションシンクとして機能する。
汎用性を高めるために、LM注意をシンクトークンに向ける2段階のトレーニング戦略と、シンク間の依存関係を増幅して行動相関をよりよく捉えるアテンションシンク機構を設計する。
1つの産業データセットと2つのオープンソースデータセット(MovieLens, Kuairec)の実験と視覚化結果の併用により、シナリオ間でのメソッドの有効性を検証する。
関連論文リスト
- Mitigating Attention Hacking in Preference-Based Reward Modeling via Interaction Distillation [40.79564929465515]
インタラクション蒸留(Interaction Distillation)は、注意レベル最適化によるより適切な嗜好モデリングのための新しいトレーニングフレームワークである。
最先端のRM最適化法と比較して、より安定で一般化可能な報酬信号を提供する。
論文 参考訳(メタデータ) (2025-08-04T17:06:23Z) - DLF: Enhancing Explicit-Implicit Interaction via Dynamic Low-Order-Aware Fusion for CTR Prediction [71.41414150295702]
本稿では,クリックスルー率(CTR)予測をモデル化するための新しいフレームワークである動的低次認識融合(DLF)を提案する。
RLIは残差接続からの冗長性を緩和しながら低次信号を保持し、NAFは各層での明示的および暗黙的な表現を動的に統合し、情報共有を強化する。
公開データセットの実験では、DLFがCTR予測における最先端のパフォーマンスを達成し、既存のモデルの重要な制限に対処していることが示されている。
論文 参考訳(メタデータ) (2025-05-25T15:05:00Z) - Don't Take Things Out of Context: Attention Intervention for Enhancing Chain-of-Thought Reasoning in Large Language Models [32.71672086718058]
CoT (Few-shot Chain-of-Thought) は大規模言語モデル (LLM) の推論能力を著しく向上させる
我々は、COTのデモで分離されたセグメント、単語、トークンが、予期せずLCMの生成過程を乱す可能性があることを観察する。
デモの注意パターンを動的に解析し,これらのトークンを正確に識別するFew-shot Attention Intervention法(FAI)を提案する。
論文 参考訳(メタデータ) (2025-03-14T07:46:33Z) - When Attention Sink Emerges in Language Models: An Empirical View [39.36282162213973]
言語モデル(LM)は、意味的に重要でない場合でも、最初のトークンに注意を向ける。
この現象は、ストリーミング/ロングコンテキスト生成、KVキャッシュ最適化、推論アクセラレーション、モデル量子化などのアプリケーションで広く採用されている。
我々はまず、小さなモデルであっても様々な入力を持つLMにおいて、注意シンクが普遍的に存在することを実証した。
論文 参考訳(メタデータ) (2024-10-14T17:50:28Z) - Long-Sequence Recommendation Models Need Decoupled Embeddings [49.410906935283585]
我々は、既存の長期推薦モデルにおいて無視された欠陥を識別し、特徴付ける。
埋め込みの単一のセットは、注意と表現の両方を学ぶのに苦労し、これら2つのプロセス間の干渉につながります。
本稿では,2つの異なる埋め込みテーブルを別々に学習し,注意と表現を完全に分離する,DARE(Decoupled Attention and Representation Embeddings)モデルを提案する。
論文 参考訳(メタデータ) (2024-10-03T15:45:15Z) - CELA: Cost-Efficient Language Model Alignment for CTR Prediction [70.65910069412944]
CTR(Click-Through Rate)予測は、レコメンダシステムにおいて最重要位置を占める。
最近の取り組みは、プレトレーニング言語モデル(PLM)を統合することでこれらの課題を緩和しようとしている。
CTR予測のためのtextbfCost-textbfEfficient textbfLanguage Model textbfAlignment (textbfCELA)を提案する。
論文 参考訳(メタデータ) (2024-05-17T07:43:25Z) - TBIN: Modeling Long Textual Behavior Data for CTR Prediction [15.056265935931377]
クリックスルー率(CTR)予測は、レコメンデーションの成功において重要な役割を果たす。
近年の言語モデル(LM)の発展に触発されて,テキストテキスト形式でユーザ行動データを整理することで,予測を改善する作業が急増している。
有望ではあるが、これらの研究は、LMにおける自己注意の2次計算オーバーヘッドを減らすために、テキストデータを切り離さなければならない。
本稿では,textbfTextual textbfBehavior-based textbfInterest Chunking textbfNを提案する。
論文 参考訳(メタデータ) (2023-08-09T03:48:41Z) - DELTA: Dynamic Embedding Learning with Truncated Conscious Attention for
CTR Prediction [61.68415731896613]
CTR(Click-Through Rate)予測は、製品とコンテンツの推奨において重要なタスクである。
本稿では,CTR予測のための動的埋め込み学習を実現するモデルを提案する。
論文 参考訳(メタデータ) (2023-05-03T12:34:45Z) - Learning Self-Modulating Attention in Continuous Time Space with
Applications to Sequential Recommendation [102.24108167002252]
本稿では,複雑で非線形に進化する動的ユーザの嗜好をモデル化する,自己変調型注意ネットワークを提案する。
提案手法がトップNシーケンシャルなレコメンデーションタスクに与える影響を実証的に示すとともに,3つの大規模実世界のデータセットによる結果から,我々のモデルが最先端のパフォーマンスを達成できることを示す。
論文 参考訳(メタデータ) (2022-03-30T03:54:11Z) - Attention improves concentration when learning node embeddings [1.2233362977312945]
検索クエリテキストでラベル付けされたノードを考えると、製品を共有する関連クエリへのリンクを予測したい。
様々なディープニューラルネットワークを用いた実験では、注意機構を備えた単純なフィードフォワードネットワークが埋め込み学習に最適であることが示されている。
本稿では,クエリ生成モデルであるAttESTを提案する。このモデルでは,製品とクエリテキストの両方を,潜在空間に埋め込まれたベクトルとして見ることができる。
論文 参考訳(メタデータ) (2020-06-11T21:21:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。