論文の概要: PHN: Parallel heterogeneous network with soft gating for CTR prediction
- arxiv url: http://arxiv.org/abs/2206.09184v1
- Date: Sat, 18 Jun 2022 11:37:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-22 19:59:52.365845
- Title: PHN: Parallel heterogeneous network with soft gating for CTR prediction
- Title(参考訳): PHN:CTR予測のためのソフトゲーティングを用いた並列異種ネットワーク
- Authors: Ri Su, Alphonse Houssou Hounye, Cong Cao, Muzhou Hou
- Abstract要約: 本稿では並列構造を持つネットワークを構成する並列不均一ネットワーク(PHN)モデルを提案する。
トレーニング可能なパラメータとの残留リンクは、弱い勾配現象の影響を軽減するためにネットワークで使用される。
- 参考スコア(独自算出の注目度): 2.9722444664527243
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Click-though Rate (CTR) prediction task is a basic task in recommendation
system. Most of the previous researches of CTR models built based on Wide \&
deep structure and gradually evolved into parallel structures with different
modules. However, the simple accumulation of parallel structures can lead to
higher structural complexity and longer training time. Based on the Sigmoid
activation function of output layer, the linear addition activation value of
parallel structures in the training process is easy to make the samples fall
into the weak gradient interval, resulting in the phenomenon of weak gradient,
and reducing the effectiveness of training. To this end, this paper proposes a
Parallel Heterogeneous Network (PHN) model, which constructs a network with
parallel structure through three different interaction analysis methods, and
uses Soft Selection Gating (SSG) to feature heterogeneous data with different
structure. Finally, residual link with trainable parameters are used in the
network to mitigate the influence of weak gradient phenomenon. Furthermore, we
demonstrate the effectiveness of PHN in a large number of comparative
experiments, and visualize the performance of the model in training process and
structure.
- Abstract(参考訳): CTR予測タスクは、推奨システムにおける基本的なタスクである。
これまでのCTRモデルの研究の多くは、広義の深層構造に基づいて構築され、徐々に異なるモジュールを持つ並列構造へと発展していった。
しかし、並列構造の単純な蓄積は、より高い構造的複雑さと長い訓練時間をもたらす可能性がある。
出力層のシグモイド活性化関数に基づき、トレーニングプロセスにおける平行構造の線形付加活性化値は、サンプルを弱勾配区間に落下させることが容易であり、弱勾配現象が発生し、トレーニングの有効性が低下する。
そこで本稿では,3つの異なる相互作用解析手法を用いて並列構造を持つネットワークを構築する並列型ヘテロジニアス・ネットワーク(phn)モデルを提案し,異なる構造を持つ異種データを特徴付けるためにソフトセレクション・ゲーティング(ssg)を用いる。
最後に,ネットワーク上でトレーニング可能なパラメータとの残差リンクを用いて,弱勾配現象の影響を緩和する。
さらに,多くの比較実験においてphnの有効性を実証し,訓練過程と構造におけるモデルの性能を可視化した。
関連論文リスト
- State-space models can learn in-context by gradient descent [1.3087858009942543]
本研究では、状態空間モデルアーキテクチャが勾配に基づく学習を実行し、文脈内学習に使用できることを実証する。
局所自己アテンションを付加した単一構造状態空間モデル層が暗黙線形モデルの出力を再現できることを実証する。
理論的構成は、基礎モデルの典型的な表現力を実現するための鍵となる要素として、繰り返しアーキテクチャにおける局所的な自己注意と乗法的相互作用の役割を解明する。
論文 参考訳(メタデータ) (2024-10-15T15:22:38Z) - Orthogonal Stochastic Configuration Networks with Adaptive Construction
Parameter for Data Analytics [6.940097162264939]
ランダム性により、SCNは冗長で品質の低い近似線形相関ノードを生成する可能性が高まる。
機械学習の基本原理、すなわち、パラメータが少ないモデルでは、一般化が向上する。
本稿では,ネットワーク構造低減のために,低品質な隠れノードをフィルタする直交SCN(OSCN)を提案する。
論文 参考訳(メタデータ) (2022-05-26T07:07:26Z) - Accumulated Decoupled Learning: Mitigating Gradient Staleness in
Inter-Layer Model Parallelization [16.02377434191239]
本稿では, 定常勾配効果を緩和するために, 勾配累積法を取り入れた累積非結合学習(ADL)を提案する。
提案手法は, 非同期性にもかかわらず, 臨界点, すなわち勾配が0に収束することを示す。
ADLは分類タスクにおいていくつかの最先端技術よりも優れており、比較手法の中では最速である。
論文 参考訳(メタデータ) (2020-12-03T11:52:55Z) - DAIS: Automatic Channel Pruning via Differentiable Annealing Indicator
Search [55.164053971213576]
畳み込みニューラルネットワークは,計算オーバーヘッドが大きいにもかかわらず,コンピュータビジョンタスクの実行において大きな成功を収めている。
構造的(チャネル)プルーニングは、通常、ネットワーク構造を保ちながらモデルの冗長性を低減するために適用される。
既存の構造化プルーニング法では、手作りのルールが必要であり、これは大きなプルーニング空間に繋がる可能性がある。
論文 参考訳(メタデータ) (2020-11-04T07:43:01Z) - ACDC: Weight Sharing in Atom-Coefficient Decomposed Convolution [57.635467829558664]
我々は,CNNにおいて,畳み込みカーネル間の構造正則化を導入する。
我々はCNNがパラメータや計算量を劇的に減らして性能を維持していることを示す。
論文 参考訳(メタデータ) (2020-09-04T20:41:47Z) - TSAM: Temporal Link Prediction in Directed Networks based on
Self-Attention Mechanism [2.5144068869465994]
本稿では,グラフニューラルネットワーク(GCN)と自己認識機構,すなわちTSAMに基づくディープラーニングモデルを提案する。
我々は,TSAMの有効性を検証するために,4つの現実的ネットワーク上で比較実験を行った。
論文 参考訳(メタデータ) (2020-08-23T11:56:40Z) - DessiLBI: Exploring Structural Sparsity of Deep Networks via
Differential Inclusion Paths [45.947140164621096]
逆スケール空間の差分包摂に基づく新しい手法を提案する。
DessiLBIが早期に「優勝チケット」を発表することを示す。
論文 参考訳(メタデータ) (2020-07-04T04:40:16Z) - The Heterogeneity Hypothesis: Finding Layer-Wise Differentiated Network
Architectures [179.66117325866585]
我々は、通常見過ごされる設計空間、すなわち事前定義されたネットワークのチャネル構成を調整することを検討する。
この調整は、拡張ベースラインネットワークを縮小することで実現でき、性能が向上する。
画像分類、視覚追跡、画像復元のための様々なネットワークとデータセットで実験を行う。
論文 参考訳(メタデータ) (2020-06-29T17:59:26Z) - An Ode to an ODE [78.97367880223254]
我々は、O(d) 群上の行列フローに応じて主フローの時間依存パラメータが進化する ODEtoODE と呼ばれるニューラルODE アルゴリズムの新しいパラダイムを提案する。
この2つの流れのネストされたシステムは、訓練の安定性と有効性を提供し、勾配の消滅・爆発問題を確実に解決する。
論文 参考訳(メタデータ) (2020-06-19T22:05:19Z) - Understanding the Effects of Data Parallelism and Sparsity on Neural
Network Training [126.49572353148262]
ニューラルネットワークトレーニングにおける2つの要因として,データ並列性と疎性について検討する。
有望なメリットにもかかわらず、ニューラルネットワークトレーニングに対する彼らの影響を理解することは、依然として明白である。
論文 参考訳(メタデータ) (2020-03-25T10:49:22Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。