論文の概要: Rethinking skip connection model as a learnable Markov chain
- arxiv url: http://arxiv.org/abs/2209.15278v1
- Date: Fri, 30 Sep 2022 07:31:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 14:05:59.686054
- Title: Rethinking skip connection model as a learnable Markov chain
- Title(参考訳): スキップ接続モデルを学習可能なマルコフ連鎖として再考する
- Authors: Dengsheng Chen, Jie Hu, Wenwen Qiang, Xiaoming Wei, Enhua Wu
- Abstract要約: 我々は、学習可能なマルコフ連鎖として定式化できるスキップ接続でモデルの振舞いを深く掘り下げる。
効率的なマルコフ連鎖は、入力データを常により良い方法でターゲットドメインにマップするので好まれる。
残差のようなモデルを学習可能なマルコフ連鎖にするために、簡単なペナル接続のルーチンを提案する。
- 参考スコア(独自算出の注目度): 12.135167279383815
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Over past few years afterward the birth of ResNet, skip connection has become
the defacto standard for the design of modern architectures due to its
widespread adoption, easy optimization and proven performance. Prior work has
explained the effectiveness of the skip connection mechanism from different
perspectives. In this work, we deep dive into the model's behaviors with skip
connections which can be formulated as a learnable Markov chain. An efficient
Markov chain is preferred as it always maps the input data to the target domain
in a better way. However, while a model is explained as a Markov chain, it is
not guaranteed to be optimized following an efficient Markov chain by existing
SGD-based optimizers which are prone to get trapped in local optimal points. In
order to towards a more efficient Markov chain, we propose a simple routine of
penal connection to make any residual-like model become a learnable Markov
chain. Aside from that, the penal connection can also be viewed as a particular
model regularization and can be easily implemented with one line of code in the
most popular deep learning frameworks~\footnote{Source code:
\url{https://github.com/densechen/penal-connection}}. The encouraging
experimental results in multi-modal translation and image recognition
empirically confirm our conjecture of the learnable Markov chain view and
demonstrate the superiority of the proposed penal connection.
- Abstract(参考訳): resnetの誕生以来、スキップ接続は広く採用され、最適化が容易で、性能が証明されているため、現代のアーキテクチャ設計のデファクトスタンダードとなっている。
先行研究は、異なる観点からスキップ接続メカニズムの有効性を説明した。
本研究では,学習可能なマルコフ連鎖として定式化可能なスキップ接続を用いて,モデルの振る舞いを深く掘り下げる。
効率的なマルコフ連鎖は、入力データを常により良い方法でターゲットドメインにマップするので好まれる。
しかしながら、モデルはマルコフ連鎖として説明されるが、局所最適点に閉じ込められやすい既存のSGDベースの最適化器によって効率的なマルコフ連鎖に従って最適化されることは保証されない。
より効率的なマルコフ連鎖に向けて, 残差様モデルが学習可能なマルコフ連鎖となるように, 陰茎接続の簡単なルーチンを提案する。
それとは別に、ペナル接続は特定のモデル正規化と見なすことができ、最も人気のあるディープラーニングフレームワーク~\footnote{Source code: \url{https://github.com/densechen/penal-connection}}で1行のコードで簡単に実装できる。
マルチモーダル翻訳と画像認識による実験結果を奨励し,学習可能なマルコフ連鎖図の推測を実証し,提案する刑罰接続の優位性を実証した。
関連論文リスト
- Repurposing Stable Diffusion Attention for Training-Free Unsupervised Interactive Segmentation [1.878433493707693]
インタラクティブなポイントプロンプトベースの画像の最近の進歩は、高品質なセマンティックラベルを得るための手作業を大幅に削減する。
本稿では, 安定拡散の自己注意のみに基づく, 教師なし, トレーニング不要な新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-11-15T18:29:59Z) - CONVERT:Contrastive Graph Clustering with Reliable Augmentation [110.46658439733106]
信頼性オーグメンテーション(CONVERT)を用いたContrastiVe Graph ClustEringネットワークを提案する。
本手法では,データ拡張を可逆的パーターブ・リカバリネットワークにより処理する。
セマンティクスの信頼性をさらに保証するために、ネットワークを制約する新たなセマンティクス損失が提示される。
論文 参考訳(メタデータ) (2023-08-17T13:07:09Z) - Generative Flow Networks: a Markov Chain Perspective [93.9910025411313]
我々はマルコフ連鎖を用いたGFlowNetsの新しい視点を提案し、状態空間の性質に関わらずGFlowNetsの統一的な視点を示す。
GFlowNetsをMCMCメソッドと同じ理論的フレームワークに配置することで、両方のフレームワーク間の類似性も特定できます。
論文 参考訳(メタデータ) (2023-07-04T01:28:02Z) - Stochastic Gradient Descent under Markovian Sampling Schemes [3.04585143845864]
マルコフ型サンプリングスキームにのみアクセス可能なバニラ勾配勾配の変動について検討する。
我々は、基礎となるマルコフ連鎖で可能な最小限の制限的な仮定の下で収束率を得ることに焦点をあてる。
論文 参考訳(メタデータ) (2023-02-28T09:18:00Z) - Learning Mixtures of Markov Chains with Quality Guarantees [8.528384027684192]
現代のアプリケーションの多くは、多くのユーザ・トレイルを生成しています。
この問題を数学的にモデル化する1つのアプローチはマルコフ連鎖の混合である。
最近、Gupta, Kumar and Vassilvitski [GKV16] は、n状態のL鎖の混合物を完全に回収できるアルゴリズムを導入した。
論文 参考訳(メタデータ) (2023-02-09T14:55:17Z) - Contrastive Self-supervised Sequential Recommendation with Robust
Augmentation [101.25762166231904]
Sequential Recommendation Describes a set of technique to model dynamic user behavior to order to predict future interaction in sequence user data。
データスパーシリティやノイズの多いデータなど、古くて新しい問題はまだ残っている。
逐次レコメンデーション(CoSeRec)のためのコントラスト型自己監督学習を提案する。
論文 参考訳(メタデータ) (2021-08-14T07:15:25Z) - BERTifying the Hidden Markov Model for Multi-Source Weakly Supervised
Named Entity Recognition [57.2201011783393]
条件付き隠れマルコフモデル(CHMM)
CHMMは、入力トークンのBERT埋め込みからトークン単位の遷移と放出確率を予測する。
BERTベースのNERモデルを微調整し、ラベルをCHMMで推論する。
論文 参考訳(メタデータ) (2021-05-26T21:18:48Z) - ResNeSt: Split-Attention Networks [86.25490825631763]
このアーキテクチャは、異なるネットワークブランチにチャンネルワイズを応用し、機能間相互作用のキャプチャと多様な表現の学習の成功を活用する。
我々のモデルはResNeStと呼ばれ、画像分類の精度と遅延トレードオフにおいてEfficientNetより優れています。
論文 参考訳(メタデータ) (2020-04-19T20:40:31Z) - Semi-supervised Learning Meets Factorization: Learning to Recommend with
Chain Graph Model [16.007141894770054]
潜在因子モデル(LFM)は、優れたパフォーマンスとスケーラビリティのために、レコメンデーションシステムにおいて多くの注目を集めています。
半教師付き学習(SSL)は、ラベル(評価)の空間性の問題を軽減する効果的な方法を提供する。
SSL と LFM を結合する新しい確率的連鎖グラフモデル (CGM) を提案する。
論文 参考訳(メタデータ) (2020-03-05T06:34:53Z) - AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses [97.50616524350123]
機能エンジニアリングなしで、どの発話やトークンが退屈であるかを動的に認識する対話モデルを構築します。
最初のモデルMinAvgOutは、各バッチの出力分布を通して、ダイバーシティスコアを直接最大化する。
第2のモデルであるラベルファインチューニング(LFT)は、多様性スコアによって連続的にスケールされたラベルをソースシーケンスにプリペイドし、多様性レベルを制御する。
3つ目のモデルであるRLは強化学習を採用し、多様性スコアを報奨信号として扱う。
論文 参考訳(メタデータ) (2020-01-15T18:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。