論文の概要: SPARLING: Learning Latent Representations with Extremely Sparse
Activations
- arxiv url: http://arxiv.org/abs/2302.01976v2
- Date: Fri, 20 Oct 2023 18:48:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 13:45:55.807141
- Title: SPARLING: Learning Latent Representations with Extremely Sparse
Activations
- Title(参考訳): SPARling: 極めてスパースなアクティベーションによる潜在表現の学習
- Authors: Kavi Gupta, Osbert Bastani, Armando Solar-Lezama
- Abstract要約: Sparlingは、エンド・ツー・エンドのラベル付き例からのみ、この状態にマッチする中間層でモデルを学習できる技術です。
合成DigitCircleドメインでは、エンドツーエンドのみをトレーニングしても、中間状態を90%の精度で特徴順に正確にローカライズすることが可能です。
- 参考スコア(独自算出の注目度): 36.99832134748343
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-world processes often contain intermediate state that can be modeled as
an extremely sparse tensor. We introduce Sparling, a technique that allows you
to learn models with intermediate layers that match this state from only
end-to-end labeled examples (i.e., no supervision on the intermediate state).
Sparling uses a new kind of informational bottleneck that enforces levels of
activation sparsity unachievable using other techniques. We find that extreme
sparsity is necessary to achieve good intermediate state modeling. On our
synthetic DigitCircle domain as well as the LaTeX-OCR and Audio-MNIST-Sequence
domains, we are able to precisely localize the intermediate states up to
feature permutation with > 90% accuracy, even though we only train end-to-end.
- Abstract(参考訳): 実世界のプロセスは、しばしば極端にスパースなテンソルとしてモデル化できる中間状態を含む。
Sparlingは、中間層でこの状態にマッチするモデルを、エンド・ツー・エンドのラベル付き例(すなわち、中間状態の監督なし)から学習できる技術を紹介します。
sparlingは、他のテクニックでは達成できないアクティベーションスパーシティレベルを強制する、新しいタイプの情報ボトルネックを使用する。
優れた中間状態モデリングを実現するには極端に疎結合が必要である。
合成DigitCircleドメインとLaTeX-OCRおよびAudio-MNIST-Sequenceドメインでは、エンド・ツー・エンドのみを訓練しても、中間状態が90%の精度で変化するように正確にローカライズできます。
関連論文リスト
- A Semantic-based Layer Freezing Approach to Efficient Fine-Tuning of Language Models [32.178931149612644]
下流のデータやタスクにモデルを適応させるには、微調整言語モデル(LM)が不可欠である。
パラメータ効率の微調整(PEFT)のような既存の作業は、しばしば微細化のためのthithowに焦点を当てるが、微細化のためのtextitwhereの問題を無視している。
論文 参考訳(メタデータ) (2024-06-17T17:13:08Z) - Adaptive Sparsity Level during Training for Efficient Time Series Forecasting with Transformers [20.23085795744602]
textbfAdaptive textbfSparsity textbfPALS(textbfPALS)を提案する。
PALSはスパーストレーニングとトレーニングの方法からインスピレーションを得ている。
スパースニューラルネットワークのトレーニングにおいて、新しい"拡張"メカニズムを導入し、モデルを動的に縮小、拡張、あるいは安定して適切なスパースレベルを見つけることを可能にする。
論文 参考訳(メタデータ) (2023-05-28T06:57:27Z) - Pretraining Without Attention [114.99187017618408]
本研究では、状態空間モデル(SSM)に基づくシーケンスルーティングの最近の進歩を利用して、注意を払わずに事前学習を探索する。
BiGS は GLUE 上で BERT の事前トレーニング精度と一致し、近似なしで 4096 トークンの長期事前トレーニングに拡張できる。
論文 参考訳(メタデータ) (2022-12-20T18:50:08Z) - A soft nearest-neighbor framework for continual semi-supervised learning [35.957577587090604]
本稿では,全てのデータサンプルがラベル付けされていない連続的半教師付き学習手法を提案する。
我々は、最も近い隣人の力を利用して、特徴空間を非線形に分割し、基礎となるデータ分布を柔軟にモデル化する。
提案手法は,低解像度画像と高解像度画像の両方で良好に動作し,より複雑なデータセットにシームレスにスケールする。
論文 参考訳(メタデータ) (2022-12-09T20:03:59Z) - Improved Convergence Guarantees for Shallow Neural Networks [91.3755431537592]
勾配降下法により訓練された深度2ニューラルネットの収束度を世界最小とする。
我々のモデルには、二次損失関数による回帰、完全連結フィードフォワードアーキテクチャ、RelUアクティベーション、ガウスデータインスタンス、逆ラベルといった特徴がある。
彼らは、少なくとも我々のモデルでは、収束現象がNTK体制をはるかに超越していることを強く示唆している」。
論文 参考訳(メタデータ) (2022-12-05T14:47:52Z) - Learning with Neighbor Consistency for Noisy Labels [69.83857578836769]
特徴空間におけるトレーニング例間の類似性を利用した雑音ラベルから学習する手法を提案する。
合成(CIFAR-10, CIFAR-100)とリアル(mini-WebVision, Clothing1M, mini-ImageNet-Red)の両方のノイズを評価するデータセットの評価を行った。
論文 参考訳(メタデータ) (2022-02-04T15:46:27Z) - LCS: Learning Compressible Subspaces for Adaptive Network Compression at
Inference Time [57.52251547365967]
本稿では,ニューラルネットワークの「圧縮可能な部分空間」を訓練する手法を提案する。
構造的・非構造的空間に対する推定時間における微粒な精度・効率のトレードオフを任意に達成するための結果を示す。
我々のアルゴリズムは、可変ビット幅での量子化にまで拡張し、個別に訓練されたネットワークと同等の精度を実現する。
論文 参考訳(メタデータ) (2021-10-08T17:03:34Z) - Stochastic Transformer Networks with Linear Competing Units: Application
to end-to-end SL Translation [46.733644368276764]
グロースの明示的な使用を伴わないエンドツーエンドのSLTモデルを提案する。
これは、Gloss sequence groundtruthを使用する既存のエンドツーエンドモデルとは対照的である。
提案手法は,ENIX 2014Tベンチマークにおいて,現在報告されているBLEU-4スコアに到達可能であることを示す。
論文 参考訳(メタデータ) (2021-09-01T15:00:52Z) - Towards Single Stage Weakly Supervised Semantic Segmentation [2.28438857884398]
弱教師付きセマンティックセグメンテーションへのシングルステージアプローチを提案する。
ポイントアノテーションを使用して、オンザフライで信頼性の高い擬似マスクを生成します。
我々は、最近の実世界のデータセットにおいて、他のSOTA WSSS手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2021-06-18T18:34:50Z) - Embedding Propagation: Smoother Manifold for Few-Shot Classification [131.81692677836202]
本稿では, 組込み伝搬を非教師なし非パラメトリック正規化器として, 数ショット分類における多様体平滑化に用いることを提案する。
埋め込み伝播がより滑らかな埋め込み多様体を生み出すことを実証的に示す。
複数の半教師付き学習シナリオにおいて,埋め込み伝搬によりモデルの精度が最大16%向上することを示す。
論文 参考訳(メタデータ) (2020-03-09T13:51:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。