論文の概要: Wide Boosting
- arxiv url: http://arxiv.org/abs/2007.09855v4
- Date: Sun, 6 Nov 2022 03:15:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 12:37:31.000614
- Title: Wide Boosting
- Title(参考訳): ワイドブースティング
- Authors: Michael T. Horrell
- Abstract要約: 本稿では,人工ニューラルネットワークによるグラディエントブースティングの簡易な調整について述べる。
We called our method Wide Boosting (WB) and show that WB outforms GB on mult-dimesional output task。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Gradient Boosting (GB) is a popular methodology used to solve prediction
problems by minimizing a differentiable loss function, $L$. GB performs very
well on tabular machine learning (ML) problems; however, as a pure ML solver it
lacks the ability to fit models with probabilistic but correlated
multi-dimensional outputs, for example, multiple correlated Bernoulli outputs.
GB also does not form intermediate abstract data embeddings, one property of
Deep Learning that gives greater flexibility and performance on other types of
problems. This paper presents a simple adjustment to GB motivated in part by
artificial neural networks. Specifically, our adjustment inserts a matrix
multiplication between the output of a GB model and the loss, $L$. This allows
the output of a GB model to have increased dimension prior to being fed into
the loss and is thus ``wider'' than standard GB implementations. We call our
method Wide Boosting (WB) and show that WB outperforms GB on mult-dimesional
output tasks and that the embeddings generated by WB contain are more useful in
downstream prediction tasks than GB output predictions alone.
- Abstract(参考訳): グラディエントブースティング(GB)は、微分可能損失関数を最小化して予測問題を解くために使われる一般的な手法である。
GBは表型機械学習(ML)問題において非常によく機能するが、純粋なMLソルバとして、複数の相関したベルヌーイ出力など、確率的だが相関的な多次元出力にモデルを適合させる能力に欠ける。
GBは、他のタイプの問題に対する柔軟性とパフォーマンスを提供するDeep Learningの1つの特性である、中間的な抽象データ埋め込みを形成しない。
本稿では,ニューラルネットワークに動機づけられたgbへの簡単な調整を提案する。
具体的には、gbモデルの出力と損失値である$l$の間に行列の乗算を挿入する。
これにより、gbモデルの出力は、損失に投入される前に寸法を増加させ、標準のgb実装よりも ``wider''' となる。
提案手法をwb(wide boosting)と呼び,mult-dimesional output タスクではwb が gb を上回っており,wb が生成する埋め込みは gb の出力予測のみよりも下流予測タスクに有効であることを示した。
関連論文リスト
- Pushing the Limits of Large Language Model Quantization via the Linearity Theorem [71.3332971315821]
本稿では,階層的$ell$再構成誤差と量子化によるモデルパープレキシティ増加との直接的な関係を確立する「線形定理」を提案する。
この知見は,(1)アダマール回転とHIGGSと呼ばれるMSE最適格子を用いた単純なデータフリーLCM量子化法,(2)非一様層ごとの量子化レベルを求める問題に対する最適解の2つの新しい応用を可能にする。
論文 参考訳(メタデータ) (2024-11-26T15:35:44Z) - BESA: Pruning Large Language Models with Blockwise Parameter-Efficient Sparsity Allocation [54.28841287750586]
大規模言語モデル(LLM)は、テキスト要約、テキスト質問応答など、様々なタスクにおいて優れたパフォーマンスを示してきた。
SparseGPTやWandaといった既存のソリューションは、重み付けによってこの問題を緩和しようと試みている。
本稿では,ブロックワイド再構成損失を適用して,ブロックワイドパラメータ効率の空間割当(BESA)と呼ばれる新しいLCMプルーニング手法を提案する。
論文 参考訳(メタデータ) (2024-02-18T12:44:15Z) - Zero-Space Cost Fault Tolerance for Transformer-based Language Models on
ReRAM [27.354689865791638]
Resistive Random Access Memory (ReRAM)は、ディープニューラルネットワーク(DNN)のための有望なプラットフォームとして登場した。
フォールト欠陥などのハードウェア障害は、モデル推論中に重大な予測エラーを引き起こす可能性がある。
空間コストをゼロにするフォールトプロテクション機構を提案する。
論文 参考訳(メタデータ) (2024-01-22T02:50:38Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - Actually Sparse Variational Gaussian Processes [20.71289963037696]
コンパクトに支持されたB-スプライン基底関数の集合にGPを投影することによって構築されたドメイン間変分GPの新しいクラスを提案する。
これにより、高速変動空間現象を数万の誘導変数で非常に効率的にモデル化することができる。
論文 参考訳(メタデータ) (2023-04-11T09:38:58Z) - Outlier Suppression: Pushing the Limit of Low-bit Transformer Language
Models [57.933500846742234]
最近の研究は、構造化された外れ値が量子化性能の重要なボトルネックであることを認識している。
本稿では,Gamma Migration と Token-Wise Clipping の2つのコンポーネントを含む外部抑制フレームワークを提案する。
このフレームワークは、アウトレイラを効果的に抑制し、プラグアンドプレイモードで使用することができる。
論文 参考訳(メタデータ) (2022-09-27T12:05:59Z) - Automatic Mixed-Precision Quantization Search of BERT [62.65905462141319]
BERTのような事前訓練された言語モデルは、様々な自然言語処理タスクにおいて顕著な効果を示している。
これらのモデルは通常、数百万のパラメータを含んでおり、リソースに制約のあるデバイスへの実践的なデプロイを妨げている。
本稿では,サブグループレベルでの量子化とプルーニングを同時に行うことができるBERT用に設計された混合精密量子化フレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-30T06:32:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。