論文の概要: Sparsify-then-Classify: From Internal Neurons of Large Language Models
To Efficient Text Classifiers
- arxiv url: http://arxiv.org/abs/2311.15983v1
- Date: Mon, 27 Nov 2023 16:28:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 14:15:23.779245
- Title: Sparsify-then-Classify: From Internal Neurons of Large Language Models
To Efficient Text Classifiers
- Title(参考訳): Sparsify-then-classify:大言語モデルの内部ニューロンから効率的なテキスト分類器へ
- Authors: Yilun Liu, Difan Jiao, Ashton Anderson
- Abstract要約: 本稿では,全ての活性化状態と隠蔽状態に複数のプーリング戦略を適用することで,すべての内部表現を利用する手法を提案する。
我々の新しい軽量戦略であるSparsify-then-Classify (STC) は、まずタスク固有の機能を階層ごとに分散し、次にテキスト分類のために階層に集約する。
モデルとデータセットの包括的集合に関する実験により、STCは事前訓練されたモデルと微調整されたモデルの分類性能を一貫して改善するだけでなく、トレーニングと推論の両方においてより効率的であり、本質的に解釈可能であることが示された。
- 参考スコア(独自算出の注目度): 4.81502049551298
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Among the many tasks that Large Language Models (LLMs) have revolutionized is
text classification. However, existing approaches for applying pretrained LLMs
to text classification predominantly rely on using single token outputs from
only the last layer of hidden states. As a result, they suffer from limitations
in efficiency, task-specificity, and interpretability. In our work, we
contribute an approach that uses all internal representations by employing
multiple pooling strategies on all activation and hidden states. Our novel
lightweight strategy, Sparsify-then-Classify (STC) first sparsifies
task-specific features layer-by-layer, then aggregates across layers for text
classification. STC can be applied as a seamless plug-and-play module on top of
existing LLMs. Our experiments on a comprehensive set of models and datasets
demonstrate that STC not only consistently improves the classification
performance of pretrained and fine-tuned models, but is also more efficient for
both training and inference, and is more intrinsically interpretable.
- Abstract(参考訳): 大きな言語モデル(LLM)が革新した多くのタスクの1つは、テキスト分類である。
しかし、テキスト分類に事前訓練されたLLMを適用するための既存のアプローチは、主に隠れ状態の最後の層のみから単一のトークン出力を使用することに依存している。
その結果、効率性、タスク特異性、解釈可能性の制限に悩まされる。
本研究では,すべてのアクティベーションと隠蔽状態に複数のプーリング戦略を適用することで,すべての内部表現を利用するアプローチに貢献する。
私たちの新しい軽量戦略であるSparsify-then-Classify (STC) は、まずタスク固有の機能を階層ごとに分散し、次にテキスト分類のために階層に集約します。
STCは既存のLLM上にシームレスなプラグイン・アンド・プレイモジュールとして適用することができる。
総合的なモデルとデータセットに関する実験により,stcは事前学習モデルと微調整モデルの分類性能を一貫して向上させるだけでなく,トレーニングと推論の両方においてより効率的であり,本質的に解釈可能であることが示された。
関連論文リスト
- Improving Neuron-level Interpretability with White-box Language Models [11.898535906016907]
我々は、CRATE(Coding RAte TransformEr)という、ホワイトボックストランスフォーマーのようなアーキテクチャを導入する。
包括的実験では、ニューロンレベルの解釈可能性において、顕著な改善(最大103%の相対的な改善)が見られた。
CRATEの解釈可能性の向上は、関連するトークンを一貫して一意に活性化する能力の強化によるものである。
論文 参考訳(メタデータ) (2024-10-21T19:12:33Z) - Unveiling the Power of Sparse Neural Networks for Feature Selection [60.50319755984697]
スパースニューラルネットワーク(SNN)は、効率的な特徴選択のための強力なツールとして登場した。
動的スパーストレーニング(DST)アルゴリズムで訓練されたSNNは、平均して50%以上のメモリと55%以上のFLOPを削減できることを示す。
以上の結果から,DSTアルゴリズムで訓練したSNNによる特徴選択は,平均して50ドル以上のメモリと55%のFLOPを削減できることがわかった。
論文 参考訳(メタデータ) (2024-08-08T16:48:33Z) - Sharing Matters: Analysing Neurons Across Languages and Tasks in LLMs [70.3132264719438]
我々は,タスクや言語間でニューロンの活性化がどのように共有されるかを調べることで,研究ギャップを埋めることを目指している。
我々は、異なる言語にまたがる特定の入力に対する応答に基づいて、ニューロンを4つの異なるカテゴリに分類する。
分析の結果, (i) ニューロン共有のパターンはタスクや例の特徴に大きく影響され, (ii) ニューロン共有は言語類似性に完全には対応しない, (iii) 共有ニューロンは応答の生成において重要な役割を担っている。
論文 参考訳(メタデータ) (2024-06-13T16:04:11Z) - A Hybrid Neural Coding Approach for Pattern Recognition with Spiking
Neural Networks [53.31941519245432]
脳にインスパイアされたスパイクニューラルネットワーク(SNN)は、パターン認識タスクを解く上で有望な能力を示している。
これらのSNNは、情報表現に一様神経コーディングを利用する同質ニューロンに基づいている。
本研究では、SNNアーキテクチャは異種符号化方式を組み込むよう、均質に設計されるべきである、と論じる。
論文 参考訳(メタデータ) (2023-05-26T02:52:12Z) - Finding Neurons in a Haystack: Case Studies with Sparse Probing [2.278231643598956]
大規模言語モデル (LLM) の内部計算は不透明であり、よく理解されていない。
入力に特徴が存在することを予測するために、$k$-sparseの線形分類器を訓練する。
k$の値を変えることで、学習された表現の空間性と、それがモデルスケールによってどのように変化するかを研究する。
論文 参考訳(メタデータ) (2023-05-02T17:13:55Z) - Neuro-symbolic Rule Learning in Real-world Classification Tasks [75.0907310059298]
pix2ruleのニューラルDNFモジュールを拡張し、実世界のマルチクラスおよびマルチラベル分類タスクにおけるルール学習をサポートする。
多クラス分類において相互排他性を強制するニューラルDNF-EO(Exactly One)と呼ばれる新しい拡張モデルを提案する。
論文 参考訳(メタデータ) (2023-03-29T13:27:14Z) - Supervised Feature Selection with Neuron Evolution in Sparse Neural
Networks [17.12834153477201]
スパースニューラルネットワークを用いた資源効率の高い新しい特徴選択法を提案する。
スクラッチからトレーニングされたスパースニューラルネットワークの入力層から、不定形的特徴を徐々に抜き取ることにより、NeuroFSは、機能の情報的サブセットを効率的に導き出す。
NeuroFSは、最先端の教師付き特徴選択モデルの中で最上位のスコアを達成している。
論文 参考訳(メタデータ) (2023-03-10T17:09:55Z) - Discovering Salient Neurons in Deep NLP Models [31.18937787704794]
本稿では,モデル内のサルエントニューロンを抽出する言語相関解析法を提案する。
我々のデータ駆動量分析は興味深い発見を照らす。
我々のコードはNeuroXツールキットの一部として公開されています。
論文 参考訳(メタデータ) (2022-06-27T13:31:49Z) - Natural Language Descriptions of Deep Visual Features [50.270035018478666]
オープンエンド,コンポジション,自然言語による記述で自動的にニューロンをラベル付けする手法を提案する。
我々はMILANを用いて、視覚モデルにおける属性、カテゴリ、関係情報を選択的に選択したニューロンの分布と重要性を特徴付ける。
また、これらの特徴を曖昧にすることを目的としたデータセットでトレーニングされたモデルにおいて、人種や性別といった保護されたカテゴリに敏感な、監査用のMILANも使用しています。
論文 参考訳(メタデータ) (2022-01-26T18:48:02Z) - Analyzing Individual Neurons in Pre-trained Language Models [41.07850306314594]
言語的タスクを予測できるニューロンのサブセットは、より少ないニューロンに局所化される低いレベルタスクと、より高いレベルの構文予測タスクとがある。
例えば、XLNet のニューロンは、BERT などの特性を予測する際により局所化され、解離し、より分散され、結合される。
論文 参考訳(メタデータ) (2020-10-06T13:17:38Z) - Non-linear Neurons with Human-like Apical Dendrite Activations [81.18416067005538]
XOR論理関数を100%精度で学習し, 標準的なニューロンに後続のアピーカルデンドライト活性化(ADA)が認められた。
コンピュータビジョン,信号処理,自然言語処理の6つのベンチマークデータセットについて実験を行った。
論文 参考訳(メタデータ) (2020-02-02T21:09:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。