論文の概要: Finding Experts in Transformer Models
- arxiv url: http://arxiv.org/abs/2005.07647v1
- Date: Fri, 15 May 2020 17:07:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 22:15:44.705034
- Title: Finding Experts in Transformer Models
- Title(参考訳): 変圧器モデルのエキスパートを見つける
- Authors: Xavier Suau, Luca Zappella, Nicholas Apostoloff
- Abstract要約: 本研究では、事前訓練されたトランスフォーマーモデル(TM)におけるエキスパートユニットの存在と、それらがモデルの性能に与える影響について検討する。
1641のコンセプトのデータセットをコンパイルし、様々な専門家ユニットをTMで発見できるようにします。
そこで,本研究では,事前学習型言語モデルを用いて,トップエキスパートに積極性を持たせることによって,与えられた概念でテキストを生成する方法について述べる。
- 参考スコア(独自算出の注目度): 2.105564340986074
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In this work we study the presence of expert units in pre-trained Transformer
Models (TM), and how they impact a model's performance. We define expert units
to be neurons that are able to classify a concept with a given average
precision, where a concept is represented by a binary set of sentences
containing the concept (or not). Leveraging the OneSec dataset (Scarlini et
al., 2019), we compile a dataset of 1641 concepts that allows diverse expert
units in TM to be discovered. We show that expert units are important in
several ways: (1) The presence of expert units is correlated ($r^2=0.833$) with
the generalization power of TM, which allows ranking TM without requiring
fine-tuning on suites of downstream tasks. We further propose an empirical
method to decide how accurate such experts should be to evaluate
generalization. (2) The overlap of top experts between concepts provides a
sensible way to quantify concept co-learning, which can be used for
explainability of unknown concepts. (3) We show how to self-condition
off-the-shelf pre-trained language models to generate text with a given concept
by forcing the top experts to be active, without requiring re-training the
model or using additional parameters.
- Abstract(参考訳): 本研究では,事前学習されたトランスフォーマーモデル(tm)におけるエキスパートユニットの存在と,モデルの性能に与える影響について検討する。
我々は、概念を所定の平均精度で分類できるニューロンと定義し、概念は概念(またはそうでない)を含む二項集合によって表現される。
OneSecデータセット(Scarlini et al., 2019)を活用して、1641のコンセプトのデータセットをコンパイルし、TMのさまざまな専門家ユニットを発見できるようにします。
1) エキスパートユニットの存在とtmの一般化能力との相関関係(r^2=0.833$)は, ダウンストリームタスクスイートの微調整を必要とせず, tmのランク付けを可能にする。
さらに,そのような専門家がどの程度の精度で一般化を評価するべきかを決定するための実証的手法を提案する。
2)概念間のトップエキスパートの重複は、未知の概念の説明可能性に使用できる概念コラーニングの定量化に有効な方法を提供する。
(3) モデルの再訓練や追加パラメータの使用を必要とせず,トップエキスパートに積極的になるように強制することで,事前訓練済み言語モデルからテキストを生成する方法を示す。
関連論文リスト
- MoIN: Mixture of Introvert Experts to Upcycle an LLM [15.182215869841789]
本稿では,フルモデルの事前学習を継続することなく,既存の大規模言語モデルを改善することを目的とする。
このアイデアは、事前学習データを意味のあるグループに分割し、各サブセットで専門家を訓練する。
推論中、入力されたクエリは、最初に最も関連する専門家にルーティングされ、その後、フォワードパスのためにベースモデルにロードされる。
論文 参考訳(メタデータ) (2024-10-13T01:11:04Z) - Benchmarks as Microscopes: A Call for Model Metrology [76.64402390208576]
現代の言語モデル(LM)は、能力評価において新たな課題を提起する。
メトリクスに自信を持つためには、モデルミアロジの新たな規律が必要です。
論文 参考訳(メタデータ) (2024-07-22T17:52:12Z) - Fantastic Gains and Where to Find Them: On the Existence and Prospect of
General Knowledge Transfer between Any Pretrained Model [74.62272538148245]
事前訓練されたモデルの任意のペアリングに対して、一方のモデルは他方では利用できない重要なデータコンテキストを抽出する。
このような「補的」な知識を,性能劣化を伴わずに,あるモデルから別のモデルへ伝達できるかどうかを検討する。
論文 参考訳(メタデータ) (2023-10-26T17:59:46Z) - Uncovering Unique Concept Vectors through Latent Space Decomposition [0.0]
概念に基づく説明は、特徴帰属推定よりも解釈可能な優れたアプローチとして現れてきた。
本稿では,訓練中に深層モデルから学んだ概念を自動的に発見するポストホックな教師なし手法を提案する。
実験の結果、我々の概念の大部分は、人間にとって容易に理解でき、一貫性を示し、目の前の課題に関連があることが判明した。
論文 参考訳(メタデータ) (2023-07-13T17:21:54Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - SuperCone: Modeling Heterogeneous Experts with Concept Meta-learning for
Unified Predictive Segments System [8.917697023052257]
統合述語セグメントシステムであるSuperConeについて述べる。
これは、各ユーザの異質なデジタルフットプリントを要約するフラットな概念表現の上に構築される。
様々な述語セグメントタスクにおいて、最先端のレコメンデーションとランキングアルゴリズムを上回ります。
論文 参考訳(メタデータ) (2022-03-09T04:11:39Z) - Dynamic Inference with Neural Interpreters [72.90231306252007]
本稿では,モジュールシステムとしての自己アテンションネットワークにおける推論を分解するアーキテクチャであるNeural Interpretersを提案する。
モデルへの入力は、エンドツーエンドの学習方法で一連の関数を通してルーティングされる。
ニューラル・インタープリタは、より少ないパラメータを用いて視覚変換器と同等に動作し、サンプル効率で新しいタスクに転送可能であることを示す。
論文 参考訳(メタデータ) (2021-10-12T23:22:45Z) - A Minimalist Dataset for Systematic Generalization of Perception,
Syntax, and Semantics [131.93113552146195]
我々は,機械が一般化可能な概念を学習する能力を調べるため,新しいデータセットであるHINT(Hand written arithmetic with INTegers)を提案する。
HINTでは、イメージなどの生信号から概念がどのように認識されるかを学ぶことが機械のタスクである。
我々は、RNN、Transformer、GPT-3など、様々なシーケンス・ツー・シーケンスモデルで広範囲に実験を行った。
論文 参考訳(メタデータ) (2021-03-02T01:32:54Z) - Towards Unbiased and Accurate Deferral to Multiple Experts [19.24068936057053]
本研究では, 分類器とディフェラルシステムを同時に学習するフレームワークを提案し, ディフェラルシステムは1人以上の人間専門家にディジェラルシステムを選択する。
本フレームワークは,偏りのある合成専門家による合成データセットとコンテンツモデレーションデータセットを用いてテストし,最終予測の精度と公平性を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2021-02-25T17:08:39Z) - Common Sense or World Knowledge? Investigating Adapter-Based Knowledge
Injection into Pretrained Transformers [54.417299589288184]
本研究では,概念ネットとそれに対応するオープンマインド・コモンセンス(OMCS)コーパスから,BERTの分布知識と概念知識を補完するモデルについて検討する。
我々のアダプタベースのモデルは,ConceptNet や OMCS に明示的に存在する概念的知識のタイプを必要とする推論タスクにおいて,BERT を大幅に上回っている。
論文 参考訳(メタデータ) (2020-05-24T15:49:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。