論文の概要: Low-Rank Softmax Can Have Unargmaxable Classes in Theory but Rarely in
Practice
- arxiv url: http://arxiv.org/abs/2203.06462v1
- Date: Sat, 12 Mar 2022 15:34:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-19 21:47:40.322815
- Title: Low-Rank Softmax Can Have Unargmaxable Classes in Theory but Rarely in
Practice
- Title(参考訳): 低ランクのSoftmaxは理論上は未定のクラスを持つが、実際は稀である
- Authors: Andreas Grivas, Nikolay Bogoychev, Adam Lopez
- Abstract要約: 我々は,インフンガルグ可能なトークンの公開言語モデルを検出するアルゴリズムを開発した。
150モデル中13モデルが実際にそのようなトークンを持っていることが分かりました。
- 参考スコア(独自算出の注目度): 18.296971636710985
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Classifiers in natural language processing (NLP) often have a large number of
output classes. For example, neural language models (LMs) and machine
translation (MT) models both predict tokens from a vocabulary of thousands. The
Softmax output layer of these models typically receives as input a dense
feature representation, which has much lower dimensionality than the output. In
theory, the result is some words may be impossible to be predicted via argmax,
irrespective of input features, and empirically, there is evidence this happens
in small language models. In this paper we ask whether it can happen in
practical large language models and translation models. To do so, we develop
algorithms to detect such \emph{unargmaxable} tokens in public models. We find
that 13 out of 150 models do indeed have such tokens; however, they are very
infrequent and unlikely to impact model quality. We release our algorithms and
code to the public.
- Abstract(参考訳): 自然言語処理(NLP)における分類器は、しばしば多数の出力クラスを持つ。
例えば、ニューラルネットワークモデル(LM)と機械翻訳(MT)モデルはどちらも、数千の語彙からトークンを予測する。
これらのモデルのSoftmax出力層は一般に、出力よりもはるかに低次元の高密度な特徴表現として入力される。
理論的には、いくつかの単語は入力特徴に関係なくargmaxで予測することは不可能であり、実証的に、これは小さな言語モデルで起こる証拠がある。
本稿では,実際の大規模言語モデルや翻訳モデルで実現可能かどうかを問う。
そのために、公開モデルでそのような \emph{unargmaxable}トークンを検出するアルゴリズムを開発した。
150モデル中13モデルが実際にそのようなトークンを持っていることは分かっていますが、それらは非常に稀で、モデルの品質に影響を与えることはほとんどありません。
アルゴリズムとコードを公開しています。
関連論文リスト
- Language models scale reliably with over-training and on downstream
tasks [116.41529786970355]
スケーリング法則は言語モデルを開発する上で有用なガイドである。
現在のスケーリング研究と、言語モデルが最終的にトレーニングされ、評価される方法には、まだギャップがあります。
論文 参考訳(メタデータ) (2024-03-13T13:54:00Z) - Learning Mutually Informed Representations for Characters and Subwords [29.43428615637264]
本稿では,文字とサブワードの言語モデルを組み合わせることを目的とした絡み合いモデルを提案する。
視覚言語モデルにインスパイアされた我々のモデルは、文字とサブワードを別のモダリティとして扱う。
本稿では,テキスト分類,エンティティ認識,POSタグ付けタスクについて評価する。
論文 参考訳(メタデータ) (2023-11-14T02:09:10Z) - MiLe Loss: a New Loss for Mitigating the Bias of Learning Difficulties
in Generative Language Models [42.758124524703895]
トークンによる学習難易度を緩和するMiLe Loss関数を提案する。
我々は468M,1.2B,6.7Bパラメータの異なるスケールで生成言語モデルを訓練する。
実験により、提案されたMiLe Lossを組み込んだモデルが下流ベンチマークで一貫したパフォーマンス向上を達成できることが明らかになった。
論文 参考訳(メタデータ) (2023-10-30T13:33:21Z) - A Natural Bias for Language Generation Models [31.44752136404971]
我々は、一グラムの周波数統計を先行知識として反映した別個のモジュールで、標準のニューラルネットワーク生成モデルを実現することができることを示す。
この単純なテクニックのテストベッドとしてニューラルマシン翻訳を使用し、(i)学習効率の向上、(ii)全体的なパフォーマンスの向上、そしておそらく最も重要なことは、強い周波数効果を歪めているように見えることです。
論文 参考訳(メタデータ) (2022-12-19T18:14:36Z) - Rarely a problem? Language models exhibit inverse scaling in their
predictions following few-type quantifiers [0.6091702876917281]
言語モデルにおいて特に課題となる「おもちゃのような2人の子供」のような「2つの」型の量化器に焦点をあてる。
人間の2つの神経言語実験から、異なる大きさの22個の自己回帰トランスフォーマーモデルまで、960の英語文刺激を提示する。
論文 参考訳(メタデータ) (2022-12-16T20:01:22Z) - Discovering Latent Knowledge in Language Models Without Supervision [72.95136739040676]
既存の言語モデルをトレーニングするテクニックは、真実と正しく一致していない可能性がある。
本稿では,言語モデルの内部アクティベーション内部の潜伏知識を,純粋に教師なしの方法で直接見つけることを提案する。
本手法は, 教師なし, モデル出力がないにもかかわらず, 大規模言語モデルで表される多様な知識を復元できることを示す。
論文 参考訳(メタデータ) (2022-12-07T18:17:56Z) - Nonparametric Masked Language Modeling [113.71921977520864]
既存の言語モデル(LM)は、有限語彙上のソフトマックスでトークンを予測する。
NPMは,このソフトマックスを参照コーパス内の各フレーズの非パラメトリック分布に置き換える最初の非パラメトリックマスク付き言語モデルである。
NPMは、コントラスト目的と全コーパス検索に対するバッチ内近似で効率的に訓練することができる。
論文 参考訳(メタデータ) (2022-12-02T18:10:42Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - Quark: Controllable Text Generation with Reinforced Unlearning [68.07749519374089]
大規模言語モデルは、しばしばユーザの期待に合わない振る舞いを学ぶ。
本稿では,(不必要な)特性を定量化する報酬関数を最適化するアルゴリズムQuarkを紹介する。
未学習の毒性、ネガティブな感情、反復について、我々の実験はQuarkが強いベースラインと最先端の強化学習法の両方より優れていることを示している。
論文 参考訳(メタデータ) (2022-05-26T21:11:51Z) - Limitations of Autoregressive Models and Their Alternatives [31.827580420643606]
これらの制限は、モデルをトレーニングするのにどれだけの計算とデータが使われようとも適用されます。
エネルギーベースのモデル(効率的なサンプリングを諦める)と潜在変数の自己回帰モデル(与えられた文字列の効率的なスコアを諦める)は、これらの制限から逃れるには十分強力である。
論文 参考訳(メタデータ) (2020-10-22T17:59:09Z) - Limits of Detecting Text Generated by Large-Scale Language Models [65.46403462928319]
誤情報キャンペーンで使用される可能性があるため、長く一貫性のあるテキストを生成できる大規模な言語モデルが危険であると考える者もいる。
ここでは、仮説テスト問題として大規模言語モデル出力検出を定式化し、テキストを真あるいは生成されたものと分類する。
論文 参考訳(メタデータ) (2020-02-09T19:53:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。