論文の概要: Understanding Token Probability Encoding in Output Embeddings
- arxiv url: http://arxiv.org/abs/2406.01468v1
- Date: Mon, 3 Jun 2024 15:57:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-05 22:10:43.947284
- Title: Understanding Token Probability Encoding in Output Embeddings
- Title(参考訳): 出力埋め込みにおけるトークン確率エンコーディングの理解
- Authors: Hakaze Cho, Yoshihiro Sakai, Kenshiro Tanaka, Mariko Kato, Naoya Inoue,
- Abstract要約: 出力埋め込みベクトル内の出力トークン確率を近似共通対数線形符号化する。
出力埋め込みにおける符号化を編集し、出力確率分布を正確に修正する。
トレーニング力学では、プローブのようなエンコーディングを使用し、出力埋め込みが初期ステップでトークンの周波数情報をキャプチャする。
- 参考スコア(独自算出の注目度): 2.317847793497416
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we investigate the output token probability information in the output embedding of language models. We provide an approximate common log-linear encoding of output token probabilities within the output embedding vectors and demonstrate that it is accurate and sparse when the output space is large and output logits are concentrated. Based on such findings, we edit the encoding in output embedding to modify the output probability distribution accurately. Moreover, the sparsity we find in output probability encoding suggests that a large number of dimensions in the output embedding do not contribute to causal language modeling. Therefore, we attempt to delete the output-unrelated dimensions and find more than 30% of the dimensions can be deleted without significant movement in output distribution and degeneration on sequence generation. Additionally, in training dynamics, we use such encoding as a probe and find that the output embeddings capture token frequency information in early steps, even before an obvious convergence starts.
- Abstract(参考訳): 本稿では,言語モデルの出力埋め込みにおける出力トークン確率情報について検討する。
出力埋め込みベクトル内の出力トークン確率の近似共通対数線形符号化を行い、出力空間が大きく、出力ロジットが集中している場合に、それが正確でスパースであることを示す。
このような結果に基づいて,出力の埋め込みにおける符号化を編集し,出力確率分布を正確に修正する。
さらに、出力確率エンコーディングにおける空間性は、出力埋め込みにおける多数の次元が因果言語モデリングに寄与しないことを示唆している。
したがって、出力非関連次元を除去し、出力分布やシーケンス生成のデジェネレーションに大きな動きを伴わずに、30%以上の次元を削除できることを確かめる。
さらに、トレーニング力学において、そのようなエンコーディングをプローブとして使用し、明らかな収束が始まる前の初期段階において、出力埋め込みがトークンの周波数情報をキャプチャするのを見つける。
関連論文リスト
- Approximately Aligned Decoding [22.828126161736797]
本稿では,出力分布の歪みと計算効率のバランスをとる手法を提案する。
本稿では,提案手法のタスク固有性能が,出力分布を歪ませない手法に匹敵することを示す。
論文 参考訳(メタデータ) (2024-10-01T22:22:13Z) - Efficient soft-output decoders for the surface code [0.0]
我々は,最小ウェイト完全マッチングとUnion-Findデコーダから導出される表面コードに対して,効率的なソフトアウトプットデコーダを構築する。
ソフトアウトプットの復号化により,階層型コードの性能が向上することを示す。
論文 参考訳(メタデータ) (2024-05-13T02:22:28Z) - Uncertainty Quantification of Data-Driven Output Predictors in the Output Error Setting [1.6385815610837167]
オフラインの入出力データを用いて直接LTIシステムの出力を予測する問題を再検討する。
オフラインデータがノイズによって破損した場合、出力予測はもはや正確ではない。
本稿では,騒音が十分に小さい条件下での予測誤差の上限を2つ紹介する。
論文 参考訳(メタデータ) (2024-04-23T14:52:14Z) - Deterministic identification over channels with finite output: a
dimensional perspective on superlinear rates [53.66705737169404]
有限出力であるが任意の入力アルファベットを持つメモリレスチャネルに対する一般性の問題を考える。
主な発見は、それによって特定可能なメッセージの最大数は、ブロック長が$n$の2R,nlog n$と超指数的にスケールすることです。
結果は、有限次元の出力量子系を持つ古典量子チャネルに直接一般化することが示されている。
論文 参考訳(メタデータ) (2024-02-14T11:59:30Z) - Perceiver IO: A General Architecture for Structured Inputs & Outputs [84.60656759687477]
Perceiver IOは、任意のサイズとセマンティクスの出力を生成するために、モデルの潜在空間を柔軟にクエリすることを学ぶ。
このモデルは、高度に構造化された出力空間を持つタスクに対して強い結果を得る。
Perceiver IOは、GLUE言語ベンチマークでTransformerベースのBERTベースラインにマッチする。
論文 参考訳(メタデータ) (2021-07-30T17:53:34Z) - Learning Output Embeddings in Structured Prediction [73.99064151691597]
構造化予測に対する強力で柔軟なアプローチは、予測される構造化対象を潜在的に無限次元の特徴空間に埋め込むことである。
原空間における予測は、前像問題の解法により計算される。
本研究では,新しい特徴空間に出力埋め込みと回帰関数の有限近似を共同で学習することを提案する。
論文 参考訳(メタデータ) (2020-07-29T09:32:53Z) - Composed Fine-Tuning: Freezing Pre-Trained Denoising Autoencoders for
Improved Generalization [93.95299500688286]
本稿では,出力の妥当性制約を考慮した構造化出力の予測問題に焦点をあてる。
本稿では,事前学習したデノイザを組み込んだ予測器を微調整するファインチューニングを提案する。
2層ReLUネットワークの場合、構成した微調整が予測器の複雑さを著しく低減することを示す。
論文 参考訳(メタデータ) (2020-06-29T17:14:35Z) - On Sparsifying Encoder Outputs in Sequence-to-Sequence Models [90.58793284654692]
我々はTransformerをテストベッドとして、エンコーダとデコーダの間にあるゲートの層を導入します。
ゲートは、パリシティ誘導L0ペナルティの期待値を用いて正規化される。
このスペーサー化が2つの機械翻訳と2つの要約タスクに与える影響について検討する。
論文 参考訳(メタデータ) (2020-04-24T16:57:52Z) - Imputer: Sequence Modelling via Imputation and Dynamic Programming [101.5705527605346]
Imputerは反復生成モデルであり、入力トークンや出力トークンの数に依存しない一定の数の生成ステップしか必要としない。
本稿では,ログ限界確率の低い動的プログラミング学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-20T18:21:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。