論文の概要: Understanding Token Probability Encoding in Output Embeddings
- arxiv url: http://arxiv.org/abs/2406.01468v2
- Date: Wed, 11 Dec 2024 13:22:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-12 14:00:23.207797
- Title: Understanding Token Probability Encoding in Output Embeddings
- Title(参考訳): 出力埋め込みにおけるトークン確率エンコーディングの理解
- Authors: Hakaze Cho, Yoshihiro Sakai, Kenshiro Tanaka, Mariko Kato, Naoya Inoue,
- Abstract要約: 出力埋め込みベクトル内には、出力トークン確率の近似的な共通対数線形符号化が存在する。
出力の確率分布を正確に修正するために、出力埋め込みにおけるエンコーディングを操縦する。
言語モデルの事前学習力学において、出力埋め込みは初期ステップでコーパストークンの周波数情報をキャプチャする。
- 参考スコア(独自算出の注目度): 2.317847793497416
- License:
- Abstract: In this paper, we investigate the output token probability information in the output embedding of language models. We find an approximate common log-linear encoding of output token probabilities within the output embedding vectors and empirically demonstrate that it is accurate and sparse. As a causality examination, we steer the encoding in output embedding to modify the output probability distribution accurately. Moreover, the sparsity we find in output probability encoding suggests that a large number of dimensions in the output embedding do not contribute to causal language modeling. Therefore, we attempt to delete the output-unrelated dimensions and find more than 30% of the dimensions can be deleted without significant movement in output distribution and sequence generation. Additionally, in the pre-training dynamics of language models, we find that the output embeddings capture the corpus token frequency information in early steps, even before an obvious convergence of parameters starts.
- Abstract(参考訳): 本稿では,言語モデルの出力埋め込みにおける出力トークン確率情報について検討する。
出力埋込ベクトル内の出力トークン確率を近似した対数線形符号化を行い,その正確さと疎さを実証的に示す。
因果性検査として、出力埋め込みにおけるエンコーディングを操り、出力確率分布を正確に修正する。
さらに、出力確率エンコーディングにおける空間性は、出力埋め込みにおける多数の次元が因果言語モデリングに寄与しないことを示唆している。
そこで我々は出力非関連次元を除去し、出力分布やシーケンス生成に大きな動きを伴わずに30%以上の次元を削除できることを確かめる。
さらに、言語モデルの事前学習力学において、パラメータの明らかな収束が始まる前の初期段階において、出力埋め込みがコーパストークンの周波数情報をキャプチャすることがわかった。
関連論文リスト
- Language Models Can Predict Their Own Behavior [28.80639362933004]
入力トークンの内部表現だけでは、次のトークンだけでなく、出力シーケンス全体に対する最終的な振る舞いを正確に予測できることがよく示されます。
この能力を活用して、内部状態のプローブを学習して、早期警告(および終了)システムを作成します。
具体的には、探査機がLMの振る舞いを確実に見積もることができれば、システムはトークンを全く生成せず、代わりに推定された振る舞いを返す。
論文 参考訳(メタデータ) (2025-02-18T23:13:16Z) - Approximately Aligned Decoding [22.828126161736797]
本稿では,出力分布の歪みと計算効率のバランスをとる手法を提案する。
本稿では,提案手法のタスク固有性能が,出力分布を歪ませない手法に匹敵することを示す。
論文 参考訳(メタデータ) (2024-10-01T22:22:13Z) - Uncertainty Quantification of Data-Driven Output Predictors in the Output Error Setting [1.6385815610837167]
オフラインの入出力データを用いて直接LTIシステムの出力を予測する問題を再検討する。
オフラインデータがノイズによって破損した場合、出力予測はもはや正確ではない。
本稿では,騒音が十分に小さい条件下での予測誤差の上限を2つ紹介する。
論文 参考訳(メタデータ) (2024-04-23T14:52:14Z) - Fact-Checking the Output of Large Language Models via Token-Level Uncertainty Quantification [116.77055746066375]
大型言語モデル(LLM)は幻覚、すなわちその出力に誤った主張を生じさせることで有名である。
本稿では,トークンレベルの不確実性定量化に基づくファクトチェックと幻覚検出パイプラインを提案する。
論文 参考訳(メタデータ) (2024-03-07T17:44:17Z) - Neuro-Symbolic Entropy Regularization [78.16196949641079]
構造化予測では、目的は構造化されたオブジェクトをエンコードする多くの出力変数を共同で予測することである。
エントロピー正則化(Entropy regularization)という1つのアプローチは、決定境界が低確率領域にあるべきであることを示唆している。
我々は、モデルが有効対象を確実に予測することを奨励する損失、ニューロシンボリックエントロピー正規化を提案する。
論文 参考訳(メタデータ) (2022-01-25T06:23:10Z) - Probabilistic Kolmogorov-Arnold Network [1.4732811715354455]
本稿では,アレータティック不確実性の場合に出力の確率分布を推定する手法を提案する。
提案手法は, 出力の入力依存確率分布と, 入力による分布型の変化を対象とする。
本手法は任意の回帰モデルに適用できるが, 計算効率のよいモデルの構築につながるため,kansと組み合わせる。
論文 参考訳(メタデータ) (2021-04-04T23:49:15Z) - Learning Output Embeddings in Structured Prediction [73.99064151691597]
構造化予測に対する強力で柔軟なアプローチは、予測される構造化対象を潜在的に無限次元の特徴空間に埋め込むことである。
原空間における予測は、前像問題の解法により計算される。
本研究では,新しい特徴空間に出力埋め込みと回帰関数の有限近似を共同で学習することを提案する。
論文 参考訳(メタデータ) (2020-07-29T09:32:53Z) - Composed Fine-Tuning: Freezing Pre-Trained Denoising Autoencoders for
Improved Generalization [93.95299500688286]
本稿では,出力の妥当性制約を考慮した構造化出力の予測問題に焦点をあてる。
本稿では,事前学習したデノイザを組み込んだ予測器を微調整するファインチューニングを提案する。
2層ReLUネットワークの場合、構成した微調整が予測器の複雑さを著しく低減することを示す。
論文 参考訳(メタデータ) (2020-06-29T17:14:35Z) - On Sparsifying Encoder Outputs in Sequence-to-Sequence Models [90.58793284654692]
我々はTransformerをテストベッドとして、エンコーダとデコーダの間にあるゲートの層を導入します。
ゲートは、パリシティ誘導L0ペナルティの期待値を用いて正規化される。
このスペーサー化が2つの機械翻訳と2つの要約タスクに与える影響について検討する。
論文 参考訳(メタデータ) (2020-04-24T16:57:52Z) - Imputer: Sequence Modelling via Imputation and Dynamic Programming [101.5705527605346]
Imputerは反復生成モデルであり、入力トークンや出力トークンの数に依存しない一定の数の生成ステップしか必要としない。
本稿では,ログ限界確率の低い動的プログラミング学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-20T18:21:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。