論文の概要: Understanding Token Probability Encoding in Output Embeddings
- arxiv url: http://arxiv.org/abs/2406.01468v1
- Date: Mon, 3 Jun 2024 15:57:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-05 22:10:43.947284
- Title: Understanding Token Probability Encoding in Output Embeddings
- Title(参考訳): 出力埋め込みにおけるトークン確率エンコーディングの理解
- Authors: Hakaze Cho, Yoshihiro Sakai, Kenshiro Tanaka, Mariko Kato, Naoya Inoue,
- Abstract要約: 出力埋め込みベクトル内の出力トークン確率を近似共通対数線形符号化する。
出力埋め込みにおける符号化を編集し、出力確率分布を正確に修正する。
トレーニング力学では、プローブのようなエンコーディングを使用し、出力埋め込みが初期ステップでトークンの周波数情報をキャプチャする。
- 参考スコア(独自算出の注目度): 2.317847793497416
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we investigate the output token probability information in the output embedding of language models. We provide an approximate common log-linear encoding of output token probabilities within the output embedding vectors and demonstrate that it is accurate and sparse when the output space is large and output logits are concentrated. Based on such findings, we edit the encoding in output embedding to modify the output probability distribution accurately. Moreover, the sparsity we find in output probability encoding suggests that a large number of dimensions in the output embedding do not contribute to causal language modeling. Therefore, we attempt to delete the output-unrelated dimensions and find more than 30% of the dimensions can be deleted without significant movement in output distribution and degeneration on sequence generation. Additionally, in training dynamics, we use such encoding as a probe and find that the output embeddings capture token frequency information in early steps, even before an obvious convergence starts.
- Abstract(参考訳): 本稿では,言語モデルの出力埋め込みにおける出力トークン確率情報について検討する。
出力埋め込みベクトル内の出力トークン確率の近似共通対数線形符号化を行い、出力空間が大きく、出力ロジットが集中している場合に、それが正確でスパースであることを示す。
このような結果に基づいて,出力の埋め込みにおける符号化を編集し,出力確率分布を正確に修正する。
さらに、出力確率エンコーディングにおける空間性は、出力埋め込みにおける多数の次元が因果言語モデリングに寄与しないことを示唆している。
したがって、出力非関連次元を除去し、出力分布やシーケンス生成のデジェネレーションに大きな動きを伴わずに、30%以上の次元を削除できることを確かめる。
さらに、トレーニング力学において、そのようなエンコーディングをプローブとして使用し、明らかな収束が始まる前の初期段階において、出力埋め込みがトークンの周波数情報をキャプチャするのを見つける。
関連論文リスト
- Language Models Can Predict Their Own Behavior [28.80639362933004]
入力トークンの内部表現だけでは、次のトークンだけでなく、出力シーケンス全体に対する最終的な振る舞いを正確に予測できることがよく示されます。
この能力を活用して、内部状態のプローブを学習して、早期警告(および終了)システムを作成します。
具体的には、探査機がLMの振る舞いを確実に見積もることができれば、システムはトークンを全く生成せず、代わりに推定された振る舞いを返す。
論文 参考訳(メタデータ) (2025-02-18T23:13:16Z) - Approximately Aligned Decoding [22.828126161736797]
本稿では,出力分布の歪みと計算効率のバランスをとる手法を提案する。
本稿では,提案手法のタスク固有性能が,出力分布を歪ませない手法に匹敵することを示す。
論文 参考訳(メタデータ) (2024-10-01T22:22:13Z) - Uncertainty Quantification of Data-Driven Output Predictors in the Output Error Setting [1.6385815610837167]
オフラインの入出力データを用いて直接LTIシステムの出力を予測する問題を再検討する。
オフラインデータがノイズによって破損した場合、出力予測はもはや正確ではない。
本稿では,騒音が十分に小さい条件下での予測誤差の上限を2つ紹介する。
論文 参考訳(メタデータ) (2024-04-23T14:52:14Z) - Fact-Checking the Output of Large Language Models via Token-Level Uncertainty Quantification [116.77055746066375]
大型言語モデル(LLM)は幻覚、すなわちその出力に誤った主張を生じさせることで有名である。
本稿では,トークンレベルの不確実性定量化に基づくファクトチェックと幻覚検出パイプラインを提案する。
論文 参考訳(メタデータ) (2024-03-07T17:44:17Z) - Neuro-Symbolic Entropy Regularization [78.16196949641079]
構造化予測では、目的は構造化されたオブジェクトをエンコードする多くの出力変数を共同で予測することである。
エントロピー正則化(Entropy regularization)という1つのアプローチは、決定境界が低確率領域にあるべきであることを示唆している。
我々は、モデルが有効対象を確実に予測することを奨励する損失、ニューロシンボリックエントロピー正規化を提案する。
論文 参考訳(メタデータ) (2022-01-25T06:23:10Z) - Probabilistic Kolmogorov-Arnold Network [1.4732811715354455]
本稿では,アレータティック不確実性の場合に出力の確率分布を推定する手法を提案する。
提案手法は, 出力の入力依存確率分布と, 入力による分布型の変化を対象とする。
本手法は任意の回帰モデルに適用できるが, 計算効率のよいモデルの構築につながるため,kansと組み合わせる。
論文 参考訳(メタデータ) (2021-04-04T23:49:15Z) - Learning Output Embeddings in Structured Prediction [73.99064151691597]
構造化予測に対する強力で柔軟なアプローチは、予測される構造化対象を潜在的に無限次元の特徴空間に埋め込むことである。
原空間における予測は、前像問題の解法により計算される。
本研究では,新しい特徴空間に出力埋め込みと回帰関数の有限近似を共同で学習することを提案する。
論文 参考訳(メタデータ) (2020-07-29T09:32:53Z) - Composed Fine-Tuning: Freezing Pre-Trained Denoising Autoencoders for
Improved Generalization [93.95299500688286]
本稿では,出力の妥当性制約を考慮した構造化出力の予測問題に焦点をあてる。
本稿では,事前学習したデノイザを組み込んだ予測器を微調整するファインチューニングを提案する。
2層ReLUネットワークの場合、構成した微調整が予測器の複雑さを著しく低減することを示す。
論文 参考訳(メタデータ) (2020-06-29T17:14:35Z) - On Sparsifying Encoder Outputs in Sequence-to-Sequence Models [90.58793284654692]
我々はTransformerをテストベッドとして、エンコーダとデコーダの間にあるゲートの層を導入します。
ゲートは、パリシティ誘導L0ペナルティの期待値を用いて正規化される。
このスペーサー化が2つの機械翻訳と2つの要約タスクに与える影響について検討する。
論文 参考訳(メタデータ) (2020-04-24T16:57:52Z) - Imputer: Sequence Modelling via Imputation and Dynamic Programming [101.5705527605346]
Imputerは反復生成モデルであり、入力トークンや出力トークンの数に依存しない一定の数の生成ステップしか必要としない。
本稿では,ログ限界確率の低い動的プログラミング学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-20T18:21:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。