論文の概要: The Information of Large Language Model Geometry
- arxiv url: http://arxiv.org/abs/2402.03471v1
- Date: Thu, 1 Feb 2024 12:50:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-11 15:27:27.864158
- Title: The Information of Large Language Model Geometry
- Title(参考訳): 大規模言語モデル幾何学の情報
- Authors: Zhiquan Tan, Chenghai Li, Weiran Huang
- Abstract要約: 本研究では,表現エントロピーを解析し,モデルサイズとの関係を明らかにするシミュレーションを行う。
本稿では,スケーリング法則現象を解明するための(条件付き)エントロピーに基づく理論を提案する。
- 参考スコア(独自算出の注目度): 3.4003124816653143
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper investigates the information encoded in the embeddings of large
language models (LLMs). We conduct simulations to analyze the representation
entropy and discover a power law relationship with model sizes. Building upon
this observation, we propose a theory based on (conditional) entropy to
elucidate the scaling law phenomenon. Furthermore, we delve into the
auto-regressive structure of LLMs and examine the relationship between the last
token and previous context tokens using information theory and regression
techniques. Specifically, we establish a theoretical connection between the
information gain of new tokens and ridge regression. Additionally, we explore
the effectiveness of Lasso regression in selecting meaningful tokens, which
sometimes outperforms the closely related attention weights. Finally, we
conduct controlled experiments, and find that information is distributed across
tokens, rather than being concentrated in specific "meaningful" tokens alone.
- Abstract(参考訳): 本稿では,大規模言語モデル (LLM) の埋め込みに符号化された情報について検討する。
表現エントロピーを解析し,モデルサイズとパワー則の関係を見いだすためにシミュレーションを行う。
この観察に基づいて,スケーリング則現象を解明するための(条件付き)エントロピーに基づく理論を提案する。
さらに, LLMの自己回帰構造を掘り下げ, 情報理論と回帰手法を用いて, 最後のトークンと過去のコンテキストトークンの関係について検討する。
具体的には,新しいトークンの情報ゲインとリッジ回帰の理論的関係を確立する。
さらに, 有意義なトークン選択におけるラッソ回帰(lasso regression)の有効性について検討した。
最後に、制御された実験を行い、情報は特定の「意味のある」トークンだけに集中するのではなく、トークンに分散されていることに気付く。
関連論文リスト
- Understanding Forgetting in Continual Learning with Linear Regression [21.8755265936716]
連続的な学習は、複数のタスクを逐次学習することに焦点を当てており、近年大きな注目を集めている。
線形回帰モデルにおいて, 線形回帰モデルをグラディエント・ディッセンス(Gradient Descent)を用いて, 忘れることの一般的な理論的解析を行う。
十分なデータサイズを考慮に入れれば、集団データ共分散行列の固有値が大きいタスクが後で訓練されるようなシーケンス内のタスクの配置は、忘れが増す傾向にあることを実証する。
論文 参考訳(メタデータ) (2024-05-27T18:33:37Z) - On the Origins of Linear Representations in Large Language Models [51.88404605700344]
我々は,次のトークン予測の概念力学を定式化するために,単純な潜在変数モデルを導入する。
実験により、潜在変数モデルと一致するデータから学習すると線形表現が現れることが示された。
また、LLaMA-2大言語モデルを用いて、理論のいくつかの予測を検証した。
論文 参考訳(メタデータ) (2024-03-06T17:17:36Z) - Surprisal Driven $k$-NN for Robust and Interpretable Nonparametric
Learning [1.4293924404819704]
我々は情報理論の観点から、隣り合う従来のアルゴリズムに新たな光を当てた。
単一モデルを用いた分類,回帰,密度推定,異常検出などのタスクに対する頑健で解釈可能なフレームワークを提案する。
我々の研究は、分類と異常検出における最先端の成果を達成することによって、アーキテクチャの汎用性を示す。
論文 参考訳(メタデータ) (2023-11-17T00:35:38Z) - On the Joint Interaction of Models, Data, and Features [82.60073661644435]
本稿では,データとモデル間の相互作用を実験的に解析する新しいツールであるインタラクションテンソルを紹介する。
これらの観測に基づいて,特徴学習のための概念的枠組みを提案する。
この枠組みの下では、一つの仮説に対する期待された精度と一対の仮説に対する合意はどちらも閉形式で導出することができる。
論文 参考訳(メタデータ) (2023-06-07T21:35:26Z) - Disentanglement via Latent Quantization [60.37109712033694]
本研究では,組織化された潜在空間からの符号化と復号化に向けた帰納的バイアスを構築する。
本稿では,基本データレコーダ (vanilla autoencoder) と潜時再構成 (InfoGAN) 生成モデルの両方に追加することで,このアプローチの広範な適用性を実証する。
論文 参考訳(メタデータ) (2023-05-28T06:30:29Z) - EiHi Net: Out-of-Distribution Generalization Paradigm [6.33280703577189]
EiHi netは、どんな視覚的バックボーンでも祝福できるモデル学習パラダイムである。
本稿では,ディープラーニングにおけるOoD(Out-of-distriion)の一般化問題を解決するために,新しいEeiHiネットを開発した。
論文 参考訳(メタデータ) (2022-09-29T17:08:12Z) - A Farewell to the Bias-Variance Tradeoff? An Overview of the Theory of
Overparameterized Machine Learning [37.01683478234978]
機械学習(ML)の急速な進歩は、この分野の長年のドグマに挑戦する科学的な疑問を数多く提起している。
最も重要なライドルの1つは、パラメータ化されたモデルの優れた経験的一般化である。
論文 参考訳(メタデータ) (2021-09-06T10:48:40Z) - A Scaling Law for Synthetic-to-Real Transfer: A Measure of Pre-Training [52.93808218720784]
合成から現実への変換学習は,実タスクのための合成画像と接地真実アノテーションを用いた事前学習を行うフレームワークである。
合成画像はデータの不足を克服するが、事前訓練されたモデルで微調整性能がどのようにスケールするかは定かではない。
我々は、合成事前学習データの様々なタスク、モデル、複雑さにおける学習曲線を一貫して記述する、単純で一般的なスケーリング法則を観察する。
論文 参考訳(メタデータ) (2021-08-25T02:29:28Z) - Bounding Information Leakage in Machine Learning [26.64770573405079]
本稿では,情報漏洩の基本的な境界について検討する。
最悪の会員推論攻撃の成功率を特定し、拘束します。
感度の高い属性とモデルパラメータの間の相互情報の境界を導出する。
論文 参考訳(メタデータ) (2021-05-09T08:49:14Z) - Understanding Neural Abstractive Summarization Models via Uncertainty [54.37665950633147]
seq2seq抽象要約モデルは、自由形式の方法でテキストを生成する。
モデルのトークンレベルの予測のエントロピー、すなわち不確実性について検討する。
要約とテキスト生成モデルをより広範囲に解析する上で,不確実性は有用であることを示す。
論文 参考訳(メタデータ) (2020-10-15T16:57:27Z) - Relation-Guided Representation Learning [53.60351496449232]
本稿では,サンプル関係を明示的にモデル化し,活用する表現学習手法を提案する。
私たちのフレームワークは、サンプル間の関係をよく保存します。
サンプルをサブスペースに埋め込むことにより,本手法が大規模なサンプル外問題に対処可能であることを示す。
論文 参考訳(メタデータ) (2020-07-11T10:57:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。