論文の概要: Solvable Dynamics of Self-Supervised Word Embeddings and the Emergence of Analogical Reasoning
- arxiv url: http://arxiv.org/abs/2502.09863v1
- Date: Fri, 14 Feb 2025 02:16:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-17 14:48:48.210625
- Title: Solvable Dynamics of Self-Supervised Word Embeddings and the Emergence of Analogical Reasoning
- Title(参考訳): 自己監督型単語埋め込みの解法力学とアナロジカル推論の創発
- Authors: Dhruva Karkada, James B. Simon, Yasaman Bahri, Michael R. DeWeese,
- Abstract要約: 本稿では,2次単語埋め込みモデルという,可解なコントラスト付き自己教師付きアルゴリズムのクラスについて検討する。
我々の解は、これらのモデルが1度に1つの線型部分空間を学習し、それぞれがモデル容量が飽和するまで、埋め込みの効果的なランクを増すことを示した。
我々は、動的理論を用いて、モデルがアナログを完遂する能力をどのように、いつ取得するかを予測する。
- 参考スコア(独自算出の注目度): 3.519547280344187
- License:
- Abstract: The remarkable success of large language models relies on their ability to implicitly learn structured latent representations from the pretraining corpus. As a simpler surrogate for representation learning in language modeling, we study a class of solvable contrastive self-supervised algorithms which we term quadratic word embedding models. These models resemble the word2vec algorithm and perform similarly on downstream tasks. Our main contributions are analytical solutions for both the training dynamics (under certain hyperparameter choices) and the final word embeddings, given in terms of only the corpus statistics. Our solutions reveal that these models learn orthogonal linear subspaces one at a time, each one incrementing the effective rank of the embeddings until model capacity is saturated. Training on WikiText, we find that the top subspaces represent interpretable concepts. Finally, we use our dynamical theory to predict how and when models acquire the ability to complete analogies.
- Abstract(参考訳): 大きな言語モデルの顕著な成功は、事前訓練されたコーパスから構造化された潜在表現を暗黙的に学習する能力に依存する。
言語モデリングにおける表現学習の簡易なサロゲートとして,2次単語埋め込みモデルと呼ぶ可解なコントラスト型自己教師付きアルゴリズムのクラスについて検討する。
これらのモデルは word2vec アルゴリズムに似ており、下流のタスクでも同じように機能する。
我々の主な貢献は、訓練力学(ある種のハイパーパラメータ選択の下で)と最終単語埋め込みの双方に対する解析的解であり、コーパス統計のみによって与えられる。
我々の解は、これらのモデルが1度に直交線型部分空間を学習し、それぞれがモデルキャパシティが飽和するまで、埋め込みの効果的なランクを増すことを示した。
WikiTextをトレーニングした結果,上位部分空間は解釈可能な概念を表すことがわかった。
最後に、我々の力学理論を用いて、モデルがどのようにしていつアナログを完遂する能力を得るかを予測する。
関連論文リスト
- Provable unlearning in topic modeling and downstream tasks [36.571324268874264]
アンラーニングの保証は、しばしば教師付き学習設定に限られる。
我々は、事前学習と微調整のパラダイムにおいて、初となるアンラーニングの理論的保証を提供する。
我々は、特定のタスクに微調整されたモデルから事前学習データを容易に解放できることを示し、ベースモデルを変更することなく、このデータを解放できることを示した。
論文 参考訳(メタデータ) (2024-11-19T16:04:31Z) - Explaining Datasets in Words: Statistical Models with Natural Language Parameters [66.69456696878842]
本稿では, クラスタリング, 時系列, 分類モデルなど, 自然言語の述語によってパラメータ化される統計モデル群を紹介する。
当社のフレームワークは、ユーザチャット対話の分類、時間の経過とともにどのように進化するかの特徴付け、一方の言語モデルが他方よりも優れているカテゴリを見つけることなど、幅広い問題に適用しています。
論文 参考訳(メタデータ) (2024-09-13T01:40:20Z) - Action Model Learning with Guarantees [5.524804393257921]
本研究では,学習例と整合した仮説の探索としてタスクを解釈するバージョン空間に基づく行動モデル学習の理論を開発する。
我々の理論的発見は、問題のすべての解のコンパクトな表現を維持するオンラインアルゴリズムでインスタンス化される。
論文 参考訳(メタデータ) (2024-04-15T10:01:43Z) - On the Origins of Linear Representations in Large Language Models [51.88404605700344]
我々は,次のトークン予測の概念力学を定式化するために,単純な潜在変数モデルを導入する。
実験により、潜在変数モデルと一致するデータから学習すると線形表現が現れることが示された。
また、LLaMA-2大言語モデルを用いて、理論のいくつかの予測を検証した。
論文 参考訳(メタデータ) (2024-03-06T17:17:36Z) - In-Context Language Learning: Architectures and Algorithms [73.93205821154605]
我々は、文脈言語学習(ICLL)において、私たちが用語する新しいモデル問題群(英語版)のレンズを通してICLを研究する。
我々は,通常のICLLタスクにおいて,多種多様なニューラルシーケンスモデルを評価する。
論文 参考訳(メタデータ) (2024-01-23T18:59:21Z) - Transparency at the Source: Evaluating and Interpreting Language Models
With Access to the True Distribution [4.01799362940916]
人工的な言語のようなデータを用いて、ニューラルネットワークモデルのトレーニング、評価、解釈を行う。
データは、巨大な自然言語コーパスから派生した巨大な確率文法を用いて生成される。
基礎となる真の情報源にアクセスすることで、異なる単語のクラス間の動的学習における顕著な違いと結果が示される。
論文 参考訳(メタデータ) (2023-10-23T12:03:01Z) - Meaning Representations from Trajectories in Autoregressive Models [106.63181745054571]
入力テキストを拡張可能なすべてのトラジェクトリの分布を考慮し,自己回帰言語モデルから意味表現を抽出する。
この戦略はプロンプトフリーであり、微調整は必要とせず、事前訓練された自己回帰モデルにも適用できる。
我々は,大規模なモデルから得られた表現が人間のアノテーションとよく一致し,意味的類似性タスクにおける他のゼロショットおよびプロンプトフリーメソッドよりも優れており,標準埋め込みが扱えないより複雑なエンタテインメントや包含タスクの解決に使用できることを実証的に示す。
論文 参考訳(メタデータ) (2023-10-23T04:35:58Z) - Opening the Black Box: Analyzing Attention Weights and Hidden States in
Pre-trained Language Models for Non-language Tasks [0.8889304968879164]
階層構造を持つ制約付き算術問題に対して,事前学習した言語モデルを適用し,その注意重みと隠れ状態を分析する。
この調査は、人間の問題解決戦略と同様に、階層的な問題を適度に構造化した方法で解決するモデルによって、有望な結果を明らかにしている。
注意分析により、モデルがListOpsデータセットの長いシーケンスに一般化できると仮定できる。
論文 参考訳(メタデータ) (2023-06-21T11:48:07Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - Low-Rank Constraints for Fast Inference in Structured Models [110.38427965904266]
この研究は、大規模構造化モデルの計算とメモリの複雑さを低減するための単純なアプローチを示す。
言語モデリング,ポリフォニック・ミュージック・モデリング,教師なし文法帰納法,ビデオ・モデリングのためのニューラルパラメータ構造モデルを用いた実験により,我々の手法は大規模状態空間における標準モデルの精度と一致することを示した。
論文 参考訳(メタデータ) (2022-01-08T00:47:50Z) - Implicit Representations of Meaning in Neural Language Models [31.71898809435222]
会話を通して進化する実体や状況のモデルとして機能する文脈表現を同定する。
その結果,事前学習されたニューラルネットワークモデルにおける予測は,少なくとも部分的には,意味の動的表現と実体状態の暗黙的なシミュレーションによって支持されていることが示唆された。
論文 参考訳(メタデータ) (2021-06-01T19:23:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。