論文の概要: Lines of Thought in Large Language Models
- arxiv url: http://arxiv.org/abs/2410.01545v2
- Date: Mon, 28 Oct 2024 20:20:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 17:04:38.438503
- Title: Lines of Thought in Large Language Models
- Title(参考訳): 大規模言語モデルにおける思考線
- Authors: Raphaël Sarfati, Toni J. B. Liu, Nicolas Boullé, Christopher J. Earls,
- Abstract要約: 大規模言語モデルは、付随する埋め込み空間を越えてベクトル化されたテキストを転送することで、次のトーケン予測を達成する。
我々はこれらの「思考の線」のアンサンブルの統計的特性を特徴付けることを目的とする。
このような大きなモデルの膨大な複雑さが、より単純な形式に還元できることは驚くべきことであり、その影響を反映している。
- 参考スコア(独自算出の注目度): 3.281128493853064
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Language Models achieve next-token prediction by transporting a vectorized piece of text (prompt) across an accompanying embedding space under the action of successive transformer layers. The resulting high-dimensional trajectories realize different contextualization, or 'thinking', steps, and fully determine the output probability distribution. We aim to characterize the statistical properties of ensembles of these 'lines of thought.' We observe that independent trajectories cluster along a low-dimensional, non-Euclidean manifold, and that their path can be well approximated by a stochastic equation with few parameters extracted from data. We find it remarkable that the vast complexity of such large models can be reduced to a much simpler form, and we reflect on implications.
- Abstract(参考訳): 大規模言語モデルは、連続するトランスフォーマー層の作用の下で、付随する埋め込み空間を越えてベクトル化されたテキスト(prompt)を転送することで、次のトーケン予測を実現する。
結果として生じる高次元軌道は、異なる文脈化、すなわち「考える」ステップを実現し、出力確率分布を完全に決定する。
我々はこれらの「思考の線」のアンサンブルの統計的性質を特徴付けることを目的としている。
我々は、低次元の非ユークリッド多様体に沿って独立な軌道群をクラスタリングし、それらの経路をデータからほとんどパラメータを抽出しない確率方程式でうまく近似することができることを観察した。
このような大きなモデルの膨大な複雑さが、より単純な形式に還元できることは驚くべきことであり、その影響を反映している。
関連論文リスト
- Model-free Estimation of Latent Structure via Multiscale Nonparametric Maximum Likelihood [13.175343048302697]
そこで我々は,そのような潜在構造がいつでも存在すると仮定することなく,その存在を推定するためのモデルフリーな手法を提案する。
アプリケーションとして,提案手法に基づくクラスタリングアルゴリズムを設計し,広範囲の潜伏構造を捕捉する手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-10-29T17:11:33Z) - On the Trajectory Regularity of ODE-based Diffusion Sampling [79.17334230868693]
拡散に基づく生成モデルは微分方程式を用いて、複素データ分布と抽出可能な事前分布の間の滑らかな接続を確立する。
本稿では,拡散モデルのODEに基づくサンプリングプロセスにおいて,いくつかの興味深い軌道特性を同定する。
論文 参考訳(メタデータ) (2024-05-18T15:59:41Z) - Diffusion posterior sampling for simulation-based inference in tall data settings [53.17563688225137]
シミュレーションベース推論(SBI)は、入力パラメータを所定の観測に関連付ける後部分布を近似することができる。
本研究では、モデルのパラメータをより正確に推測するために、複数の観測値が利用できる、背の高いデータ拡張について考察する。
提案手法を,最近提案した各種数値実験の競合手法と比較し,数値安定性と計算コストの観点から,その優位性を実証した。
論文 参考訳(メタデータ) (2024-04-11T09:23:36Z) - Mixed Gaussian Flow for Diverse Trajectory Prediction [78.00204650749453]
混合ガウスを将来の軌跡多様体に変換するためのフローベースモデルを提案する。
このモデルでは、多様な軌道パターンを生成する能力が向上している。
また,多様な,制御可能な,分布外のトラジェクトリを生成可能であることも実証した。
論文 参考訳(メタデータ) (2024-02-19T15:48:55Z) - EigenTrajectory: Low-Rank Descriptors for Multi-Modal Trajectory
Forecasting [26.38308951284839]
EigenTrajectory (mathbbET$) は、新しいトラジェクトリ記述子を用いてコンパクトな空間を形成するトラジェクトリ予測手法である。
EigenTrajectoryは、既存の軌道予測モデルの予測精度と信頼性の両方を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-07-18T14:52:08Z) - VTAE: Variational Transformer Autoencoder with Manifolds Learning [144.0546653941249]
深層生成モデルは、多くの潜伏変数を通して非線形データ分布の学習に成功している。
ジェネレータの非線形性は、潜在空間がデータ空間の不満足な射影を示し、表現学習が不十分になることを意味する。
本研究では、測地学と正確な計算により、深部生成モデルの性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2023-04-03T13:13:19Z) - Outlier Detection for Trajectories via Flow-embeddings [2.66418345185993]
本稿では, 単体錯体でモデル化した離散化多様体上での実験的に観測された軌道の外れ値を検出する手法を提案する。
我々のアプローチは拡散写像やラプラシア固有写像のようなスペクトル埋め込みと似ており、低固有値に関連するグラフラプラシアンの固有ベクトルから埋め込みを構成する。
本手法は, 一般的な軌跡と(位相的に)異なる挙動の軌跡を抽出し, 合成データと経験データの両方を用いて, アプローチの性能を示す。
論文 参考訳(メタデータ) (2021-11-25T19:58:48Z) - Unsupervised Sentence-embeddings by Manifold Approximation and
Projection [3.04585143845864]
本研究では, 文を固定次元多様体に投影することにより, 文埋め込みを教師なしで生成する手法を提案する。
我々は,EMAP(Embedddings by Manifold Approximation and Projection)と呼ばれるアプローチを,サイズと複雑さの異なる6つの公開テキスト分類データセット上で検証する。
論文 参考訳(メタデータ) (2021-02-07T13:27:58Z) - Probabilistic Circuits for Variational Inference in Discrete Graphical
Models [101.28528515775842]
変分法による離散的グラフィカルモデルの推論は困難である。
エビデンス・ロウアーバウンド(ELBO)を推定するためのサンプリングに基づく多くの手法が提案されている。
Sum Product Networks (SPN) のような確率的回路モデルのトラクタビリティを活用する新しい手法を提案する。
選択的SPNが表現的変動分布として適していることを示し、対象モデルの対数密度が重み付けされた場合、対応するELBOを解析的に計算可能であることを示す。
論文 参考訳(メタデータ) (2020-10-22T05:04:38Z) - Haar Wavelet based Block Autoregressive Flows for Trajectories [129.37479472754083]
歩行者等の軌道予測は,自律型エージェントの性能向上に不可欠である。
本稿では分割結合を利用した新しいハールウェーブレットに基づくブロック自己回帰モデルを提案する。
実世界の2つのデータセット上で、多種多様な正確な軌跡を生成するアプローチの利点について説明する。
論文 参考訳(メタデータ) (2020-09-21T13:57:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。