論文の概要: Density estimation with LLMs: a geometric investigation of in-context learning trajectories
- arxiv url: http://arxiv.org/abs/2410.05218v2
- Date: Wed, 9 Oct 2024 22:23:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 23:39:03.159682
- Title: Density estimation with LLMs: a geometric investigation of in-context learning trajectories
- Title(参考訳): LLMを用いた密度推定 : 文脈内学習軌跡の幾何学的研究
- Authors: Toni J. B. Liu, Nicolas Boullé, Raphaël Sarfati, Christopher J. Earls,
- Abstract要約: 大規模言語モデル(LLM)は、様々なタスクでコンテキスト内学習を行う際、顕著な創発的能力を示す。
本研究は,LLMがコンテキスト内で観測されたデータから確率密度関数を推定する能力について検討する。
我々は、集中主成分分析(Intensive principal Component Analysis, InPCA)を活用し、LLaMA-2モデルのコンテキスト内学習ダイナミクスを可視化および解析する。
- 参考スコア(独自算出の注目度): 3.281128493853064
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) demonstrate remarkable emergent abilities to perform in-context learning across various tasks, including time series forecasting. This work investigates LLMs' ability to estimate probability density functions (PDFs) from data observed in-context; such density estimation (DE) is a fundamental task underlying many probabilistic modeling problems. We leverage the Intensive Principal Component Analysis (InPCA) to visualize and analyze the in-context learning dynamics of LLaMA-2 models. Our main finding is that these LLMs all follow similar learning trajectories in a low-dimensional InPCA space, which are distinct from those of traditional density estimation methods like histograms and Gaussian kernel density estimation (KDE). We interpret the LLaMA in-context DE process as a KDE with an adaptive kernel width and shape. This custom kernel model captures a significant portion of LLaMA's behavior despite having only two parameters. We further speculate on why LLaMA's kernel width and shape differs from classical algorithms, providing insights into the mechanism of in-context probabilistic reasoning in LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は、時系列予測など、様々なタスクでコンテキスト内学習を行う際、顕著な創発的能力を示す。
本研究は,確率密度関数(PDF)を文脈内で観測されたデータから推定するLLMの能力について検討する。
我々は、集中主成分分析(Intensive principal Component Analysis, InPCA)を活用し、LLaMA-2モデルのコンテキスト内学習ダイナミクスを可視化および解析する。
我々の主な発見は、これらのLLMはいずれも、ヒストグラムやガウス核密度推定(KDE)のような従来の密度推定法とは異なる、低次元のInPCA空間における同様の学習軌跡に従うことである。
我々はLLaMA in-context DEプロセスを適応的なカーネル幅と形状を持つKDEとして解釈する。
このカスタムカーネルモデルは、2つのパラメータしか持たないにもかかわらず、LLaMAの振る舞いの大部分をキャプチャする。
さらに、LLaMAのカーネル幅と形状が古典的アルゴリズムと異なる理由を推測し、LLMにおける文脈内確率的推論のメカニズムについて考察する。
関連論文リスト
- Can a Large Language Model Learn Matrix Functions In Context? [3.7478782183628634]
大規模言語モデル(LLM)は、インコンテキスト学習(ICL)を通じて複雑なタスクを解く能力を実証した。
本稿では,LLMの非線形数値計算能力について検討し,特異値分解関数に着目した。
論文 参考訳(メタデータ) (2024-11-24T00:33:43Z) - Interpreting and Improving Large Language Models in Arithmetic Calculation [72.19753146621429]
大規模言語モデル(LLM)は、多くのアプリケーションにまたがる顕著な可能性を示している。
本研究では,LLMが計算を行う特定のメカニズムを明らかにする。
LLMの計算性能を高めるために、これらの必須ヘッド/MLPを選択的に微調整する潜在的な利点について検討する。
論文 参考訳(メタデータ) (2024-09-03T07:01:46Z) - Performance Law of Large Language Models [58.32539851241063]
性能法則は、LLMアーキテクチャの選択と計算資源の効率的な割り当てを導くために用いられる。
性能法則は、LLMアーキテクチャの選択と計算資源の効率的な割り当てを広範な実験なしで導くのに利用できる。
論文 参考訳(メタデータ) (2024-08-19T11:09:12Z) - Reasoning in Large Language Models: A Geometric Perspective [4.2909314120969855]
我々は,その幾何学的理解を通して,大規模言語モデル(LLM)の推論能力について検討する。
LLMの表現力と自己認識グラフの密度の関連性を確立する。
論文 参考訳(メタデータ) (2024-07-02T21:39:53Z) - Latent Semantic Consensus For Deterministic Geometric Model Fitting [109.44565542031384]
我々はLSC(Latent Semantic Consensus)と呼ばれる効果的な方法を提案する。
LSCは、モデルフィッティング問題をデータポイントとモデル仮説に基づく2つの潜在意味空間に定式化する。
LSCは、一般的な多構造モデルフィッティングのために、数ミリ秒以内で一貫した、信頼性の高いソリューションを提供することができる。
論文 参考訳(メタデータ) (2024-03-11T05:35:38Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - Low-Rank Multitask Learning based on Tensorized SVMs and LSSVMs [65.42104819071444]
マルチタスク学習(MTL)はタスク関連性を活用して性能を向上させる。
タスクインデックスに対応する各モードを持つ高次テンソルを用いて、複数のインデックスが参照するタスクを自然に表現する。
テンソル化サポートベクターマシン(SVM)と最小2乗サポートベクターマシン(LSSVM)を併用した低ランクMTL手法の汎用フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-30T14:28:26Z) - Solving High-Dimensional PDEs with Latent Spectral Models [74.1011309005488]
我々は,高次元PDEの効率的かつ高精度な解法に向けて,Latent Spectral Models (LSM) を提案する。
数値解析において古典スペクトル法に着想を得て,潜時空間におけるPDEを解くために,ニューラルスペクトルブロックを設計する。
LSMは、一貫した最先端を実現し、7つのベンチマークで平均11.5%の相対的な利益を得る。
論文 参考訳(メタデータ) (2023-01-30T04:58:40Z) - Wasserstein Distributional Learning [5.830831796910439]
Wasserstein Distributional Learning (WDL)はフレキシブルな密度オンスカラー回帰モデリングフレームワークである。
WDLは, 条件密度の非線形依存性をよりよく特徴付け, 明らかにする。
シミュレーションと実世界の応用を通してWDLフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-09-12T02:32:17Z) - Multi-Task Learning on Networks [0.0]
マルチタスク学習コンテキストで発生する多目的最適化問題は、特定の特徴を持ち、アドホックな方法を必要とする。
この論文では、入力空間の解は、関数評価に含まれる知識をカプセル化した確率分布として表現される。
確率分布のこの空間では、ワッサーシュタイン距離によって与えられる計量が与えられ、モデルが目的関数に直接依存しないような新しいアルゴリズムMOEA/WSTを設計することができる。
論文 参考訳(メタデータ) (2021-12-07T09:13:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。