論文の概要: Position: Understanding LLMs Requires More Than Statistical Generalization
- arxiv url: http://arxiv.org/abs/2405.01964v3
- Date: Mon, 17 Jun 2024 12:48:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 04:38:09.425009
- Title: Position: Understanding LLMs Requires More Than Statistical Generalization
- Title(参考訳): ポジション:LLMを理解するには統計的一般化以上のものが必要だ
- Authors: Patrik Reizinger, Szilvia Ujváry, Anna Mészáros, Anna Kerekes, Wieland Brendel, Ferenc Huszár,
- Abstract要約: LLMの望ましい性質のいくつかは、良い統計一般化の結果ではないと論じる。
我々の中心的な議論は、AR確率モデルは本質的には識別できないという観察に依存している。
- 参考スコア(独自算出の注目度): 14.059192372377417
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The last decade has seen blossoming research in deep learning theory attempting to answer, "Why does deep learning generalize?" A powerful shift in perspective precipitated this progress: the study of overparametrized models in the interpolation regime. In this paper, we argue that another perspective shift is due, since some of the desirable qualities of LLMs are not a consequence of good statistical generalization and require a separate theoretical explanation. Our core argument relies on the observation that AR probabilistic models are inherently non-identifiable: models zero or near-zero KL divergence apart -- thus, equivalent test loss -- can exhibit markedly different behaviors. We support our position with mathematical examples and empirical observations, illustrating why non-identifiability has practical relevance through three case studies: (1) the non-identifiability of zero-shot rule extrapolation; (2) the approximate non-identifiability of in-context learning; and (3) the non-identifiability of fine-tunability. We review promising research directions focusing on LLM-relevant generalization measures, transferability, and inductive biases.
- Abstract(参考訳): この10年、ディープラーニング理論における花の咲く研究が「なぜディープラーニングは一般化するのか?」と答えようとしている。
パースペクティブの強力なシフトは、補間系における過度にパラメトリケートされたモデルの研究という、この進歩を早めた。
本稿では, LLMの望ましい性質のいくつかは, 良好な統計一般化の結果ではなく, 別々に理論的な説明を必要とするため, もう一つの視点シフトが原因であると主張する。
我々の中心的な議論は、AR確率モデルは本質的には識別不可能である、という観察に依存している。
我々は,(1)ゼロショット規則外挿の非識別性,(2)文脈内学習の近似的非識別性,(3)微視的学習の非識別性という3つのケーススタディを通じて,非識別性が実際的関連性を持つ理由を考察した。
我々は, LLM関連一般化対策, 伝達可能性, 誘導バイアスに着目した有望な研究方向性を概観する。
関連論文リスト
- A Peek into Token Bias: Large Language Models Are Not Yet Genuine Reasoners [58.15511660018742]
本研究では,大規模言語モデル (LLM) が真の推論能力を持つかどうかを評価するための仮説検証フレームワークを提案する。
我々は,相補的誤りとシロメトリクス問題を含む,注意深く制御された合成データセットを開発した。
論文 参考訳(メタデータ) (2024-06-16T19:22:53Z) - Dive into the Chasm: Probing the Gap between In- and Cross-Topic
Generalization [66.4659448305396]
本研究は,3つの探索型実験を用いて種々のLMを解析し,In- vs. クロストピック一般化ギャップの背景にある理由を明らかにした。
はじめに、一般化ギャップと埋め込み空間の堅牢性は、LM間で大きく異なることを示した。
論文 参考訳(メタデータ) (2024-02-02T12:59:27Z) - Nonparametric Identifiability of Causal Representations from Unknown
Interventions [63.1354734978244]
本研究では, 因果表現学習, 潜伏因果変数を推定するタスク, およびそれらの変数の混合から因果関係を考察する。
我々のゴールは、根底にある真理潜入者とその因果グラフの両方を、介入データから解決不可能なあいまいさの集合まで識別することである。
論文 参考訳(メタデータ) (2023-06-01T10:51:58Z) - Algorithmic Stability of Heavy-Tailed SGD with General Loss Functions [13.431453056203226]
ワッサースタイン降下(SGD)における重尾現象は、いくつかの経験的な観測が報告されている。
本稿では一般化関数と一般勾配関数のバウンダリを開発する。
彼らは最近、損失関数の一般性のおかげで、経験的な観測により多くの光を当てた。
論文 参考訳(メタデータ) (2023-01-27T17:57:35Z) - Bias-inducing geometries: an exactly solvable data model with fairness
implications [13.690313475721094]
我々は、正確に解決可能なデータ不均衡の高次元モデルを導入する。
この合成フレームワークで訓練された学習モデルの典型的特性を解析的に解き放つ。
フェアネス評価によく用いられる観測対象の正確な予測値を得る。
論文 参考訳(メタデータ) (2022-05-31T16:27:57Z) - The worst of both worlds: A comparative analysis of errors in learning
from data in psychology and machine learning [17.336655978572583]
機械学習(ML)が誤診や複製の危機に直面しているという最近の懸念は、ML研究で公表された主張の一部が対面価値で評価できないことを示唆している。
教師付きMLにおける研究の関心事は、実験科学における複製危機と共通している。
論文 参考訳(メタデータ) (2022-03-12T18:26:24Z) - On Pitfalls of Identifiability in Unsupervised Learning. A Note on:
"Desiderata for Representation Learning: A Causal Perspective" [10.934595072086324]
Desiderata for Representation Learning: A Causal Perspective" で提示された識別可能性の潜在的な失敗事例について論じる。
この構造は非線形独立成分分析の理論に基づいている。
論文 参考訳(メタデータ) (2022-02-14T16:27:46Z) - Counterfactual Maximum Likelihood Estimation for Training Deep Networks [83.44219640437657]
深層学習モデルは、予測的手がかりとして学習すべきでない急激な相関を学習する傾向がある。
本研究では,観測可能な共同設立者による相関関係の緩和を目的とした因果関係に基づくトレーニングフレームワークを提案する。
自然言語推論(NLI)と画像キャプションという2つの実世界の課題について実験を行った。
論文 参考訳(メタデータ) (2021-06-07T17:47:16Z) - Nonlinear Invariant Risk Minimization: A Causal Approach [5.63479133344366]
非線形環境下での分布外一般化を可能にする学習パラダイムを提案する。
我々は、非常に単純な変換までデータ表現の識別性を示す。
合成データと実世界のデータセットの両方に関する広範な実験は、我々のアプローチが様々なベースラインメソッドを大きく上回っていることを示している。
論文 参考訳(メタデータ) (2021-02-24T15:38:41Z) - A Sober Look at the Unsupervised Learning of Disentangled
Representations and their Evaluation [63.042651834453544]
モデルとデータの両方に帰納的バイアスを伴わずに,非教師なしの非教師付き表現学習は不可能であることを示す。
異なる手法は、対応する損失によって「強化」された特性を効果的に強制するが、よく見分けられたモデルは監督なしでは特定できないように見える。
以上の結果から,遠絡学習における今後の研究は,帰納的バイアスと(単純に)監督の役割を明確化すべきであることが示唆された。
論文 参考訳(メタデータ) (2020-10-27T10:17:15Z) - Weakly-Supervised Disentanglement Without Compromises [53.55580957483103]
インテリジェントエージェントは、環境の変化を観察することで、有用な表現を学べるべきである。
変動の要因の少なくとも1つを共有する非I.d.画像のペアとしてそのような観測をモデル化する。
我々は,どの因子が変化したかのみを知るだけで,非絡み合った表現を学ぶのに十分であることを示す。
論文 参考訳(メタデータ) (2020-02-07T16:39:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。