Fugu-MT 論文翻訳(概要): Understanding LLMs Requires More Than Statistical Generalization

論文の概要: Understanding LLMs Requires More Than Statistical Generalization

arxiv url: http://arxiv.org/abs/2405.01964v2
Date: Wed, 29 May 2024 18:22:26 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-31 20:25:21.111552
Title: Understanding LLMs Requires More Than Statistical Generalization
Title（参考訳）: LLMの理解には統計的一般化以上のものが必要だ
Authors: Patrik Reizinger, Szilvia Ujváry, Anna Mészáros, Anna Kerekes, Wieland Brendel, Ferenc Huszár,
Abstract要約: LLMの望ましい性質のいくつかは、良い統計一般化の結果ではないと論じる。我々の中心的な議論は、AR確率モデルは本質的には識別できないという観察に依存している。
参考スコア（独自算出の注目度）: 14.059192372377417
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The last decade has seen blossoming research in deep learning theory attempting to answer, "Why does deep learning generalize?" A powerful shift in perspective precipitated this progress: the study of overparametrized models in the interpolation regime. In this paper, we argue that another perspective shift is due, since some of the desirable qualities of LLMs are not a consequence of good statistical generalization and require a separate theoretical explanation. Our core argument relies on the observation that AR probabilistic models are inherently non-identifiable: models zero or near-zero KL divergence apart -- thus, equivalent test loss -- can exhibit markedly different behaviors. We support our position with mathematical examples and empirical observations, illustrating why non-identifiability has practical relevance through three case studies: (1) the non-identifiability of zero-shot rule extrapolation; (2) the approximate non-identifiability of in-context learning; and (3) the non-identifiability of fine-tunability. We review promising research directions focusing on LLM-relevant generalization measures, transferability, and inductive biases.
Abstract（参考訳）: この10年、ディープラーニング理論における花の咲く研究が「なぜディープラーニングは一般化するのか?」と答えようとしている。パースペクティブの強力なシフトは、補間系における過度にパラメトリケートされたモデルの研究という、この進歩を早めた。本稿では, LLMの望ましい性質のいくつかは, 良好な統計一般化の結果ではなく, 別々に理論的な説明を必要とするため, もう一つの視点シフトが原因であると主張する。我々の中心的な議論は、AR確率モデルは本質的には識別不可能である、という観察に依存している。我々は,(1)ゼロショット規則外挿の非識別性,(2)文脈内学習の近似的非識別性,(3)微視的学習の非識別性という3つのケーススタディを通じて,非識別性が実際的関連性を持つ理由を考察した。我々は, LLM関連一般化対策, 伝達可能性, 誘導バイアスに着目した有望な研究方向性を概観する。

関連論文リスト

FairReason: Balancing Reasoning and Social Bias in MLLMs [50.618158642714505]
MLLM(Multimodal Large Language Models)は、様々なタスクやモダリティにおいて、最先端の成果をすでに達成している。近年の研究では、推論能力をさらに推し進めるために、先進的なプロンプトスキームと後続の微調整を探求している。
論文参考訳（メタデータ） (2025-07-30T19:57:22Z)
WakenLLM: Evaluating Reasoning Potential and Stability in LLMs via Fine-Grained Benchmarking [14.76224690767612]
大規模言語モデル(LLM)は、推論タスクにおいて未知のラベルを頻繁に出力する。我々は、モデル非能力に起因する未知の出力の一部を定量化するフレームワーク、WakenLLMを紹介した。
論文参考訳（メタデータ） (2025-07-22T03:21:48Z)
Generalization or Hallucination? Understanding Out-of-Context Reasoning in Transformers [76.42159902257677]
我々は、両方の行動は、アウト・オブ・コンテクスト推論(OCR)として知られる単一のメカニズムに由来すると論じる。 OCRは、関連する概念が因果関係であるかによって、一般化と幻覚の両方を駆動する。我々の研究は、OCR現象を理解するための理論的基盤を提供し、知識注入から望ましくない行動を分析し緩和するための新しいレンズを提供する。
論文参考訳（メタデータ） (2025-06-12T16:50:45Z)
The Curse of CoT: On the Limitations of Chain-of-Thought in In-Context Learning [39.613595533503144]
CoT(Chain-of-Thought)プロンプトは、大規模言語モデルにおける推論能力を高める能力として広く認識されている。 CoTは、様々なモデルスケールやベンチマークの複雑さに対して、直接応答を一貫して過小評価していることを示す。パターンベースICLにおけるCoTの性能を駆動する基本的明示的双対性を明らかにする。
論文参考訳（メタデータ） (2025-04-07T13:51:06Z)
Have Large Language Models Learned to Reason? A Characterization via 3-SAT Phase Transition [11.422434149376478]
大規模言語モデル(LLM)は高度な推論能力を持つAIモデルとして評価されている。理論上は、Chain-of-Thought (CoT) を用いた自己回帰 LLM は複雑な推論タスクを解くためによりシリアルな計算を行うことができる。近年の研究では、LSMは、この能力にもかかわらず、理性を学ぶのではなく、統計的特徴に適合することが示唆されている。
論文参考訳（メタデータ） (2025-04-04T20:57:36Z)
Global Convergence of Continual Learning on Non-IID Data [51.99584235667152]
回帰モデルの連続学習のための総合的・包括的理論的解析を行う。一般データ条件下で連続学習のほぼ確実に収束する結果を初めて確立する。
論文参考訳（メタデータ） (2025-03-24T10:06:07Z)
Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文参考訳（メタデータ） (2024-06-28T20:06:30Z)
Dive into the Chasm: Probing the Gap between In- and Cross-Topic Generalization [66.4659448305396]
本研究は,3つの探索型実験を用いて種々のLMを解析し,In- vs. クロストピック一般化ギャップの背景にある理由を明らかにした。はじめに、一般化ギャップと埋め込み空間の堅牢性は、LM間で大きく異なることを示した。
論文参考訳（メタデータ） (2024-02-02T12:59:27Z)
Nonparametric Identifiability of Causal Representations from Unknown Interventions [63.1354734978244]
本研究では, 因果表現学習, 潜伏因果変数を推定するタスク, およびそれらの変数の混合から因果関係を考察する。我々のゴールは、根底にある真理潜入者とその因果グラフの両方を、介入データから解決不可能なあいまいさの集合まで識別することである。
論文参考訳（メタデータ） (2023-06-01T10:51:58Z)
Bias-inducing geometries: an exactly solvable data model with fairness implications [13.690313475721094]
我々は、正確に解決可能なデータ不均衡の高次元モデルを導入する。この合成フレームワークで訓練された学習モデルの典型的特性を解析的に解き放つ。フェアネス評価によく用いられる観測対象の正確な予測値を得る。
論文参考訳（メタデータ） (2022-05-31T16:27:57Z)
The worst of both worlds: A comparative analysis of errors in learning from data in psychology and machine learning [17.336655978572583]
機械学習(ML)が誤診や複製の危機に直面しているという最近の懸念は、ML研究で公表された主張の一部が対面価値で評価できないことを示唆している。教師付きMLにおける研究の関心事は、実験科学における複製危機と共通している。
論文参考訳（メタデータ） (2022-03-12T18:26:24Z)
On Pitfalls of Identifiability in Unsupervised Learning. A Note on: "Desiderata for Representation Learning: A Causal Perspective" [10.934595072086324]
Desiderata for Representation Learning: A Causal Perspective" で提示された識別可能性の潜在的な失敗事例について論じる。この構造は非線形独立成分分析の理論に基づいている。
論文参考訳（メタデータ） (2022-02-14T16:27:46Z)
Counterfactual Maximum Likelihood Estimation for Training Deep Networks [83.44219640437657]
深層学習モデルは、予測的手がかりとして学習すべきでない急激な相関を学習する傾向がある。本研究では,観測可能な共同設立者による相関関係の緩和を目的とした因果関係に基づくトレーニングフレームワークを提案する。自然言語推論(NLI)と画像キャプションという2つの実世界の課題について実験を行った。
論文参考訳（メタデータ） (2021-06-07T17:47:16Z)
Nonlinear Invariant Risk Minimization: A Causal Approach [5.63479133344366]
非線形環境下での分布外一般化を可能にする学習パラダイムを提案する。我々は、非常に単純な変換までデータ表現の識別性を示す。合成データと実世界のデータセットの両方に関する広範な実験は、我々のアプローチが様々なベースラインメソッドを大きく上回っていることを示している。
論文参考訳（メタデータ） (2021-02-24T15:38:41Z)
A Sober Look at the Unsupervised Learning of Disentangled Representations and their Evaluation [63.042651834453544]
モデルとデータの両方に帰納的バイアスを伴わずに,非教師なしの非教師付き表現学習は不可能であることを示す。異なる手法は、対応する損失によって「強化」された特性を効果的に強制するが、よく見分けられたモデルは監督なしでは特定できないように見える。以上の結果から,遠絡学習における今後の研究は,帰納的バイアスと(単純に)監督の役割を明確化すべきであることが示唆された。
論文参考訳（メタデータ） (2020-10-27T10:17:15Z)
Weakly-Supervised Disentanglement Without Compromises [53.55580957483103]
インテリジェントエージェントは、環境の変化を観察することで、有用な表現を学べるべきである。変動の要因の少なくとも1つを共有する非I.d.画像のペアとしてそのような観測をモデル化する。我々は,どの因子が変化したかのみを知るだけで,非絡み合った表現を学ぶのに十分であることを示す。
論文参考訳（メタデータ） (2020-02-07T16:39:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。