Fugu-MT 論文翻訳(概要): Transformers Handle Endogeneity in In-Context Linear Regression

論文の概要: Transformers Handle Endogeneity in In-Context Linear Regression

arxiv url: http://arxiv.org/abs/2410.01265v1
Date: Wed, 2 Oct 2024 06:21:04 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-04 22:09:02.197721
Title: Transformers Handle Endogeneity in In-Context Linear Regression
Title（参考訳）: 変圧器はインテクスト線形回帰における不均一性を扱う
Authors: Haodong Liang, Krishnakumar Balasubramanian, Lifeng Lai,
Abstract要約: インストゥルメンタル変数(IV)を用いて内在性を効果的に扱うメカニズムをトランスフォーマーが本質的に持っていることを示す。提案手法では,事前学習損失の最小化が最小限の余剰損失を達成できることを示す理論的保証を提供する。
参考スコア（独自算出の注目度）: 34.458004744956334
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We explore the capability of transformers to address endogeneity in in-context linear regression. Our main finding is that transformers inherently possess a mechanism to handle endogeneity effectively using instrumental variables (IV). First, we demonstrate that the transformer architecture can emulate a gradient-based bi-level optimization procedure that converges to the widely used two-stage least squares $(\textsf{2SLS})$ solution at an exponential rate. Next, we propose an in-context pretraining scheme and provide theoretical guarantees showing that the global minimizer of the pre-training loss achieves a small excess loss. Our extensive experiments validate these theoretical findings, showing that the trained transformer provides more robust and reliable in-context predictions and coefficient estimates than the $\textsf{2SLS}$ method, in the presence of endogeneity.
Abstract（参考訳）: インコンテキスト線形回帰における変換器の内在性に対処する能力について検討する。我々の主な発見は、インストゥルメンタル変数(IV)を用いて内在性を効果的に扱うメカニズムをトランスフォーマーが本質的に持っていることである。まず、変圧器アーキテクチャは、広く使われている2段最小二乗法$(\textsf{2SLS})$解に指数率で収束する勾配に基づく二段階最適化手順をエミュレートできることを実証する。次に、文脈内事前学習方式を提案し、事前学習損失のグローバル最小化が少ない余剰損失を達成することを示す理論的保証を提供する。筆者らはこれらの理論的な知見を検証し,内在性の存在下での$\textsf{2SLS}$法よりも頑健で信頼性の高い文脈内予測と係数推定を提供することを示した。

関連論文リスト

Variational Entropic Optimal Transport [67.76725267984578]
本稿では,ドメイン翻訳問題に対する変分エントロピー最適輸送(VarEOT)を提案する。 VarEOTは、補助正の正規化子上のトラクタブルな一般化として、log-partition $log mathbbE[exp(cdot)$の正確な変分再構成に基づいている。合成データと画像と画像の変換に関する実験は、競争力のあるか、あるいはより良い翻訳品質を示す。
論文参考訳（メタデータ） (2026-02-02T15:48:44Z)
A Constrained Optimization Perspective of Unrolled Transformers [77.12297732942095]
我々は、最適化降下アルゴリズムのように振る舞う変圧器の訓練のための制約付き最適化フレームワークを導入する。拘束型変圧器は摂動の強靭性を実現し,より高い分布分布一般化を維持する。
論文参考訳（メタデータ） (2026-01-24T02:12:39Z)
From Shortcut to Induction Head: How Data Diversity Shapes Algorithm Selection in Transformers [67.02076505996284]
本研究では, 事前学習したデータ分布の選択が, 浅層変圧器を一方の行動に向ける方法について検討する。その結果,事前学習したトランスフォーマーのアルゴリズム的バイアスに光を当て,学習行動のデータ駆動制御に関する概念的ガイドラインを提供することができた。
論文参考訳（メタデータ） (2025-12-21T08:10:26Z)
Transformers Learn to Implement Multi-step Gradient Descent with Chain of Thought [46.71030329872635]
Chain of Thought (CoT) のプロンプトにより,大規模言語モデル (LLM) の性能が大幅に向上することが示されている。線形回帰のための文脈内重み予測タスクにおいて,CoT目標に対する変圧器のトレーニングダイナミクスについて検討する。
論文参考訳（メタデータ） (2025-02-28T16:40:38Z)
In-Context Learning of Linear Dynamical Systems with Transformers: Error Bounds and Depth-Separation [16.748746646611412]
本稿では,雑音の線形力学系群を表す変圧器の文脈内学習能力の近似論的側面について検討する。最初の理論的結果は、タスク間で一様に定義された$L2$-testing損失に対して、多層変圧器の近似誤差の上限を確立する。 2つ目の結果は、単層線形変圧器のクラスに対する近似誤差の非最小化下界を確立することである。
論文参考訳（メタデータ） (2025-02-12T05:40:11Z)
Interpreting Affine Recurrence Learning in GPT-style Transformers [54.01174470722201]
インコンテキスト学習により、GPTスタイルのトランスフォーマーは、重みを変更することなく推論中に一般化できる。本稿では,ICLタスクとしてアフィンの再発を学習し,予測する能力に着目する。実験的手法と理論的手法の両方を用いてモデルの内部動作を分析する。
論文参考訳（メタデータ） (2024-10-22T21:30:01Z)
In-context Learning for Mixture of Linear Regressions: Existence, Generalization and Training Dynamics [34.458004744956334]
高い確率で$mathcalO(sqrtd/n)$の予測誤差を達成できる変換器が存在することを証明した。また, 1 つの線形自己アテンション層を持つ変圧器のトレーニング力学を解析し, 適切なパラメータで, 人口平均平方損失に対する勾配流の最適化が大域的最適に収束することを示した。
論文参考訳（メタデータ） (2024-10-18T05:28:47Z)
Can Looped Transformers Learn to Implement Multi-step Gradient Descent for In-context Learning? [69.4145579827826]
収束ランドスケープの勾配非性アルゴリズムにもかかわらず、回帰損失に高速な流れを示す。この設定における多層トランスの理論的解析はこれが初めてである。
論文参考訳（メタデータ） (2024-10-10T18:29:05Z)
On the Optimization and Generalization of Two-layer Transformers with Sign Gradient Descent [51.50999191584981]
Sign Gradient Descent (SignGD) はアダムの効果的なサロゲートである。我々はSignGDが雑音の多いデータセット上で2層トランスを最適化する方法について検討する。 SignGDの一般化が不十分なのはデータノイズによるものではなく、SignGDとAdamの両方が現実世界のタスクに高品質なデータを必要とすることを示唆している。
論文参考訳（メタデータ） (2024-10-07T09:36:43Z)
Non-asymptotic Convergence of Training Transformers for Next-token Prediction [48.9399496805422]
トランスフォーマーは、シーケンシャルなデータを扱う優れた能力のために、現代の機械学習において驚くべき成功を収めています。本稿では, 単層変圧器のトレーニング力学の微細な非漸近解析を行う。トレーニングされたトランスフォーマーは,データセットシフトによる非トーケン予測能力を示すことを示す。
論文参考訳（メタデータ） (2024-09-25T20:22:06Z)
Learning on Transformers is Provable Low-Rank and Sparse: A One-layer Analysis [63.66763657191476]
低ランク計算としての効率的な数値学習と推論アルゴリズムはトランスフォーマーに基づく適応学習に優れた性能を持つことを示す。我々は、等級モデルが適応性を改善しながら一般化にどのように影響するかを分析する。適切なマグニチュードベースのテストは,テストパフォーマンスに多少依存している,と結論付けています。
論文参考訳（メタデータ） (2024-06-24T23:00:58Z)
On Mesa-Optimization in Autoregressively Trained Transformers: Emergence and Capability [34.43255978863601]
いくつかの説では、トランスフォーマーはオートレアトレーニング中にmesa-optimizerを学習する。データモーメントに関する強い仮定は、学習されたメザ最適化器が実行可能な十分な必要条件であることを示す。
論文参考訳（メタデータ） (2024-05-27T05:41:06Z)
Linear Transformers are Versatile In-Context Learners [19.988368693379087]
線形変圧器の各層が負の線形回帰問題に対する重みベクトルを維持していることを示す。また、異なるレベルのノイズでトレーニングデータが破損する難易度シナリオにおける線形変圧器の使用についても検討する。ここでは,線形変圧器が複雑かつ高効率な最適化アルゴリズムを発見することを実証する。
論文参考訳（メタデータ） (2024-02-21T23:45:57Z)
Transformers can optimally learn regression mixture models [22.85684729248361]
変換器は回帰の混合に対して最適な予測器を学習できることを示す。実験では、トランスフォーマーがサンプル効率のよい方法で回帰の混合を学習できることも示している。決定理論の最適手順が実際に変換器によって実装可能であることを具体的確に証明する。
論文参考訳（メタデータ） (2023-11-14T18:09:15Z)
In-Context Convergence of Transformers [63.04956160537308]
勾配降下法により訓練したソフトマックスアテンションを有する一層変圧器の学習力学について検討した。不均衡な特徴を持つデータに対しては、学習力学が段階的に収束する過程をとることを示す。
論文参考訳（メタデータ） (2023-10-08T17:55:33Z)
Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文参考訳（メタデータ） (2022-12-15T09:21:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。