論文の概要: Fine-grained Analysis of In-context Linear Estimation: Data, Architecture, and Beyond
- arxiv url: http://arxiv.org/abs/2407.10005v1
- Date: Sat, 13 Jul 2024 21:13:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 19:58:18.356252
- Title: Fine-grained Analysis of In-context Linear Estimation: Data, Architecture, and Beyond
- Title(参考訳): 文脈内線形推定のきめ細かい分析:データ、アーキテクチャ、その他
- Authors: Yingcong Li, Ankit Singh Rawat, Samet Oymak,
- Abstract要約: 線形注意を持つ変圧器は、降下ステップを通して線形勾配推定器を実装することにより、文脈内学習(ICL)を行うことができる。
我々は、アーキテクチャ、低ランクパラメータ化、および相関設計への貢献を通じて、ICLの最適化と一般化の展望をより強く評価する。
- 参考スコア(独自算出の注目度): 44.154393889313724
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent research has shown that Transformers with linear attention are capable of in-context learning (ICL) by implementing a linear estimator through gradient descent steps. However, the existing results on the optimization landscape apply under stylized settings where task and feature vectors are assumed to be IID and the attention weights are fully parameterized. In this work, we develop a stronger characterization of the optimization and generalization landscape of ICL through contributions on architectures, low-rank parameterization, and correlated designs: (1) We study the landscape of 1-layer linear attention and 1-layer H3, a state-space model. Under a suitable correlated design assumption, we prove that both implement 1-step preconditioned gradient descent. We show that thanks to its native convolution filters, H3 also has the advantage of implementing sample weighting and outperforming linear attention in suitable settings. (2) By studying correlated designs, we provide new risk bounds for retrieval augmented generation (RAG) and task-feature alignment which reveal how ICL sample complexity benefits from distributional alignment. (3) We derive the optimal risk for low-rank parameterized attention weights in terms of covariance spectrum. Through this, we also shed light on how LoRA can adapt to a new distribution by capturing the shift between task covariances. Experimental results corroborate our theoretical findings. Overall, this work explores the optimization and risk landscape of ICL in practically meaningful settings and contributes to a more thorough understanding of its mechanics.
- Abstract(参考訳): 近年の研究では、線形注意を持つトランスフォーマーは、勾配降下ステップを通した線形推定器を実装することで、文脈内学習(ICL)が可能であることが示されている。
しかし、タスクベクトルと特徴ベクトルがIIDと仮定され、注意重みが完全にパラメータ化されるようなスタイル化された設定では、最適化ランドスケープに関する既存の結果が適用される。
本研究では,アーキテクチャ,低ランクパラメータ化,相関設計へのコントリビューションを通じて,ICLの最適化と一般化のランドスケープをより強く評価する:(1)1層線形アテンションのランドスケープと状態空間モデルである1層H3について検討する。
適切な相関設計の仮定の下では、どちらも1ステップの事前条件勾配降下を実装している。
ネイティブな畳み込みフィルタのおかげで、H3はサンプル重み付けを実装し、適切な設定で線形アテンションより優れているという利点も示している。
2) 相関設計を研究した結果, ICL サンプルの複雑さが分散アライメントからどのような恩恵を受けるかを明らかにするために, 検索拡張生成(RAG)とタスク機能アライメントのための新たなリスクバウンドが提供される。
(3) 共分散スペクトルを用いた低ランクパラメタライズドアテンション重みの最適リスクを導出する。
これを通じて、タスクの共分散のシフトをキャプチャすることで、LoRAが新しいディストリビューションにどのように適応できるかについても光を当てています。
実験結果から理論的知見が得られた。
全体として、本研究はICLの最適化とリスクランドスケープを実際に意味のある設定で探求し、その力学のより詳細な理解に寄与する。
関連論文リスト
- An In-depth Investigation of Sparse Rate Reduction in Transformer-like Models [32.04194224236952]
スパースレートリダクション(SRR)と呼ばれる情報理論目的関数を提案する。
SRRは正の相関係数を持ち、パスノルムやシャープネスベースなど他の基準値よりも優れていることを示す。
ベンチマーク画像分類データセットの正規化として,SRRを用いて一般化を改善することができることを示す。
論文 参考訳(メタデータ) (2024-11-26T07:44:57Z) - Exploring End-to-end Differentiable Neural Charged Particle Tracking -- A Loss Landscape Perspective [0.0]
粒子追跡のためのE2E差分型決定型学習手法を提案する。
離散的な代入操作の微分可能なバリエーションは、効率的なネットワーク最適化を可能にすることを示す。
E2Eの微分性は、勾配情報の一般利用に加えて、予測不安定性を緩和するロバスト粒子追跡のための重要なツールである、と我々は主張する。
論文 参考訳(メタデータ) (2024-07-18T11:42:58Z) - Hallmarks of Optimization Trajectories in Neural Networks: Directional Exploration and Redundancy [75.15685966213832]
最適化トラジェクトリのリッチな方向構造をポイントワイズパラメータで解析する。
トレーニング中のスカラーバッチノルムパラメータは,ネットワーク全体のトレーニング性能と一致していることを示す。
論文 参考訳(メタデータ) (2024-03-12T07:32:47Z) - A Closer Look at the Few-Shot Adaptation of Large Vision-Language Models [19.17722702457403]
現状のArtETLアプローチは、狭義の実験的な設定でのみ強力な性能を示すことを示す。
一般化されたラグランジアン法を適応させることにより,バランス項を最適化したCLAP(CLass-Adaptive linear Probe)の目的を提案する。
論文 参考訳(メタデータ) (2023-12-20T02:58:25Z) - PARL: A Unified Framework for Policy Alignment in Reinforcement Learning from Human Feedback [106.63518036538163]
我々は、強化学習におけるポリシーアライメントの最近強調された重要な問題に対処するために、新しい統合された二段階最適化ベースのフレームワーク、textsfPARLを提案する。
本フレームワークは, 上向きの目標(逆設計)の分布を, 下向きの最適変数で明示的にパラメータ化することにより, これらの問題に対処する。
その結果,提案したtextsfPARL が RL のアライメントの懸念に対処できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-08-03T18:03:44Z) - Understanding Augmentation-based Self-Supervised Representation Learning
via RKHS Approximation and Regression [53.15502562048627]
最近の研究は、自己教師付き学習とグラフラプラシアン作用素のトップ固有空間の近似との関係を構築している。
この研究は、増強に基づく事前訓練の統計的分析に発展する。
論文 参考訳(メタデータ) (2023-06-01T15:18:55Z) - Maximize to Explore: One Objective Function Fusing Estimation, Planning,
and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。
textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。
様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文 参考訳(メタデータ) (2023-05-29T17:25:26Z) - Low-Pass Filtering SGD for Recovering Flat Optima in the Deep Learning
Optimization Landscape [15.362190838843915]
LPF-SGD は SGD よりも小さい一般化誤差でより良い最適点に収束することを示す。
本稿では,一般的なDLトレーニング手法と比較して,アルゴリズムが優れた一般化性能を実現することを示す。
論文 参考訳(メタデータ) (2022-01-20T07:13:04Z) - Target-Embedding Autoencoders for Supervised Representation Learning [111.07204912245841]
本稿では,対象空間が高次元な純粋教師付き環境における一般化の枠組みを解析する。
我々は、教師付き予測のための目標埋め込みオートエンコーダ(TEA)の一般的なフレームワークのモチベーションと形式化を行い、特徴とターゲットの予測の両方から予測可能なように最適化された中間潜在表現を学習する。
論文 参考訳(メタデータ) (2020-01-23T02:37:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。