論文の概要: In-context Learning and Gradient Descent Revisited
- arxiv url: http://arxiv.org/abs/2311.07772v2
- Date: Wed, 15 Nov 2023 15:29:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-16 12:37:39.543486
- Title: In-context Learning and Gradient Descent Revisited
- Title(参考訳): コンテキスト内学習と勾配降下再訪
- Authors: Tomer Bar Natan, Gilad Deutch, Nadav Magar, Guy Dar
- Abstract要約: In-context Learning (ICL)は、数ショットの学習タスクにおいて印象的な結果を示しているが、その基盤となるメカニズムはまだ完全には理解されていない。
最近の研究は、ICLを降下勾配(GD)に基づく最適化プロセスと考えることができることを示唆している。
本稿では,ICLとGDに基づくファインタニングの比較を再考し,同等のプロセスがどの特性に従わなければならないかを考察する。
- 参考スコア(独自算出の注目度): 3.371153981157375
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In-context learning (ICL) has shown impressive results in few-shot learning
tasks, yet its underlying mechanism is still not fully understood. Recent works
suggest that ICL can be thought of as a gradient descent (GD) based
optimization process. While promising, these results mainly focus on simplified
settings of ICL and provide only a preliminary evaluation of the similarities
between the two methods. In this work, we revisit the comparison between ICL
and GD-based finetuning and study what properties of ICL an equivalent process
must follow. We highlight a major difference in the flow of information between
ICL and standard finetuning. Namely, ICL can only rely on information from
lower layers at every point, while finetuning depends on loss gradients from
deeper layers. We refer to this discrepancy as Layer Causality and show that a
layer causal variant of the finetuning process aligns with ICL on par with
vanilla finetuning and is even better in most cases across relevant metrics. To
the best of our knowledge, this is the first work to discuss this discrepancy
explicitly and suggest a solution that tackles this problem with minimal
changes.
- Abstract(参考訳): in-context learning (icl) は、数少ない学習タスクで印象的な結果を示したが、その基本的なメカニズムはまだ完全には理解されていない。
近年の研究では、iclは勾配降下(gd)に基づく最適化プロセスと考えられる。
これらの結果は主にICLの簡易な設定に焦点が当てられ、両者の類似性を予備評価するのみである。
本研究では, icl と gd による微調整の比較検討を行い, 等価なプロセスに従わなければならない icl の特性について検討する。
ICLと標準微調整における情報フローの大きな違いを強調した。
すなわち、ICLは各点で下位層からの情報のみに頼ることができ、微調整は深い層からの損失勾配に依存する。
この違いをレイヤ因果性(Layer Causality)と呼び、ファインタニングプロセスの層因果変異が、バニラファインタニングと同等のICLと整合し、関連するメトリクスのほとんどの場合においてさらに優れていることを示す。
私たちの知る限りでは、この違いを明示的に議論し、最小限の変更でこの問題に取り組むソリューションを提案するのはこれが初めてです。
関連論文リスト
- Technical Debt in In-Context Learning: Diminishing Efficiency in Long Context [13.796664304274643]
我々は、スタイル化された設定における学習アルゴリズムとして、ICLの最適性を定量化する新しいフレームワークを導入する。
ICLは最初,ベイズ最適推定器の効率と一致したが,その効率は長期に渡り著しく低下する。
これらの結果は、ICLを普遍的な問題解決手段として採用する際のトレードオフを明らかにし、新しい世代のオンザフライ適応手法を動機付けている。
論文 参考訳(メタデータ) (2025-02-07T00:26:45Z) - S-LoRA: Scalable Low-Rank Adaptation for Class Incremental Learning [73.93639228235622]
基礎モデルによる継続的な学習は、逐次的なタスクに事前訓練されたモデルのパワーを活用するための有望なアプローチとして現れてきた。
本稿では,LRAパラメータの方向と大きさの学習を段階的に分離する,CL(特にクラスインクリメンタルラーニング)のためのスケーラブル低ランク適応(S-LoRA)手法を提案する。
我々の理論的および実証的な分析により、S-LoRAは重なり合う低損失領域に収束する低損失軌道を辿る傾向にあり、CLの安定性と塑性のトレードオフは良好であることが示された。
論文 参考訳(メタデータ) (2025-01-22T20:00:41Z) - Graph Structure Refinement with Energy-based Contrastive Learning [56.957793274727514]
グラフの構造と表現を学習するための生成訓練と識別訓練のジョイントに基づく教師なし手法を提案する。
本稿では,ECL-GSR(Energy-based Contrastive Learning)によるグラフ構造再構成(GSR)フレームワークを提案する。
ECL-GSRは、主要なベースラインに対するサンプルやメモリの少ない高速なトレーニングを実現し、下流タスクの単純さと効率性を強調している。
論文 参考訳(メタデータ) (2024-12-20T04:05:09Z) - Deeper Insights Without Updates: The Power of In-Context Learning Over Fine-Tuning [22.341935761925892]
ファインチューニングとインコンテキスト学習(ICL)は、タスク固有の知識で大きな言語モデルを出力する2つの一般的な方法である。
暗黙的なパターンを持つタスクに対して、ICLはこれらのパターンを微調整よりもはるかによくキャプチャする。
論文 参考訳(メタデータ) (2024-10-07T02:12:22Z) - Surgical Feature-Space Decomposition of LLMs: Why, When and How? [8.826164604720738]
トランス言語モデルにおける重みと特徴空間の分解の有効性を実験的に検討する。
本稿では, 外科的切除が, 圧縮と言語モデリング性能のトレードオフに関する重要な洞察を与えることを示す。
モデルバイアスに対する低ランク近似の影響について検討する。
論文 参考訳(メタデータ) (2024-05-17T07:34:03Z) - On Task Performance and Model Calibration with Supervised and
Self-Ensembled In-Context Learning [71.44986275228747]
In-context Learning (ICL) は、近年の大規模言語モデル(LLM)の進歩により、効率的なアプローチとなっている。
しかし、両方のパラダイムは、過信の批判的な問題(すなわち、誤校正)に苦しむ傾向にある。
論文 参考訳(メタデータ) (2023-12-21T11:55:10Z) - Learning Deep Representations via Contrastive Learning for Instance
Retrieval [11.736450745549792]
本稿では、インスタンス識別に基づくコントラスト学習(CL)を用いて、この問題に取り組むための最初の試みを行う。
本研究では、事前学習されたCLモデルと微調整されたCLモデルから識別表現を導出する能力を探求することにより、この問題に対処する。
論文 参考訳(メタデータ) (2022-09-28T04:36:34Z) - Zero-Shot Temporal Action Detection via Vision-Language Prompting [134.26292288193298]
視覚言語プロンプト(STALE)を用いた新しいゼロショット時間行動検出モデルを提案する。
我々のモデルは最先端の代替品を著しく上回っている。
我々のモデルは、近年の強力な競合相手よりも監督的TADにおいて優れた結果をもたらす。
論文 参考訳(メタデータ) (2022-07-17T13:59:46Z) - Interventional Contrastive Learning with Meta Semantic Regularizer [28.708395209321846]
コントラスト学習(CL)に基づく自己教師型学習モデルでは,視覚的表現を相互に学習する。
CLモデルがフルイメージでトレーニングされる場合、フルイメージでテストされるパフォーマンスは、フォアグラウンドのモデルよりも優れている。
CLモデルが前景領域で訓練された場合、全画像でテストされた性能は前景領域よりも悪い。
論文 参考訳(メタデータ) (2022-06-29T15:02:38Z) - Using Representation Expressiveness and Learnability to Evaluate
Self-Supervised Learning Methods [61.49061000562676]
本稿では,学習可能性を評価するためにCluster Learnability (CL)を導入する。
CLは、K-meansで表現をクラスタリングすることによって得られたラベルを予測するために訓練されたKNNのパフォーマンスで測定される。
CLは、他の競合する評価手法よりも分布内モデルの性能と相関することがわかった。
論文 参考訳(メタデータ) (2022-06-02T19:05:13Z) - Toward Fast, Flexible, and Robust Low-Light Image Enhancement [87.27326390675155]
我々は、現実の低照度シナリオにおいて、高速でフレキシブルで頑健な鮮明化のための新しい自己校正イルミネーション(SCI)学習フレームワークを開発した。
カスケードパターンの計算負担を考慮すると、各ステージの結果の収束を実現する自己校正モジュールを構築する。
我々は,SCI固有の特性について,操作不感適応性やモデル非関係の一般性を含む包括的探索を行う。
論文 参考訳(メタデータ) (2022-04-21T14:40:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。