論文の概要: Technical Debt in In-Context Learning: Diminishing Efficiency in Long Context
- arxiv url: http://arxiv.org/abs/2502.04580v1
- Date: Fri, 07 Feb 2025 00:26:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-10 14:57:57.356478
- Title: Technical Debt in In-Context Learning: Diminishing Efficiency in Long Context
- Title(参考訳): 文脈内学習における技術的負債 - 長期学習における効率の低減
- Authors: Taejong Joo, Diego Klabjan,
- Abstract要約: 我々は、スタイル化された設定における学習アルゴリズムとして、ICLの最適性を定量化する新しいフレームワークを導入する。
ICLは最初,ベイズ最適推定器の効率と一致したが,その効率は長期に渡り著しく低下する。
これらの結果は、ICLを普遍的な問題解決手段として採用する際のトレードオフを明らかにし、新しい世代のオンザフライ適応手法を動機付けている。
- 参考スコア(独自算出の注目度): 13.796664304274643
- License:
- Abstract: Transformers have demonstrated remarkable in-context learning (ICL) capabilities, adapting to new tasks by simply conditioning on demonstrations without parameter updates. Compelling empirical and theoretical evidence suggests that ICL, as a general-purpose learner, could outperform task-specific models. However, it remains unclear to what extent the transformers optimally learn in-context compared to principled learning algorithms. To bridge this gap, we introduce a new framework for quantifying optimality of ICL as a learning algorithm in stylized settings. Our findings reveal a striking dichotomy: while ICL initially matches the efficiency of a Bayes optimal estimator, its efficiency significantly deteriorates in long context. Through an information-theoretic analysis, we show that the diminishing efficiency is inherent to ICL. These results clarify the trade-offs in adopting ICL as a universal problem solver, motivating a new generation of on-the-fly adaptive methods without the diminishing efficiency.
- Abstract(参考訳): トランスフォーマーは、パラメータ更新なしでデモを条件にすることで、新しいタスクに適応し、目覚ましいインコンテキスト学習(ICL)機能を示した。
経験的・理論的証拠を補足すると、ICLは汎用的な学習者として、タスク固有のモデルよりも優れていることが示唆される。
しかし, 学習アルゴリズムと比較して, トランスフォーマーが文脈内学習をどの程度最適に行うかは定かではない。
このギャップを埋めるために、我々は、スタイル化された設定における学習アルゴリズムとして、ICLの最適性を定量化する新しいフレームワークを導入する。
ICLは最初,ベイズ最適推定器の効率と一致したが,その効率は長期に渡り著しく低下する。
情報理論解析により、減少する効率はICLに固有のものであることを示す。
これらの結果は、ICLを普遍的な問題解決手段として採用する際のトレードオフを明らかにし、効率を低下させることなく、新しい世代のオンザフライ適応手法を動機付けている。
関連論文リスト
- FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。
FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-15T16:45:16Z) - Normalization and effective learning rates in reinforcement learning [52.59508428613934]
正規化層は近年,深層強化学習と連続学習文学においてルネッサンスを経験している。
正規化は、ネットワークパラメータのノルムにおける成長と効果的な学習速度における崩壊の間の等価性という、微妙だが重要な副作用をもたらすことを示す。
そこで本研究では,正規化・プロジェクトと呼ぶ単純な再パラメータ化により,学習率を明示的にする手法を提案する。
論文 参考訳(メタデータ) (2024-07-01T20:58:01Z) - DETAIL: Task DEmonsTration Attribution for Interpretable In-context Learning [75.68193159293425]
インコンテキスト学習(ICL)により、トランスフォーマーベースの言語モデルでは、パラメータを更新することなく、いくつかの"タスクデモ"で特定のタスクを学習することができる。
ICLの特徴に対処する影響関数に基づく帰属手法DETAILを提案する。
ホワイトボックスモデルで得られた属性スコアがブラックボックスモデルに転送可能であることを示すことにより、モデル性能を向上させる上で、DETAILの広範な適用性を実験的に証明する。
論文 参考訳(メタデータ) (2024-05-22T15:52:52Z) - Efficiency optimization of large-scale language models based on deep learning in natural language processing tasks [6.596361762662328]
大規模言語モデルの内部構造と操作機構を理論的に解析する。
我々は、適応最適化アルゴリズム(AdamWなど)、大規模並列計算技術、混合精度訓練戦略の寄与を評価した。
論文 参考訳(メタデータ) (2024-05-20T00:10:00Z) - How Do Nonlinear Transformers Learn and Generalize in In-Context Learning? [82.51626700527837]
トランスフォーマーベースの大規模言語モデルでは、トレーニング済みのモデルが微調整なしで新しいタスクを処理できるような、コンテキスト内学習機能が印象的だった。
我々は、TransformerがICLを実現する方法の仕組みが、Transformerにおけるトレーニング問題の技術的課題にどのように貢献するかを分析する。
論文 参考訳(メタデータ) (2024-02-23T21:07:20Z) - In-context Learning and Gradient Descent Revisited [3.085927389171139]
トレーニングされていないモデルでさえ、ICLを提示していないにもかかわらず、同等のICL-GD類似度スコアが得られることを示す。
次に、ICLとGDのモデル全体にわたる情報の流れにおける大きな相違について検討し、これをレイヤ因果性(Layer Causality)と呼ぶ。
本稿では,階層因果関係を尊重する単純なGDに基づく最適化手法を提案する。
論文 参考訳(メタデータ) (2023-11-13T21:42:38Z) - Towards Compute-Optimal Transfer Learning [82.88829463290041]
我々は、事前訓練されたモデルのゼロショット構造化プルーニングにより、性能を最小限に抑えて計算効率を向上させることができると主張している。
その結果,事前訓練されたモデルの畳み込み畳み込みフィルタは,低計算条件下で20%以上の性能向上をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2023-04-25T21:49:09Z) - Unbiased and Efficient Self-Supervised Incremental Contrastive Learning [31.763904668737304]
本稿では,新たなIncremental InfoNCE(NCE-II)損失関数からなる自己教師型Incremental Contrastive Learning(ICL)フレームワークを提案する。
ICLは最大16.7倍のトレーニングスピードアップと16.8倍の高速収束を実現している。
論文 参考訳(メタデータ) (2023-01-28T06:11:31Z) - Self-Adaptive In-Context Learning: An Information Compression
Perspective for In-Context Example Selection and Ordering [15.3566963926257]
本稿では、自己適応型インコンテキスト学習(ICL)の新たな原則を提唱する。
自己適応機構を導入し、各サンプルが正しい予測を導出できるコンテキスト内サンプル置換を見つけるのを助ける。
我々の自己適応型ICL法は,実践環境よりも40%の相対的な改善を実現している。
論文 参考訳(メタデータ) (2022-12-20T15:55:21Z) - Improved Algorithms for Neural Active Learning [74.89097665112621]
非パラメトリックストリーミング設定のためのニューラルネットワーク(NN)ベースの能動学習アルゴリズムの理論的および経験的性能を改善する。
本研究では,SOTA(State-of-the-art (State-the-art)) 関連研究で使用されるものよりも,アクティブラーニングに適する人口減少を最小化することにより,2つの後悔の指標を導入する。
論文 参考訳(メタデータ) (2022-10-02T05:03:38Z) - Decoupled Contrastive Learning [23.25775900388382]
我々は,広く使用されているクロスエントロピー(InfoNCE)損失における顕著な負陽性結合(NPC)効果を同定した。
NPC効果を適切に処理することにより、非結合型コントラスト学習(DCL)目標関数に到達する。
われわれのアプローチは、200時間以内のバッチサイズ256を使用して6.9%のImageNet top-1精度を実現し、ベースラインのSimCLRを5.1%上回った。
論文 参考訳(メタデータ) (2021-10-13T16:38:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。