論文の概要: In-Context Learning State Vector with Inner and Momentum Optimization
- arxiv url: http://arxiv.org/abs/2404.11225v2
- Date: Thu, 4 Jul 2024 11:52:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-08 23:14:17.321949
- Title: In-Context Learning State Vector with Inner and Momentum Optimization
- Title(参考訳): 内部とモーメント最適化を用いたインテクスト学習状態ベクトル
- Authors: Dongfang Li, Zhenyu Liu, Xinshuo Hu, Zetian Sun, Baotian Hu, Min Zhang,
- Abstract要約: 大規模言語モデル(LLM)は、わずか数例からICL(In-Context Learning)を実行する素晴らしい能力を示した。
近年の研究では、ICLが学習した関数は変換器から得られる圧縮ベクトルで表現できることが示されている。
本稿では,これらの圧縮ベクトルの包括的解析,勾配降下法で訓練されたパラメータの並列化,状態ベクトルの概念について述べる。
- 参考スコア(独自算出の注目度): 23.33921300777915
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have exhibited an impressive ability to perform In-Context Learning (ICL) from only a few examples. Recent works have indicated that the functions learned by ICL can be represented through compressed vectors derived from the transformer. However, the working mechanisms and optimization of these vectors are yet to be thoroughly explored. In this paper, we address this gap by presenting a comprehensive analysis of these compressed vectors, drawing parallels to the parameters trained with gradient descent, and introduce the concept of state vector. Inspired by the works on model soup and momentum-based gradient descent, we propose inner and momentum optimization methods that are applied to refine the state vector progressively as test-time adaptation. Moreover, we simulate state vector aggregation in the multiple example setting, where demonstrations comprising numerous examples are usually too lengthy for regular ICL, and further propose a divide-and-conquer aggregation method to address this challenge. We conduct extensive experiments using Llama-2 and GPT-J in both zero-shot setting and few-shot setting. The experimental results show that our optimization method effectively enhances the state vector and achieves the state-of-the-art performance on diverse tasks. Code is available at https://github.com/HITsz-TMG/ICL-State-Vector
- Abstract(参考訳): 大規模言語モデル(LLM)は、わずか数例からICL(In-Context Learning)を実行する素晴らしい能力を示した。
近年の研究では、ICLが学習した関数は変換器から得られる圧縮ベクトルで表現できることが示されている。
しかし、これらのベクトルの動作機構と最適化はまだ十分に研究されていない。
本稿では,これらの圧縮ベクトルを包括的に解析し,勾配降下で訓練されたパラメータに並列性を引き出すことにより,このギャップに対処し,状態ベクトルの概念を導入する。
モデルスープと運動量に基づく勾配降下の研究に触発され、テスト時間適応として段階的に状態ベクトルを洗練させる内部および運動量最適化法を提案する。
さらに、多数の例からなる実演が通常のICLには長すぎるような状態ベクトル集約を複数例でシミュレートし、さらにこの課題に対処するための分割・対数アグリゲーション法を提案する。
ゼロショット設定と少数ショット設定の両方において,Llama-2 と GPT-J を用いた広範囲な実験を行った。
実験結果から, 最適化手法は状態ベクトルを効果的に向上し, 多様なタスクにおける最先端性能を実現することが示唆された。
コードはhttps://github.com/HITsz-TMG/ICL-State-Vectorで入手できる。
関連論文リスト
- Layered Image Vectorization via Semantic Simplification [46.23779847614095]
本研究は,粗い画像から細部まで原画像を表す層状ベクトルを生成することを目的とした,新しいプログレッシブ画像ベクトル化手法を提案する。
提案手法では,Score Distillation Smplingとセマンティックセグメンテーションを組み合わせて,入力画像の反復的単純化を行う。
提案手法は,局所最小化を回避し,最終出力の細部レベルを調整可能なロバスト最適化を実現する。
論文 参考訳(メタデータ) (2024-06-08T08:54:35Z) - LLM-Vectorizer: LLM-based Verified Loop Vectorizer [12.048697450464935]
大規模言語モデル(LLM)は、個々の配列要素を処理するスカラープログラムからベクトル化されたコードを生成することができる。
LLMは1.1xから9.4xまでのランタイムスピードアップで高性能なベクトルコードを生成することができる。
我々のアプローチでは、TSVCベンチマークデータセットで正しいベクター化の38.2%を検証できる。
論文 参考訳(メタデータ) (2024-06-07T07:04:26Z) - Implicit In-context Learning [37.0562059811099]
In-context Learning (ICL)は、大規模な言語モデルに対して、テストクエリの前にいくつかの実演例をプレフィックスすることで、推論中に目に見えないタスクに適応する権限を与える。
Inlicit In-context Learning (I2CL)は、従来のICLにまつわる課題に、アクティベーション空間内の実演例を吸収することで対処する革新的なパラダイムである。
I2CLは、ゼロショットコストで数ショットのパフォーマンスを達成し、デモ例のバリエーションに対して堅牢性を示す。
論文 参考訳(メタデータ) (2024-05-23T14:57:52Z) - ParaICL: Towards Robust Parallel In-Context Learning [74.38022919598443]
大規模言語モデル(LLM)が自然言語処理の標準となっている。
インコンテキスト・ラーニング(ICL)は、いくつかの実演例の選択に依存している。
パラレルインコンテキスト学習(ParaICL)という新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-31T05:56:15Z) - AGD: an Auto-switchable Optimizer using Stepwise Gradient Difference for
Preconditioning Matrix [9.629238108795013]
本稿では,2段階の勾配差を対角線要素として利用して,プレコンディショニング行列の設計手法を提案する。
我々は、自然言語処理(NLP)、コンピュータビジョン(CV)、レコメンデーションシステム(RecSys)の一般化に関するAGDの評価を行った。
実験の結果,AGDは最先端技術(SOTA)よりも優れており,高い競争力や予測性能が向上していることがわかった。
論文 参考訳(メタデータ) (2023-12-04T06:20:14Z) - ELRA: Exponential learning rate adaption gradient descent optimization
method [83.88591755871734]
我々は, 高速(指数率), ab initio(超自由)勾配に基づく適応法を提案する。
本手法の主な考え方は,状況認識による$alphaの適応である。
これは任意の次元 n の問題に適用でき、線型にしかスケールできない。
論文 参考訳(メタデータ) (2023-09-12T14:36:13Z) - Performance Embeddings: A Similarity-based Approach to Automatic
Performance Optimization [71.69092462147292]
パフォーマンス埋め込みは、アプリケーション間でパフォーマンスチューニングの知識伝達を可能にする。
本研究では, 深層ニューラルネットワーク, 密度およびスパース線形代数合成, および数値風速予測ステンシルのケーススタディにおいて, この伝達チューニング手法を実証する。
論文 参考訳(メタデータ) (2023-03-14T15:51:35Z) - Vectorial Genetic Programming -- Optimizing Segments for Feature
Extraction [2.561649173827544]
Vec-GP はベクトル全体ではなくベクトルの限られた部分のみを集約することを可能にする。
本稿では,アグリゲーション関数のウィンドウを最適化するための様々な戦略を解析するために最適化問題を定式化する。
論文 参考訳(メタデータ) (2023-03-03T10:08:10Z) - Efficient Semi-Implicit Variational Inference [65.07058307271329]
効率的でスケーラブルな半単純外挿 (SIVI) を提案する。
本手法はSIVIの証拠を低勾配値の厳密な推測にマッピングする。
論文 参考訳(メタデータ) (2021-01-15T11:39:09Z) - Kernel methods through the roof: handling billions of points efficiently [94.31450736250918]
カーネル法は、非パラメトリック学習に対するエレガントで原則化されたアプローチを提供するが、今のところ大規模な問題ではほとんど利用できない。
最近の進歩は、最適化、数値線形代数、ランダム射影など、多くのアルゴリズム的アイデアの利点を示している。
ここでは、これらの取り組みをさらに進めて、GPUハードウェアを最大限に活用する解決器を開発し、テストする。
論文 参考訳(メタデータ) (2020-06-18T08:16:25Z) - A Primer on Zeroth-Order Optimization in Signal Processing and Machine
Learning [95.85269649177336]
ZO最適化は、勾配推定、降下方向、ソリューション更新の3つの主要なステップを反復的に実行する。
我々は,ブラックボックス深層学習モデルによる説明文の評価や生成,効率的なオンラインセンサ管理など,ZO最適化の有望な応用を実証する。
論文 参考訳(メタデータ) (2020-06-11T06:50:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。