論文の概要: In-Context Learning State Vector with Inner and Momentum Optimization
- arxiv url: http://arxiv.org/abs/2404.11225v1
- Date: Wed, 17 Apr 2024 10:19:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-18 14:35:31.412369
- Title: In-Context Learning State Vector with Inner and Momentum Optimization
- Title(参考訳): 内部とモーメント最適化を用いたインテクスト学習状態ベクトル
- Authors: Dongfang Li, Zhenyu Liu, Xinshuo Hu, Zetian Sun, Baotian Hu, Min Zhang,
- Abstract要約: 大規模言語モデル(LLM)は、わずか数例からICL(In-Context Learning)を実行する素晴らしい能力を示した。
近年の研究では、ICLが学習した関数は変換器から得られる圧縮ベクトルで表現できることが示されている。
本稿では,これらの圧縮ベクトルの包括的解析,勾配降下法で訓練されたパラメータの並列化,状態ベクトルの概念について述べる。
- 参考スコア(独自算出の注目度): 23.33921300777915
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have exhibited an impressive ability to perform In-Context Learning (ICL) from only a few examples. Recent works have indicated that the functions learned by ICL can be represented through compressed vectors derived from the transformer. However, the working mechanisms and optimization of these vectors are yet to be thoroughly explored. In this paper, we address this gap by presenting a comprehensive analysis of these compressed vectors, drawing parallels to the parameters trained with gradient descent, and introduce the concept of state vector. Inspired by the works on model soup and momentum-based gradient descent, we propose inner and momentum optimization methods that are applied to refine the state vector progressively as test-time adaptation. Moreover, we simulate state vector aggregation in the multiple example setting, where demonstrations comprising numerous examples are usually too lengthy for regular ICL, and further propose a divide-and-conquer aggregation method to address this challenge. We conduct extensive experiments using Llama-2 and GPT-J in both zero-shot setting and few-shot setting. The experimental results show that our optimization method effectively enhances the state vector and achieves the state-of-the-art performance on diverse tasks. Code is available at https://github.com/HITsz-TMG/ICL-State-Vector
- Abstract(参考訳): 大規模言語モデル(LLM)は、わずか数例からICL(In-Context Learning)を実行する素晴らしい能力を示した。
近年の研究では、ICLが学習した関数は変換器から得られる圧縮ベクトルで表現できることが示されている。
しかし、これらのベクトルの動作機構と最適化はまだ十分に研究されていない。
本稿では,これらの圧縮ベクトルを包括的に解析し,勾配降下で訓練されたパラメータに並列性を引き出すことにより,このギャップに対処し,状態ベクトルの概念を導入する。
モデルスープと運動量に基づく勾配降下の研究に触発され、テスト時間適応として段階的に状態ベクトルを洗練させる内部および運動量最適化法を提案する。
さらに、多数の例からなる実演が通常のICLには長すぎるような状態ベクトル集約を複数例でシミュレートし、さらにこの課題に対処するための分割・対数アグリゲーション法を提案する。
ゼロショット設定と少数ショット設定の両方において,Llama-2 と GPT-J を用いた広範囲な実験を行った。
実験結果から, 最適化手法は状態ベクトルを効果的に向上し, 多様なタスクにおける最先端性能を実現することが示唆された。
コードはhttps://github.com/HITsz-TMG/ICL-State-Vectorで入手できる。
関連論文リスト
- ParaICL: Towards Robust Parallel In-Context Learning [74.38022919598443]
大規模言語モデル(LLM)が自然言語処理の標準となっている。
インコンテキスト・ラーニング(ICL)は、いくつかの実演例の選択に依存している。
パラレルインコンテキスト学習(ParaICL)という新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-31T05:56:15Z) - Observable Propagation: A Data-Efficient Approach to Uncover Feature
Vectors in Transformers [25.096019252017296]
与えられたタスクを計算する際にトランスフォーマー言語モデルで使用される線形特徴を見つけるために"obsProp"(略してobsProp)を導入する。
我々はObsPropを使って、ジェンダー付き職業バイアス、政党予測、プログラミング言語検出など、様々なタスクの質的な調査を行う。
論文 参考訳(メタデータ) (2023-12-26T19:00:56Z) - AGD: an Auto-switchable Optimizer using Stepwise Gradient Difference for
Preconditioning Matrix [9.629238108795013]
本稿では,2段階の勾配差を対角線要素として利用して,プレコンディショニング行列の設計手法を提案する。
我々は、自然言語処理(NLP)、コンピュータビジョン(CV)、レコメンデーションシステム(RecSys)の一般化に関するAGDの評価を行った。
実験の結果,AGDは最先端技術(SOTA)よりも優れており,高い競争力や予測性能が向上していることがわかった。
論文 参考訳(メタデータ) (2023-12-04T06:20:14Z) - ELRA: Exponential learning rate adaption gradient descent optimization
method [83.88591755871734]
我々は, 高速(指数率), ab initio(超自由)勾配に基づく適応法を提案する。
本手法の主な考え方は,状況認識による$alphaの適応である。
これは任意の次元 n の問題に適用でき、線型にしかスケールできない。
論文 参考訳(メタデータ) (2023-09-12T14:36:13Z) - Iterative Forward Tuning Boosts In-context Learning in Language Models [46.848235335267375]
大規模言語モデル (LLM) は、ICL(In-context Learning) の能力を示す。
本稿では、トランスフォーマーの注意と勾配降下に基づく最適化の二重形式を利用して、LCMにおけるICL向上のための2段階のフレームワークを提案する。
本手法は,精度と効率の両面で,標準ICLよりもかなり優れた性能を実現する。
論文 参考訳(メタデータ) (2023-05-22T13:18:17Z) - Performance Embeddings: A Similarity-based Approach to Automatic
Performance Optimization [71.69092462147292]
パフォーマンス埋め込みは、アプリケーション間でパフォーマンスチューニングの知識伝達を可能にする。
本研究では, 深層ニューラルネットワーク, 密度およびスパース線形代数合成, および数値風速予測ステンシルのケーススタディにおいて, この伝達チューニング手法を実証する。
論文 参考訳(メタデータ) (2023-03-14T15:51:35Z) - Vectorial Genetic Programming -- Optimizing Segments for Feature
Extraction [2.561649173827544]
Vec-GP はベクトル全体ではなくベクトルの限られた部分のみを集約することを可能にする。
本稿では,アグリゲーション関数のウィンドウを最適化するための様々な戦略を解析するために最適化問題を定式化する。
論文 参考訳(メタデータ) (2023-03-03T10:08:10Z) - Gaussian-Hermite Moment Invariants of General Vector Functions to
Rotation-Affine Transform [39.58178582162608]
本稿では,一般ベクトル関数のモーメント不変量の構築に焦点をあてる。
モーメント不変量を構築するために、文学において一様フレームが提案されたのはこれが初めてである。
ベクトル値データの合成および一般的なデータセットに基づいて,これらの不変量の安定性と識別性を評価する実験を行った。
論文 参考訳(メタデータ) (2022-01-03T20:56:15Z) - Efficient Semi-Implicit Variational Inference [65.07058307271329]
効率的でスケーラブルな半単純外挿 (SIVI) を提案する。
本手法はSIVIの証拠を低勾配値の厳密な推測にマッピングする。
論文 参考訳(メタデータ) (2021-01-15T11:39:09Z) - Kernel methods through the roof: handling billions of points efficiently [94.31450736250918]
カーネル法は、非パラメトリック学習に対するエレガントで原則化されたアプローチを提供するが、今のところ大規模な問題ではほとんど利用できない。
最近の進歩は、最適化、数値線形代数、ランダム射影など、多くのアルゴリズム的アイデアの利点を示している。
ここでは、これらの取り組みをさらに進めて、GPUハードウェアを最大限に活用する解決器を開発し、テストする。
論文 参考訳(メタデータ) (2020-06-18T08:16:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。