論文の概要: Iterative Forward Tuning Boosts In-context Learning in Language Models
- arxiv url: http://arxiv.org/abs/2305.13016v2
- Date: Tue, 30 May 2023 05:47:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-01 00:21:28.615462
- Title: Iterative Forward Tuning Boosts In-context Learning in Language Models
- Title(参考訳): Iterative Forward Tuningが言語モデルにおけるコンテキスト内学習を強化
- Authors: Jiaxi Yang, Binyuan Hui, Min Yang, Binhua Li, Fei Huang, Yongbin Li
- Abstract要約: 大規模言語モデル (LLM) は、ICL(In-context Learning) の能力を示す。
本稿では、トランスフォーマーの注意と勾配降下に基づく最適化の二重形式を利用して、LCMにおけるICL向上のための2段階のフレームワークを提案する。
本手法は,精度と効率の両面で,標準ICLよりもかなり優れた性能を実現する。
- 参考スコア(独自算出の注目度): 46.848235335267375
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have exhibited an emergent in-context learning
(ICL) ability. However, the ICL models that can solve ordinary cases are hardly
extended to solve more complex tasks by processing the demonstration examples
once. This single-turn ICL is incoordinate with the decision making process of
humans by learning from analogy. In this paper, we propose an effective and
efficient two-stage framework to boost ICL in LLMs by exploiting a dual form
between Transformer attention and gradient descent-based optimization.
Concretely, we divide the ICL process into "Deep-Thinking" and inference
stages. The "Deep-Thinking" stage performs iterative forward optimization of
demonstrations, which is expected to boost the reasoning abilities of LLMs at
test time by "thinking" demonstrations multiple times. It produces accumulated
meta-gradients by manipulating the Key-Value matrices in the self-attention
modules of the Transformer. Then, the inference stage only takes the test query
as input without concatenating demonstrations and applies the learned
meta-gradients through attention for output prediction. In this way,
demonstrations are not required during the inference stage since they are
already learned and stored in the definitive meta-gradients. LLMs can be
effectively and efficiently adapted to downstream tasks. Extensive experiments
on ten classification and multiple-choice datasets show that our method
achieves substantially better performance than standard ICL in terms of both
accuracy and efficiency.
- Abstract(参考訳): 大規模言語モデル (LLM) は、ICL(In-context Learning) の能力を示す。
しかし,実演例を一度処理することにより,より複雑な課題を解決するために,通常のケースを解決できるiclモデルはほとんど拡張されない。
この一ターンのiclは、アナロジーから学習することで人間の意思決定プロセスと無関係である。
本稿では,トランスフォーマーアテンションと勾配降下に基づく最適化の二重形式を利用して,LLMにおけるICLを効果的かつ効率的に向上する2段階フレームワークを提案する。
具体的には、iclプロセスを「深い思考」と推論段階に分割する。
深層思考(deep-thinking)"段階は、複数のデモを"思考"することで、テスト時のllmの推論能力を高めることが期待されている、デモの反復的な前方最適化を実行する。
トランスフォーマーの自己保持モジュールでキーバリュー行列を操作することで、蓄積されたメタグラディエントを生成する。
そして、推論段階は、実演を連結せずにテストクエリを入力として取り、学習したメタ勾配を注意して出力予測を行う。
このように、推論段階では、すでに学習され、決定的なメタ段階に格納されているため、デモは必要ない。
LLMは下流タスクに効果的かつ効率的に適応できる。
10の分類と複数選択データセットの大規模な実験により,本手法は精度と効率の両面において,標準ICLよりもかなり優れた性能が得られることが示された。
関連論文リスト
- Focused Large Language Models are Stable Many-Shot Learners [18.783939647966776]
In-Context Learning (ICL)により、大規模な言語モデル(LLM)がデモから学習することで、迅速なタスク適応を実現することができる。
重要でないコンテンツから注意を逸らすことを避けるために,自明なフィルタリングを行う訓練不要なFocusICLを提案する。
その結果,FocusICLはバニラICLよりも平均5.2%の性能向上を実現し,多くの実演に匹敵する性能を示した。
論文 参考訳(メタデータ) (2024-08-26T02:53:24Z) - Large Language Models Know What Makes Exemplary Contexts [42.90814615222177]
In-context Learning (ICL) は、Large Language Model (LLM) の発展において重要な機能であることが証明されている。
本稿では,LLMのための統合フレームワークを提案する。このフレームワークにより,影響力のあるインコンテキストのサンプルを自己選択してコンテキストを構成することができる。
論文 参考訳(メタデータ) (2024-08-14T12:32:41Z) - From Introspection to Best Practices: Principled Analysis of Demonstrations in Multimodal In-Context Learning [47.82447085244952]
マルチモーダル ICL では,タスクごとにモダリティが異なることが示される。
タスク固有のモダリティの影響に導かれ、ICL性能を高めるためのモダリティ駆動型実証戦略を推奨する。
論文 参考訳(メタデータ) (2024-07-01T01:57:21Z) - Unraveling the Mechanics of Learning-Based Demonstration Selection for In-Context Learning [43.356895599336504]
本研究では,学習に基づく実演選択手法の動作メカニズムを解析する。
類似度測定に関連する2つの重要な因子を実験的に同定した。
本稿では,タスクに依存しない要求とタスク固有の要求に対応する,効果的かつ単純化された2つの例選択手法を提案する。
論文 参考訳(メタデータ) (2024-06-14T03:34:02Z) - ParaICL: Towards Robust Parallel In-Context Learning [74.38022919598443]
大規模言語モデル(LLM)が自然言語処理の標準となっている。
インコンテキスト・ラーニング(ICL)は、いくつかの実演例の選択に依存している。
パラレルインコンテキスト学習(ParaICL)という新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-31T05:56:15Z) - C-ICL: Contrastive In-context Learning for Information Extraction [54.39470114243744]
c-ICLは、正しいサンプル構築と間違ったサンプル構築の両方を活用して、コンテキスト内学習のデモを作成する、新しい数ショット技術である。
各種データセットに対する実験により,c-ICLは従来の数発のインコンテキスト学習法よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-02-17T11:28:08Z) - Let's Learn Step by Step: Enhancing In-Context Learning Ability with Curriculum Learning [9.660673938961416]
実証オーダリングは、文脈内学習(ICL)にとって重要な戦略である
In-Context Curriculum Learning (ICCL) と呼ばれるICLの簡易かつ効果的な実演順序付け手法を提案する。
論文 参考訳(メタデータ) (2024-02-16T14:55:33Z) - Understanding and Improving In-Context Learning on Vision-language
Models [42.7212469140844]
In-context Learning (ICL) on large language model (LLMs) に大きな注目を集めており、この手法は視覚言語モデル (VLMs) に適用できる。
本研究では,視覚情報と言語情報の両方の重要性について検討する。
我々は、Mixed Modality In-Context Example Selection (MMICES)と呼ばれるシンプルだが効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-11-29T19:08:11Z) - Dynamic Demonstrations Controller for In-Context Learning [51.3439660534631]
In-Context Learning(ICL)は、自然言語処理(NLP)のための新しいパラダイムであり、大規模な言語モデルが少数の実演とテストインスタンスを入力として観察する。
これまでの研究では、ICLはデモの選択と順序に敏感であることが判明している。
デモ数を調整することでICLの性能を向上させる動的デモ制御器(D$2$Controller)を提案する。
論文 参考訳(メタデータ) (2023-09-30T14:04:22Z) - Scaling In-Context Demonstrations with Structured Attention [75.41845145597875]
我々は、文脈内学習のためのより優れたアーキテクチャ設計を提案する。
In-Context Learningのための構造化アテンションは、構造化アテンションメカニズムによって完全なアテンションを置き換える。
SAICLは、最大3.4倍の推論速度で、フルアテンションよりも同等または優れた性能を実現していることを示す。
論文 参考訳(メタデータ) (2023-07-05T23:26:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。