論文の概要: Many-Shot In-Context Learning
- arxiv url: http://arxiv.org/abs/2404.11018v1
- Date: Wed, 17 Apr 2024 02:49:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-18 15:34:07.491072
- Title: Many-Shot In-Context Learning
- Title(参考訳): Many-Shot In-Context Learning
- Authors: Rishabh Agarwal, Avi Singh, Lei M. Zhang, Bernd Bohnet, Stephanie Chan, Ankesh Anand, Zaheer Abbas, Azade Nova, John D. Co-Reyes, Eric Chu, Feryal Behbahani, Aleksandra Faust, Hugo Larochelle,
- Abstract要約: 大規模言語モデル (LLMs) は、文脈内学習 (ICL) において優れている
我々は、多種多様な生成的および識別的タスクにおける顕著なパフォーマンス向上を観察する。
Reinforced と Unsupervised ICL は多発的なシステムでは極めて有効であることがわかった。
- 参考スコア(独自算出の注目度): 57.56678767958889
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) excel at few-shot in-context learning (ICL) -- learning from a few examples provided in context at inference, without any weight updates. Newly expanded context windows allow us to investigate ICL with hundreds or thousands of examples -- the many-shot regime. Going from few-shot to many-shot, we observe significant performance gains across a wide variety of generative and discriminative tasks. While promising, many-shot ICL can be bottlenecked by the available amount of human-generated examples. To mitigate this limitation, we explore two new settings: Reinforced and Unsupervised ICL. Reinforced ICL uses model-generated chain-of-thought rationales in place of human examples. Unsupervised ICL removes rationales from the prompt altogether, and prompts the model only with domain-specific questions. We find that both Reinforced and Unsupervised ICL can be quite effective in the many-shot regime, particularly on complex reasoning tasks. Finally, we demonstrate that, unlike few-shot learning, many-shot learning is effective at overriding pretraining biases and can learn high-dimensional functions with numerical inputs. Our analysis also reveals the limitations of next-token prediction loss as an indicator of downstream ICL performance.
- Abstract(参考訳): 大規模言語モデル(LLM)は、数ショットのインコンテキスト学習(ICL)で優れている -- 重み付けの更新なしに、推論で提供されるいくつかの例から学習する。新たに拡張されたコンテキストウィンドウにより、数百から数千の例でICLを調査できる — 多ショットの仕組みである。
数ショットから多ショットに進むことで、さまざまな生成的および差別的なタスクにおいて、大幅なパフォーマンス向上が観測される。
有望ではあるが、多発型ICLは、人間が生成したサンプルの利用可能な量によってボトルネックになる可能性がある。
この制限を軽減するために、ReinforcedとUnsupervised ICLという2つの新しい設定を検討します。
Reinforced ICLは、人間の例の代わりにモデル生成の連鎖論理を用いる。
教師なしのICLは、プロンプトから合理性を完全に取り除き、ドメイン固有の質問でのみモデルにプロンプトする。
Reinforced と Unsupervised ICL の両者は、特に複雑な推論タスクにおいて、多ショット方式において非常に効果的であることがわかった。
最後に、少数ショット学習とは異なり、多ショット学習は事前学習バイアスのオーバーライドに有効であり、数値入力で高次元関数を学習できることを実証する。
また, 下流ICL性能の指標として, 次点予測損失の限界を明らかにした。
関連論文リスト
- Context-aware Prompt Tuning: Advancing In-Context Learning with Adversarial Methods [69.36397993451742]
In this work introduced Context-aware Prompt Tuning (CPT) - ICL, PT, and adversarial attack。
入力および出力フォーマットのユニークな構造を考慮して、特定のコンテキストトークンを変更する。
敵の攻撃にインスパイアされた我々は、損失を最大化するのではなく、最小化に焦点をあてて、コンテキストに存在するラベルに基づいて入力を調整する。
論文 参考訳(メタデータ) (2024-10-22T17:45:47Z) - Divide, Reweight, and Conquer: A Logit Arithmetic Approach for In-Context Learning [19.16587730306472]
大規模言語モデル(LLM)の重要な機能として、インコンテキスト学習(ICL)が登場
複数の実演のロジットベースアンサンブルを用いてICLを強化する新しいフレームワークであるLogit Arithmetic Reweighting Approach (LARA)を提案する。
論文 参考訳(メタデータ) (2024-10-14T01:34:16Z) - Implicit In-context Learning [37.0562059811099]
In-context Learning (ICL)は、大規模な言語モデルに対して、テストクエリの前にいくつかの実演例をプレフィックスすることで、推論中に目に見えないタスクに適応する権限を与える。
Inlicit In-context Learning (I2CL)は、従来のICLにまつわる課題に、アクティベーション空間内の実演例を吸収することで対処する革新的なパラダイムである。
I2CLは、ゼロショットコストで数ショットのパフォーマンスを達成し、デモ例のバリエーションに対して堅牢性を示す。
論文 参考訳(メタデータ) (2024-05-23T14:57:52Z) - In-Context Learning with Long-Context Models: An In-Depth Exploration [96.1389740719691]
大規模なラベル空間を持つ多くのデータセットでは、数百から数千のデモでパフォーマンスが向上し続けています。
長いコンテキストのICLは驚くほど効果的であるが、ほとんどの利益は同様の例に答えることから得られている。
論文 参考訳(メタデータ) (2024-04-30T21:06:52Z) - Does In-Context Learning Really Learn? Rethinking How Large Language Models Respond and Solve Tasks via In-Context Learning [41.606494950216764]
In-context Learning (ICL)は、スケールアップされた大規模言語モデル(LLM)の開発と共に強力な能力として登場した。
本稿では,ICLの全体的な性能をラベル空間,フォーマット,識別の3次元に分解する。
ICLはラベル空間とフォーマットを制御し,所望のラベル語にLLMが反応するのに役立つことを示す。
論文 参考訳(メタデータ) (2024-04-11T08:20:10Z) - ParaICL: Towards Robust Parallel In-Context Learning [74.38022919598443]
大規模言語モデル(LLM)が自然言語処理の標準となっている。
インコンテキスト・ラーニング(ICL)は、いくつかの実演例の選択に依存している。
パラレルインコンテキスト学習(ParaICL)という新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-31T05:56:15Z) - DEEP-ICL: Definition-Enriched Experts for Language Model In-Context Learning [37.22553531518853]
大規模言語モデル(LLM)におけるパラメータの多さは、コンテキスト内学習(ICL)の能力を促進すると長い間考えられてきた。
ICL のための新しいタスク定義拡張 ExPert Ensembling Method である DEEP-ICL を紹介する。
ICLの改善はモデルのサイズに直接依存するのではなく、基本的にはタスク定義やタスク誘導学習の理解に起因している、と我々は主張する。
論文 参考訳(メタデータ) (2024-03-07T05:26:41Z) - In-Context Learning Functions with Varying Number of Minima [3.3268674937926224]
最小値の異なる関数を近似する新しいタスクを提案する。
ミニマの数が増加するとICL性能が低下することがわかった。
同時に、我々はICLが2層ニューラルネットワーク(2NN)モデルより優れていることを示した。
論文 参考訳(メタデータ) (2023-11-21T11:33:03Z) - Structured Prompting: Scaling In-Context Learning to 1,000 Examples [78.41281805608081]
長さ制限を破り、文脈内学習を数千の例に拡張する構造化プロンプトを導入する。
具体的には、デモ例は、適切に設計された位置埋め込みで別々にエンコードされ、その後、再スケールされた注意機構を使用してテスト例に共同で出席する。
論文 参考訳(メタデータ) (2022-12-13T16:31:21Z) - Contrastive Learning with Adversarial Examples [79.39156814887133]
コントラスト学習(Contrastive Learning, CL)は、視覚表現の自己教師型学習(SSL)において一般的な手法である。
本稿では,コンストラクティブ・ラーニングのための新しい逆例群を紹介し,これらの例を用いてCLAEと表記されるSSLの新しい逆トレーニングアルゴリズムを定義する。
論文 参考訳(メタデータ) (2020-10-22T20:45:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。