論文の概要: In-Context Learning with Long-Context Models: An In-Depth Exploration
- arxiv url: http://arxiv.org/abs/2405.00200v1
- Date: Tue, 30 Apr 2024 21:06:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-02 17:06:33.142014
- Title: In-Context Learning with Long-Context Models: An In-Depth Exploration
- Title(参考訳): ロングコンテキストモデルを用いたインコンテキスト学習:インディース探索
- Authors: Amanda Bertsch, Maor Ivgi, Uri Alon, Jonathan Berant, Matthew R. Gormley, Graham Neubig,
- Abstract要約: 大規模なラベル空間を持つ多くのデータセットでは、数百から数千のデモでパフォーマンスが向上し続けています。
長いコンテキストのICLは驚くほど効果的であるが、ほとんどの利益は同様の例に答えることから得られている。
- 参考スコア(独自算出の注目度): 96.1389740719691
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As model context lengths continue to increase, the number of demonstrations that can be provided in-context approaches the size of entire training datasets. We study the behavior of in-context learning (ICL) at this extreme scale on multiple datasets and models. We show that, for many datasets with large label spaces, performance continues to increase with hundreds or thousands of demonstrations. We contrast this with example retrieval and finetuning: example retrieval shows excellent performance at low context lengths but has diminished gains with more demonstrations; finetuning is more data hungry than ICL but can sometimes exceed long-context ICL performance with additional data. We use this ICL setting as a testbed to study several properties of both in-context learning and long-context models. We show that long-context ICL is less sensitive to random input shuffling than short-context ICL, that grouping of same-label examples can negatively impact performance, and that the performance boosts we see do not arise from cumulative gain from encoding many examples together. We conclude that although long-context ICL can be surprisingly effective, most of this gain comes from attending back to similar examples rather than task learning.
- Abstract(参考訳): モデルコンテキストの長さが増加し続けるにつれて、コンテキスト内で提供可能なデモの数は、トレーニングデータセット全体のサイズに近づきます。
本研究は,複数のデータセットやモデルを用いて,テキスト内学習(ICL)の挙動を極端に評価する。
大規模なラベル空間を持つ多くのデータセットでは、数百から数千のデモでパフォーマンスが向上し続けています。
サンプル検索は、低文脈長で優れた性能を示すが、より多くの実演によって利得が低下している; 微調整はICLよりも飢えているデータであるが、追加データで長いコンテキストICLのパフォーマンスを超えることがある。
In-context Learning と long-context model の両方の特性を研究するために,この ICL 設定をテストベッドとして使用する。
長文のICLは、短文のICLよりもランダムな入力シャッフルに敏感で、同じラベルのサンプルをグループ化すると性能に悪影響を及ぼし、また、多数のサンプルを同時に符号化することで、累積的なゲインが生じることはないことを示す。
我々は、長いコンテキストのICLは驚くほど効果的であるが、ほとんどの利益はタスク学習ではなく、同様の例にたどり着くことにあると結論付けている。
関連論文リスト
- Deeper Insights Without Updates: The Power of In-Context Learning Over Fine-Tuning [22.341935761925892]
ファインチューニングとインコンテキスト学習(ICL)は、タスク固有の知識で大きな言語モデルを出力する2つの一般的な方法である。
暗黙的なパターンを持つタスクに対して、ICLはこれらのパターンを微調整よりもはるかによくキャプチャする。
論文 参考訳(メタデータ) (2024-10-07T02:12:22Z) - Many-Shot In-Context Learning [58.395589302800566]
大規模言語モデル (LLMs) は、文脈内学習 (ICL) において優れている
我々は、多種多様な生成的および識別的タスクにおける顕著なパフォーマンス向上を観察する。
少数ショット学習とは異なり、多ショット学習は事前学習されたバイアスをオーバーライドするのに効果的である。
論文 参考訳(メタデータ) (2024-04-17T02:49:26Z) - ParaICL: Towards Robust Parallel In-Context Learning [74.38022919598443]
大規模言語モデル(LLM)が自然言語処理の標準となっている。
インコンテキスト・ラーニング(ICL)は、いくつかの実演例の選択に依存している。
パラレルインコンテキスト学習(ParaICL)という新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-31T05:56:15Z) - Not All Demonstration Examples are Equally Beneficial: Reweighting
Demonstration Examples for In-Context Learning [32.29118942982609]
大規模言語モデル(LLM)は、最近、モデルをスケールアップしてICL(In-Context Learning)能力を獲得した。
本稿では,実演例における平均重量の決め方とICLにおける適用方法について検討する。
8つのテキスト分類タスクの実験結果から,本手法は従来のICLよりも高い性能を示した。
論文 参考訳(メタデータ) (2023-10-12T13:15:11Z) - Dynamic Demonstrations Controller for In-Context Learning [51.3439660534631]
In-Context Learning(ICL)は、自然言語処理(NLP)のための新しいパラダイムであり、大規模な言語モデルが少数の実演とテストインスタンスを入力として観察する。
これまでの研究では、ICLはデモの選択と順序に敏感であることが判明している。
デモ数を調整することでICLの性能を向上させる動的デモ制御器(D$2$Controller)を提案する。
論文 参考訳(メタデータ) (2023-09-30T14:04:22Z) - Effective Long-Context Scaling of Foundation Models [90.57254298730923]
最大32,768個のトークンの効率的なコンテキストウィンドウをサポートする長文LLMを提示する。
我々のモデルは、ほとんどの通常のタスクにおいて一貫した改善を達成し、Llama 2よりも長いコンテキストタスクを大幅に改善します。
論文 参考訳(メタデータ) (2023-09-27T21:41:49Z) - In-Context Learning Learns Label Relationships but Is Not Conventional
Learning [60.891931501449726]
大規模言語モデルの文脈内学習(ICL)能力について、現時点では合意が得られていない。
ICLがラベル情報をどのように活用するかという新たな洞察を提供し、機能と制限の両方を明らかにします。
実験の結果, ICLの予測はコンテキスト内ラベルにほぼ常に依存しており, ICLはコンテキスト内における真に新しいタスクを学習できることがわかった。
論文 参考訳(メタデータ) (2023-07-23T16:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。