論文の概要: In-Context Learning with Long-Context Models: An In-Depth Exploration
- arxiv url: http://arxiv.org/abs/2405.00200v2
- Date: Mon, 03 Mar 2025 19:53:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:10:48.661306
- Title: In-Context Learning with Long-Context Models: An In-Depth Exploration
- Title(参考訳): ロングコンテキストモデルを用いたインコンテキスト学習:インディース探索
- Authors: Amanda Bertsch, Maor Ivgi, Emily Xiao, Uri Alon, Jonathan Berant, Matthew R. Gormley, Graham Neubig,
- Abstract要約: 大規模なラベル空間を持つ多くのデータセットでは、数千のデモでパフォーマンスが向上し続けています。
長文ICLは有効なツールであり,デモセットのエンコーディングに長文を必要としない可能性があることを示す。
- 参考スコア(独自算出の注目度): 92.16922648612807
- License:
- Abstract: As model context lengths continue to increase, the number of demonstrations that can be provided in-context approaches the size of entire training datasets. We study the behavior of in-context learning (ICL) at this extreme scale on multiple datasets and models. We show that, for many datasets with large label spaces, performance continues to increase with thousands of demonstrations. We contrast this with example retrieval and finetuning: example retrieval shows excellent performance at low context lengths but has diminished gains with more demonstrations; finetuning is more data hungry than ICL but can exceed long-context ICL performance with additional data. We use the ICL setting to study several properties of both in-context learning and long-context models. We show that long-context ICL is less sensitive to random input shuffling than short-context ICL, that grouping of same-label examples negatively impacts performance, and that the performance boosts do not arise from cumulative gain from encoding many examples together. We conclude that long-context ICL can be an effective tool, and may not require long-context for encoding the demonstration set at all.
- Abstract(参考訳): モデルコンテキストの長さが増加し続けるにつれて、コンテキスト内で提供可能なデモの数は、トレーニングデータセット全体のサイズに近づきます。
本研究は,複数のデータセットやモデルを用いて,テキスト内学習(ICL)の挙動を極端に評価する。
大規模なラベル空間を持つ多くのデータセットでは、数千のデモでパフォーマンスが向上し続けています。
サンプル検索は、低文脈長で優れた性能を示すが、より多くの実演を行うと利得が低下し、微調整はICLよりも飢えやすいが、追加データにより長文のICL性能を上回ることができる。
In-context Learning と long-context model の2つの特性について検討する。
長文のICLは、短文のICLよりもランダムな入力シャッフルに敏感で、同じラベルの例をグループ化すると性能に悪影響を及ぼし、多くの例をまとめて符号化することで累積的なゲインが生じることはないことを示す。
我々は、長文ICLは効果的なツールであり、デモセットをエンコードするのに長文を必要としないと結論付けている。
関連論文リスト
- What Matters for In-Context Learning: A Balancing Act of Look-up and In-Weight Learning [42.8453045943264]
ICLには,データシーケンスにおける概念的反復が不可欠であることを示す。
また、ICLの出現は、重み付き学習目標とコンテキスト内問題解決能力のバランスに依存することを示した。
論文 参考訳(メタデータ) (2025-01-09T09:45:05Z) - Revisiting In-Context Learning with Long Context Language Models [26.141121450077637]
In-Context Learning (ICL) は、言語モデルが入力コンテキストで提供される例に基づいて予測を行う手法である。
LCLM(Long Context Language Models)の出現により、コンテキストに含まれるサンプルの数が大幅に増加した。
4つのタスクにまたがる18のデータセットに関する広範な実験を通じて、LCLMの文脈でこれらのアプローチを再考する。
論文 参考訳(メタデータ) (2024-12-22T08:55:19Z) - Many-Shot In-Context Learning [58.395589302800566]
大規模言語モデル (LLMs) は、文脈内学習 (ICL) において優れている
我々は、多種多様な生成的および識別的タスクにおける顕著なパフォーマンス向上を観察する。
少数ショット学習とは異なり、多ショット学習は事前学習されたバイアスをオーバーライドするのに効果的である。
論文 参考訳(メタデータ) (2024-04-17T02:49:26Z) - ParaICL: Towards Robust Parallel In-Context Learning [74.38022919598443]
大規模言語モデル(LLM)が自然言語処理の標準となっている。
インコンテキスト・ラーニング(ICL)は、いくつかの実演例の選択に依存している。
パラレルインコンテキスト学習(ParaICL)という新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-31T05:56:15Z) - Not All Demonstration Examples are Equally Beneficial: Reweighting
Demonstration Examples for In-Context Learning [32.29118942982609]
大規模言語モデル(LLM)は、最近、モデルをスケールアップしてICL(In-Context Learning)能力を獲得した。
本稿では,実演例における平均重量の決め方とICLにおける適用方法について検討する。
8つのテキスト分類タスクの実験結果から,本手法は従来のICLよりも高い性能を示した。
論文 参考訳(メタデータ) (2023-10-12T13:15:11Z) - Dynamic Demonstrations Controller for In-Context Learning [48.455265597575675]
In-context Learning (ICL)は自然言語処理のための新しいパラダイムである
デモの数はモデル性能と正の相関関係にあると一般的に信じられている。
デモ数を調整することでICLの性能を向上させる動的デモ制御器(D$2$Controller)を提案する。
論文 参考訳(メタデータ) (2023-09-30T14:04:22Z) - Effective Long-Context Scaling of Foundation Models [90.57254298730923]
最大32,768個のトークンの効率的なコンテキストウィンドウをサポートする長文LLMを提示する。
我々のモデルは、ほとんどの通常のタスクにおいて一貫した改善を達成し、Llama 2よりも長いコンテキストタスクを大幅に改善します。
論文 参考訳(メタデータ) (2023-09-27T21:41:49Z) - In-Context Learning Learns Label Relationships but Is Not Conventional
Learning [60.891931501449726]
大規模言語モデルの文脈内学習(ICL)能力について、現時点では合意が得られていない。
ICLがラベル情報をどのように活用するかという新たな洞察を提供し、機能と制限の両方を明らかにします。
実験の結果, ICLの予測はコンテキスト内ラベルにほぼ常に依存しており, ICLはコンテキスト内における真に新しいタスクを学習できることがわかった。
論文 参考訳(メタデータ) (2023-07-23T16:54:41Z) - Understanding In-Context Learning via Supportive Pretraining Data [55.648777340129364]
In-context Learning (ICL)は、推論時にいくつかの例を示すだけで、様々なNLPタスクにおける言語モデルの性能を改善する。
ICLの能力がなぜ出現するかはよく分かっていないが、モデルがそのようなデモで特別に訓練されたことはない。
我々の研究は、インスタンスレベルの事前学習データを分析して、ICLを理解するための第一歩を踏み出した。
論文 参考訳(メタデータ) (2023-06-26T22:14:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。