Fugu-MT 論文翻訳(概要): In-Context Learning with Long-Context Models: An In-Depth Exploration

論文の概要: In-Context Learning with Long-Context Models: An In-Depth Exploration

arxiv url: http://arxiv.org/abs/2405.00200v1
Date: Tue, 30 Apr 2024 21:06:52 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-02 17:06:33.142014
Title: In-Context Learning with Long-Context Models: An In-Depth Exploration
Title（参考訳）: ロングコンテキストモデルを用いたインコンテキスト学習:インディース探索
Authors: Amanda Bertsch, Maor Ivgi, Uri Alon, Jonathan Berant, Matthew R. Gormley, Graham Neubig,
Abstract要約: 大規模なラベル空間を持つ多くのデータセットでは、数百から数千のデモでパフォーマンスが向上し続けています。長いコンテキストのICLは驚くほど効果的であるが、ほとんどの利益は同様の例に答えることから得られている。
参考スコア（独自算出の注目度）: 96.1389740719691
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As model context lengths continue to increase, the number of demonstrations that can be provided in-context approaches the size of entire training datasets. We study the behavior of in-context learning (ICL) at this extreme scale on multiple datasets and models. We show that, for many datasets with large label spaces, performance continues to increase with hundreds or thousands of demonstrations. We contrast this with example retrieval and finetuning: example retrieval shows excellent performance at low context lengths but has diminished gains with more demonstrations; finetuning is more data hungry than ICL but can sometimes exceed long-context ICL performance with additional data. We use this ICL setting as a testbed to study several properties of both in-context learning and long-context models. We show that long-context ICL is less sensitive to random input shuffling than short-context ICL, that grouping of same-label examples can negatively impact performance, and that the performance boosts we see do not arise from cumulative gain from encoding many examples together. We conclude that although long-context ICL can be surprisingly effective, most of this gain comes from attending back to similar examples rather than task learning.
Abstract（参考訳）: モデルコンテキストの長さが増加し続けるにつれて、コンテキスト内で提供可能なデモの数は、トレーニングデータセット全体のサイズに近づきます。本研究は,複数のデータセットやモデルを用いて,テキスト内学習(ICL)の挙動を極端に評価する。大規模なラベル空間を持つ多くのデータセットでは、数百から数千のデモでパフォーマンスが向上し続けています。サンプル検索は、低文脈長で優れた性能を示すが、より多くの実演によって利得が低下している; 微調整はICLよりも飢えているデータであるが、追加データで長いコンテキストICLのパフォーマンスを超えることがある。 In-context Learning と long-context model の両方の特性を研究するために,この ICL 設定をテストベッドとして使用する。長文のICLは、短文のICLよりもランダムな入力シャッフルに敏感で、同じラベルのサンプルをグループ化すると性能に悪影響を及ぼし、また、多数のサンプルを同時に符号化することで、累積的なゲインが生じることはないことを示す。我々は、長いコンテキストのICLは驚くほど効果的であるが、ほとんどの利益はタスク学習ではなく、同様の例にたどり着くことにあると結論付けている。

関連論文リスト

On Many-Shot In-Context Learning for Long-Context Evaluation [10.500629810624769]
本稿では,マルチショットICLによる長文言語モデルの評価について検討する。 ICLタスクを共通サンプル学習(SSL)と全サンプル学習(ASL)の2つのグループに分類するメトリクスを開発する。最先端のモデルではSSLタスクで64kトークンまでパフォーマンスが向上するが、ASLタスクで16kトークンしかなかったため、多くのモデルは大幅なパフォーマンス低下を経験している。
論文参考訳（メタデータ） (2024-11-11T17:00:59Z)
Deeper Insights Without Updates: The Power of In-Context Learning Over Fine-Tuning [22.341935761925892]
ファインチューニングとインコンテキスト学習(ICL)は、タスク固有の知識で大きな言語モデルを出力する2つの一般的な方法である。暗黙的なパターンを持つタスクに対して、ICLはこれらのパターンを微調整よりもはるかによくキャプチャする。
論文参考訳（メタデータ） (2024-10-07T02:12:22Z)
How to Train Long-Context Language Models (Effectively) [75.5418485597276]
言語モデル(LM)の継続学習と教師付き微調整(SFT)を行い,長文情報の有効利用について検討した。コードリポジトリと書籍は長いデータの優れた情報源であることがわかったが、それらと高品質の短文データを組み合わせることが不可欠である。最終モデルであるProLong-8Bは、128Kの同様のサイズのモデル間で、最先端の長文性能を示す。
論文参考訳（メタデータ） (2024-10-03T16:46:52Z)
Untie the Knots: An Efficient Data Augmentation Strategy for Long-Context Pre-Training in Language Models [21.90388980448712]
長いコンテキストを扱うためのトレーニングモデルには、大きな課題があります。継続事前学習フェーズで使用される新しいデータ拡張戦略であるUntie the Knots(textbfUtK)を紹介する。我々は、UtKがRULER上で128Kの文脈長で75%と84.5%の精度を達成したことを示す200億のトークンで訓練された7Bと72Bのパラメータを持つモデルに関する広範な実験を行った。
論文参考訳（メタデータ） (2024-09-07T09:28:55Z)
LongSkywork: A Training Recipe for Efficiently Extending Context Length in Large Language Models [61.12177317970258]
LongSkyworkは、最大20万のトークンを処理できる、長いコンテキストのLarge Language Modelである。我々は合成データを作成する2つの新しい方法を開発した。 LongSkyworkは、様々なロングコンテキストベンチマークで優れたパフォーマンスを実現している。
論文参考訳（メタデータ） (2024-06-02T03:34:41Z)
Many-Shot In-Context Learning [58.395589302800566]
大規模言語モデル (LLMs) は、文脈内学習 (ICL) において優れている我々は、多種多様な生成的および識別的タスクにおける顕著なパフォーマンス向上を観察する。少数ショット学習とは異なり、多ショット学習は事前学習されたバイアスをオーバーライドするのに効果的である。
論文参考訳（メタデータ） (2024-04-17T02:49:26Z)
ParaICL: Towards Robust Parallel In-Context Learning [74.38022919598443]
大規模言語モデル(LLM)が自然言語処理の標準となっている。インコンテキスト・ラーニング(ICL)は、いくつかの実演例の選択に依存している。パラレルインコンテキスト学習(ParaICL)という新しい手法を提案する。
論文参考訳（メタデータ） (2024-03-31T05:56:15Z)
Not All Demonstration Examples are Equally Beneficial: Reweighting Demonstration Examples for In-Context Learning [32.29118942982609]
大規模言語モデル(LLM)は、最近、モデルをスケールアップしてICL(In-Context Learning)能力を獲得した。本稿では,実演例における平均重量の決め方とICLにおける適用方法について検討する。 8つのテキスト分類タスクの実験結果から,本手法は従来のICLよりも高い性能を示した。
論文参考訳（メタデータ） (2023-10-12T13:15:11Z)
Dynamic Demonstrations Controller for In-Context Learning [51.3439660534631]
In-Context Learning(ICL)は、自然言語処理(NLP)のための新しいパラダイムであり、大規模な言語モデルが少数の実演とテストインスタンスを入力として観察する。これまでの研究では、ICLはデモの選択と順序に敏感であることが判明している。デモ数を調整することでICLの性能を向上させる動的デモ制御器(D$2$Controller)を提案する。
論文参考訳（メタデータ） (2023-09-30T14:04:22Z)
Effective Long-Context Scaling of Foundation Models [90.57254298730923]
最大32,768個のトークンの効率的なコンテキストウィンドウをサポートする長文LLMを提示する。我々のモデルは、ほとんどの通常のタスクにおいて一貫した改善を達成し、Llama 2よりも長いコンテキストタスクを大幅に改善します。
論文参考訳（メタデータ） (2023-09-27T21:41:49Z)
In-Context Learning Learns Label Relationships but Is Not Conventional Learning [60.891931501449726]
大規模言語モデルの文脈内学習(ICL)能力について、現時点では合意が得られていない。 ICLがラベル情報をどのように活用するかという新たな洞察を提供し、機能と制限の両方を明らかにします。実験の結果, ICLの予測はコンテキスト内ラベルにほぼ常に依存しており, ICLはコンテキスト内における真に新しいタスクを学習できることがわかった。
論文参考訳（メタデータ） (2023-07-23T16:54:41Z)
Understanding In-Context Learning via Supportive Pretraining Data [55.648777340129364]
In-context Learning (ICL)は、推論時にいくつかの例を示すだけで、様々なNLPタスクにおける言語モデルの性能を改善する。 ICLの能力がなぜ出現するかはよく分かっていないが、モデルがそのようなデモで特別に訓練されたことはない。我々の研究は、インスタンスレベルの事前学習データを分析して、ICLを理解するための第一歩を踏み出した。
論文参考訳（メタデータ） (2023-06-26T22:14:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。