論文の概要: Unlocking In-Context Learning for Natural Datasets Beyond Language Modelling
- arxiv url: http://arxiv.org/abs/2501.06256v2
- Date: Wed, 25 Jun 2025 16:21:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-26 14:36:55.172875
- Title: Unlocking In-Context Learning for Natural Datasets Beyond Language Modelling
- Title(参考訳): 言語モデリングを超えた自然データセットのための文脈内学習のアンロック
- Authors: Jelena Bratulić, Sudhanshu Mittal, David T. Hoffmann, Samuel Böhm, Robin Tibor Schirrmeister, Tonio Ball, Christian Rupprecht, Thomas Brox,
- Abstract要約: 大規模言語モデル(LLM)は文脈学習(ICL)を示す
ICLは自然言語のタスクやドメインに対して高速な適応を提供するが、テキスト以外のモダリティに対しては、その出現は簡単ではない。
ICLの重要な要素として、トレーニングデータ列における正確なトークン反復を同定する。
我々は、様々なビジュアルデータセットのためのICL機能をアンロックし、より困難な脳波分類タスクを、数ショットの学習システムで実行します。
- 参考スコア(独自算出の注目度): 37.36879079951306
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) exhibit In-Context Learning (ICL), which enables the model to perform new tasks conditioning only on the examples provided in the context without updating the model's weights. While ICL offers fast adaptation across natural language tasks and domains, its emergence is less straightforward for modalities beyond text. In this work, we systematically uncover properties present in LLMs that support the emergence of ICL for autoregressive models and various modalities by promoting the learning of the needed mechanisms for ICL. We identify exact token repetitions in the training data sequences as an important factor for ICL. Such repetitions further improve stability and reduce transiency in ICL performance. Moreover, we emphasise the significance of training task difficulty for the emergence of ICL. Finally, by applying our novel insights on ICL emergence, we unlock ICL capabilities for various visual datasets and a more challenging EEG classification task in a few-shot learning regime.
- Abstract(参考訳): 大規模言語モデル(LLM)は、モデルの重みを更新することなく、コンテキストで提供される例にのみ依存する新しいタスクを実行することができる、インコンテキスト学習(ICL)を提供する。
ICLは自然言語のタスクやドメインに対して高速な適応を提供するが、テキスト以外のモダリティに対しては、その出現は簡単ではない。
本研究は,自己回帰モデルにおけるICLの出現を支えるLCMに存在する特性を,ICLに必要なメカニズムの学習を促進することによって体系的に明らかにするものである。
ICLの重要な要素として、トレーニングデータ列における正確なトークン反復を同定する。
このような繰り返しにより安定性が向上し、ICL性能の透明性が低下する。
さらに,ICLの出現にともなう訓練課題の難易度の重要性を強調した。
最後に、ICLの出現に関する新たな知見を適用することで、さまざまな視覚データセットに対するICL機能と、数ショットの学習体制におけるより困難な脳波分類タスクを解放する。
関連論文リスト
- Exploring Training and Inference Scaling Laws in Generative Retrieval [50.82554729023865]
モデルサイズ,トレーニングデータスケール,推論時間計算が生成的検索性能にどのように影響するかを検討する。
実験の結果,n-gram-based method はトレーニング法と推論法の両方と強く一致していることがわかった。
LLaMAモデルはT5モデルより一貫して優れており、生成検索におけるデコーダのみの大きなモデルに対して特に有利であることが示唆された。
論文 参考訳(メタデータ) (2025-03-24T17:59:03Z) - Dynamic Loss-Based Sample Reweighting for Improved Large Language Model Pretraining [55.262510814326035]
既存のリウェイト戦略は主にグループレベルのデータの重要性に焦点を当てている。
動的・インスタンスレベルのデータ再重み付けのための新しいアルゴリズムを提案する。
当社のフレームワークでは,冗長データや非形式データを優先的に再重み付けする戦略を考案することが可能です。
論文 参考訳(メタデータ) (2025-02-10T17:57:15Z) - Aggregation Artifacts in Subjective Tasks Collapse Large Language Models' Posteriors [74.04775677110179]
In-context Learning (ICL) は、Large Language Models (LLM) を用いた自然言語処理の主要な手法となっている。
本研究は,低アグリゲーション,異質なアノテーションを組み合わせたアグリゲーションの結果が,プロンプトに有害なノイズを生じさせるアノテーションのアーティファクトに繋がるかどうかを考察する。
この結果から,アグリゲーションは主観的タスクのモデル化において不明瞭な要因であり,代わりに個人をモデリングすることを重視することが示唆された。
論文 参考訳(メタデータ) (2024-10-17T17:16:00Z) - LLMs Are In-Context Bandit Reinforcement Learners [30.192422586838997]
大規模言語モデル(LLMs)は、モデルコンテキストに注釈付きサンプルを追加することに依存する教師付き学習技術であるICL(In-context Learning)で優れている。
そこで本研究では、教師付きデータではなく、外部報酬からオンラインのコンテキスト内学習を行うICRL(In-context reinforcement Learning)について検討する。
論文 参考訳(メタデータ) (2024-10-07T17:45:00Z) - Theoretical Insights into Overparameterized Models in Multi-Task and Replay-Based Continual Learning [37.745896674964186]
マルチタスク学習(MTL)は,複数のタスクを同時に学習することで,複数のタスクにおけるモデルの一般化性能を向上させることを目的としている。
連続学習(CL)は、以前取得した知識を忘れずに、時間とともに新しい逐次到着タスクに適応する。
MTL設定におけるモデルの性能に及ぼす各種システムパラメータの影響を理論的に記述する。
その結果,バッファサイズとモデルキャパシティがCLセットアップの記憶率に及ぼす影響を明らかにし,最先端のCL手法のいくつかに光を当てるのに役立つことがわかった。
論文 参考訳(メタデータ) (2024-08-29T23:22:40Z) - What Makes CLIP More Robust to Long-Tailed Pre-Training Data? A Controlled Study for Transferable Insights [67.72413262980272]
大規模なデータ不均衡は、Webスケールの視覚言語データセットの間に自然に存在する。
事前学習したCLIPは、教師付き学習と比較してデータ不均衡に顕著な堅牢性を示す。
CLIPの堅牢性と差別性は、より記述的な言語監督、より大きなデータスケール、より広いオープンワールドの概念によって改善される。
論文 参考訳(メタデータ) (2024-05-31T17:57:24Z) - The mechanistic basis of data dependence and abrupt learning in an
in-context classification task [0.3626013617212666]
本研究では,言語固有の特定の分布特性が,2種類の学習のトレードオフや同時出現を制御していることを示す。
インコンテキスト学習は、誘導ヘッドの突然の出現によって駆動され、その後、インウェイト学習と競合する。
注意に基づくネットワークの急激な遷移は、ICLを実現するのに必要な多層演算の特定の連鎖によって生じると提案する。
論文 参考訳(メタデータ) (2023-12-03T20:53:41Z) - Understanding In-Context Learning via Supportive Pretraining Data [55.648777340129364]
In-context Learning (ICL)は、推論時にいくつかの例を示すだけで、様々なNLPタスクにおける言語モデルの性能を改善する。
ICLの能力がなぜ出現するかはよく分かっていないが、モデルがそのようなデモで特別に訓練されたことはない。
我々の研究は、インスタンスレベルの事前学習データを分析して、ICLを理解するための第一歩を踏み出した。
論文 参考訳(メタデータ) (2023-06-26T22:14:04Z) - Concept-aware Training Improves In-context Learning Ability of Language
Models [0.0]
トランスフォーマーファミリーの最近の言語モデル(LM)の多くは、いわゆるインコンテキスト学習(ICL)能力を示している。
テキスト内情報をよりよく活用できるLMを作成する手法を提案する。
概念認識トレーニングのデータサンプリングはモデルの推論能力を継続的に改善する。
論文 参考訳(メタデータ) (2023-05-23T07:44:52Z) - Learning Deep Representations via Contrastive Learning for Instance
Retrieval [11.736450745549792]
本稿では、インスタンス識別に基づくコントラスト学習(CL)を用いて、この問題に取り組むための最初の試みを行う。
本研究では、事前学習されたCLモデルと微調整されたCLモデルから識別表現を導出する能力を探求することにより、この問題に対処する。
論文 参考訳(メタデータ) (2022-09-28T04:36:34Z) - Foundational Models for Continual Learning: An Empirical Study of Latent
Replay [17.322679682451597]
本稿では,下流の連続学習シナリオの基礎として,事前学習型視覚モデルの有効性について検討する。
大規模ベンチマークシナリオにおける各種事前学習モデルの有効性を,潜時および生データ空間におけるバニラ再生設定と比較した。
論文 参考訳(メタデータ) (2022-04-30T19:11:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。