論文の概要: Understanding the Generalization of In-Context Learning in Transformers: An Empirical Study
- arxiv url: http://arxiv.org/abs/2503.15579v1
- Date: Wed, 19 Mar 2025 13:40:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-21 19:01:15.091033
- Title: Understanding the Generalization of In-Context Learning in Transformers: An Empirical Study
- Title(参考訳): 変圧器におけるインテクスト学習の一般化を理解する--実証的研究
- Authors: Xingxuan Zhang, Haoran Wang, Jiansheng Li, Yuan Xue, Shikai Guan, Renzhe Xu, Hao Zou, Han Yu, Peng Cui,
- Abstract要約: GPT-4やLLaMA-3のような大規模言語モデル(LLM)は、Transformerアーキテクチャの強力なインコンテキスト学習(ICL)機能を利用して、限られた例からリアルタイムで学習する。
本稿では,ICLを用いたトランスフォーマーの一般化能力について,トレーニングデータカバレッジと比較して体系的に検討する。
トランスフォーマーはICLとプロブレム間一般化を欠いているが, タスク内およびプロブレム内一般化に優れていた。
- 参考スコア(独自算出の注目度): 45.08382242972142
- License:
- Abstract: Large language models (LLMs) like GPT-4 and LLaMA-3 utilize the powerful in-context learning (ICL) capability of Transformer architecture to learn on the fly from limited examples. While ICL underpins many LLM applications, its full potential remains hindered by a limited understanding of its generalization boundaries and vulnerabilities. We present a systematic investigation of transformers' generalization capability with ICL relative to training data coverage by defining a task-centric framework along three dimensions: inter-problem, intra-problem, and intra-task generalization. Through extensive simulation and real-world experiments, encompassing tasks such as function fitting, API calling, and translation, we find that transformers lack inter-problem generalization with ICL, but excel in intra-task and intra-problem generalization. When the training data includes a greater variety of mixed tasks, it significantly enhances the generalization ability of ICL on unseen tasks and even on known simple tasks. This guides us in designing training data to maximize the diversity of tasks covered and to combine different tasks whenever possible, rather than solely focusing on the target task for testing.
- Abstract(参考訳): GPT-4やLLaMA-3のような大規模言語モデル(LLM)は、Transformerアーキテクチャの強力なインコンテキスト学習(ICL)機能を利用して、限られた例からリアルタイムで学習する。
ICLは多くのLLMアプリケーションを支えるが、その潜在能力は、その一般化境界と脆弱性の限定的な理解によって妨げられている。
本稿では,タスク中心のフレームワークを3次元(プロブレム間,プロブレム内,タスク内)で定義することにより,ICLによるトランスフォーマーの一般化能力をトレーニングデータカバレッジと比較する。
関数フィッティング、API呼び出し、翻訳などのタスクを含む広範囲なシミュレーションと実世界の実験により、トランスフォーマーはICLによるプロブレム間一般化に欠けるが、タスク内およびプロブレム内一般化に優れることがわかった。
トレーニングデータがより多様な混合タスクを含む場合、見えないタスクや既知の単純なタスクでもICLの一般化能力を著しく向上させる。
これにより、テスト対象のタスクのみに焦点を当てるのではなく、カバーするタスクの多様性を最大化し、さまざまなタスクを可能な限り組み合わせるようにトレーニングデータを設計することが可能になるのです。
関連論文リスト
- Learning Task Representations from In-Context Learning [73.72066284711462]
大規模言語モデル(LLM)は、文脈内学習において顕著な習熟性を示している。
ICLプロンプトにおけるタスク情報をアテンションヘッドの関数として符号化するための自動定式化を導入する。
提案手法の有効性は,最後の隠れ状態の分布と最適に実行されたテキスト内学習モデルとの整合性に起因していることを示す。
論文 参考訳(メタデータ) (2025-02-08T00:16:44Z) - VLABench: A Large-Scale Benchmark for Language-Conditioned Robotics Manipulation with Long-Horizon Reasoning Tasks [100.3234156027118]
本稿では、ユニバーサルLCMタスク学習を評価するためのオープンソースのベンチマークであるVLABenchを紹介する。
VLABenchは、タスクのカテゴリごとに強いランダム化と合計2000以上のオブジェクトを備えた、慎重に設計された100のタスクカテゴリを提供する。
このベンチマークは、メッシュとテクスチャ、空間関係、意味的命令、物理法則、知識伝達、推論の理解を含む複数の能力を評価する。
論文 参考訳(メタデータ) (2024-12-24T06:03:42Z) - Differential learning kinetics govern the transition from memorization to generalization during in-context learning [0.5555497750998242]
トランスフォーマーはインコンテキスト学習(ICL: In-context Learning)を示す。
最近の研究は、モデルが十分に多様なタスクセットで訓練されたときにICLが出現することを示している。
記憶・一般化するサブ回路は,主に独立していると考えられる。
論文 参考訳(メタデータ) (2024-11-27T22:12:29Z) - In-Context Learning with Representations: Contextual Generalization of Trained Transformers [66.78052387054593]
In-context Learning (ICL) は、事前訓練された大規模言語モデルの能力を指し、推論中にいくつか例を挙げると、新しいタスクを学習できる。
本稿では,非線形回帰タスクのレンズによる勾配降下による変圧器のトレーニングダイナミクスについて検討する。
論文 参考訳(メタデータ) (2024-08-19T16:47:46Z) - Dynamic Transformer Architecture for Continual Learning of Multimodal
Tasks [27.59758964060561]
トランスフォーマーニューラルネットワークは、さまざまなデータモダリティの幅広いアプリケーションにおいて、以前のアーキテクチャを置き換える傾向にある。
連続学習(CL)は、自律学習エージェントに順次到着するタスク間で知識の伝達を容易にすることで、ソリューションとして現れる。
本稿では,視覚と言語の両方に関わる学習タスクに着目したトランスフォーマーベースのCLフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-27T03:03:30Z) - Towards Task Sampler Learning for Meta-Learning [37.02030832662183]
メタラーニングは、限られたデータから行われる多様なトレーニングタスクで一般的な知識を学び、それを新しいタスクに転送することを目的としている。
タスク多様性の増大はメタラーニングモデルの一般化能力を高めると一般的に信じられている。
本稿では、経験的および理論的分析を通して、この見解に挑戦する。
論文 参考訳(メタデータ) (2023-07-18T01:53:18Z) - On-edge Multi-task Transfer Learning: Model and Practice with
Data-driven Task Allocation [20.20889051697198]
マルチタスク・トランスファー・ラーニング(MTL)におけるタスク・アロケーションは,NP完全Knapsack問題の変種であることを示す。
我々は,データ駆動型協調作業割当(DCTA)アプローチを提案し,高い計算効率でTATIMを解く。
我々のDCTAは処理時間の3.24倍を削減し、TATIMを解く際の最先端技術と比較して48.4%の省エネを図っている。
論文 参考訳(メタデータ) (2021-07-06T08:24:25Z) - Meta-Learning with Fewer Tasks through Task Interpolation [67.03769747726666]
現在のメタ学習アルゴリズムは多数のメタトレーニングタスクを必要としており、実際のシナリオではアクセスできない可能性がある。
タスクグラデーションを用いたメタラーニング(MLTI)により,タスクのペアをランダムにサンプリングし,対応する特徴やラベルを補間することにより,タスクを効果的に生成する。
実証的な実験では,提案する汎用MLTIフレームワークが代表的なメタ学習アルゴリズムと互換性があり,他の最先端戦略を一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2021-06-04T20:15:34Z) - Distribution Matching for Heterogeneous Multi-Task Learning: a
Large-scale Face Study [75.42182503265056]
マルチタスク学習は、共有学習アルゴリズムによって複数のタスクを共同で学習する方法論として登場した。
我々は異種mtlに対処し,検出,分類,回帰問題を同時に解決する。
大規模な顔分析のための最初のフレームワークであるFaceBehaviorNetを構築し、すべての顔行動タスクを共同で学習する。
論文 参考訳(メタデータ) (2021-05-08T22:26:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。