論文の概要: Meta-Learning Transformers to Improve In-Context Generalization
- arxiv url: http://arxiv.org/abs/2507.05019v1
- Date: Mon, 07 Jul 2025 14:02:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.44883
- Title: Meta-Learning Transformers to Improve In-Context Generalization
- Title(参考訳): インコンテキスト一般化のためのメタラーニング変換器
- Authors: Lorenzo Braccaioli, Anna Vettoruzzo, Prabhant Singh, Joaquin Vanschoren, Mohamed-Rafik Bouguelia, Nicola Conci,
- Abstract要約: インコンテキスト学習は、入力プロンプトのみに基づいて、トランスフォーマーモデルを新しいタスクに一般化することを可能にする。
既存のトレーニングパラダイムは一般的に、保存にコストがかかる大規模で非構造的なデータセットに依存します。
我々は、複数の、小規模、ドメイン固有のデータセットのコレクションを活用する、代替的なトレーニング戦略を提案する。
- 参考スコア(独自算出の注目度): 8.694999451321571
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In-context learning enables transformer models to generalize to new tasks based solely on input prompts, without any need for weight updates. However, existing training paradigms typically rely on large, unstructured datasets that are costly to store, difficult to evaluate for quality and balance, and pose privacy and ethical concerns due to the inclusion of sensitive information. Motivated by these limitations and risks, we propose an alternative training strategy where we leverage a collection of multiple, small-scale, and domain-specific datasets. We empirically demonstrate that the increased quality and diversity of such data improve the generalization abilities of in-context learners beyond their training domain, while achieving comparable performance with models trained on a single large-scale dataset. We investigate this paradigm by leveraging meta-learning to train an in-context learner on the Meta-Album collection under several settings. Firstly, we show the performance in a controlled environment, where the test domain is completely excluded from the training knowledge. Secondly, we explore the robustness of these models to forgetting in a continual scenario where the information is accessible for a limited time. Finally, we explore the more challenging unsupervised scenario. Our findings demonstrate that transformers still generalize for in-context prediction when trained on a curated dataset collection while offering advantages in modularity and replaceability.
- Abstract(参考訳): インコンテキスト学習により、トランスフォーマーモデルは、重み更新を必要とせずに、入力プロンプトのみに基づく新しいタスクに一般化することができる。
しかし、既存のトレーニングパラダイムは一般的に、保存にコストがかかり、品質とバランスを評価するのが難しく、機密情報を含めることによるプライバシーと倫理上の懸念を生じさせる、大規模で非構造的なデータセットに依存している。
これらの制限とリスクを動機として、私たちは、複数の、小規模、ドメイン固有のデータセットのコレクションを活用する、代替的なトレーニング戦略を提案します。
このようなデータの品質と多様性の向上により、トレーニング領域を超えてコンテキスト内学習者の一般化能力が向上すると同時に、単一の大規模データセットでトレーニングされたモデルと同等のパフォーマンスを達成できることを実証的に実証した。
本稿では,メタ学習を活用して,メタアルブムコレクション上のコンテキスト内学習者を複数の設定で学習する手法について検討する。
まず、テスト領域がトレーニング知識から完全に除外された制御された環境でのパフォーマンスを示す。
第2に,情報を限定的にアクセス可能な連続的なシナリオにおいて,これらのモデルが持つ堅牢性について検討する。
最後に、より困難な教師なしのシナリオについて検討する。
以上の結果から,トランスフォーマーは,モジュール性と置換性に優位性を提供しながら,キュレートされたデータセットコレクションでトレーニングした場合のコンテキスト内予測を依然として一般化していることがわかった。
関連論文リスト
- ToReMi: Topic-Aware Data Reweighting for Dynamic Pre-Training Data Selection [28.75333303894706]
ToReMiは、トピックの関連や観察された学習パターンに応じてトレーニングサンプル重量を調整する新しいフレームワークである。
実験の結果,ToReMiの変種は従来の事前学習手法よりも優れた性能が得られることがわかった。
論文 参考訳(メタデータ) (2025-04-01T12:06:42Z) - In-context learning of evolving data streams with tabular foundational models [42.13420474990124]
この研究は両領域の進歩を橋渡しし、トランスフォーマーの暗黙のメタ学習能力、ドリフトする自然データへの事前トレーニング、動的環境における適応学習のコア課題へのコンテキスト最適化への依存などを強調した。
本研究は,TabPFNが単純なスライディングメモリ戦略と組み合わさって,非定常ベンチマークにおけるHoeffdingツリーのアンサンブルを一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2025-02-24T04:52:35Z) - A Practitioner's Guide to Continual Multimodal Pretraining [83.63894495064855]
マルチモーダル・ファンデーション・モデルは視覚と言語を交わす多くのアプリケーションに役立っている。
モデルを更新し続けるために、継続事前トレーニングの研究は主に、大規模な新しいデータに対する頻度の低い、差別的な更新、あるいは頻繁に行われるサンプルレベルの更新のシナリオを探求する。
本稿では,FoMo-in-Flux(FoMo-in-Flux)について紹介する。
論文 参考訳(メタデータ) (2024-08-26T17:59:01Z) - Unsupervised Meta-Learning via In-Context Learning [3.4165401459803335]
本稿では,教師なしメタ学習における教師なしメタ学習の一般化能力を活用した新しい手法を提案する。
提案手法は,メタラーニングをシーケンスモデリング問題として再設計し,トランスフォーマーエンコーダがサポート画像からタスクコンテキストを学習できるようにする。
論文 参考訳(メタデータ) (2024-05-25T08:29:46Z) - ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。
ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。
ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T21:51:04Z) - Pre-training Contextualized World Models with In-the-wild Videos for
Reinforcement Learning [54.67880602409801]
本稿では,視覚制御タスクの学習を効率的に行うために,Wild 動画を多用した事前学習型世界モデルの課題について検討する。
本稿では、コンテキストと動的モデリングを明確に分離したContextualized World Models(ContextWM)を紹介する。
実験により,ContextWMを内蔵したWildビデオ事前学習は,モデルベース強化学習のサンプル効率を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-05-29T14:29:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。