論文の概要: The Surprising Effectiveness of Test-Time Training for Few-Shot Learning
- arxiv url: http://arxiv.org/abs/2411.07279v2
- Date: Tue, 25 Mar 2025 03:36:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 16:52:54.423104
- Title: The Surprising Effectiveness of Test-Time Training for Few-Shot Learning
- Title(参考訳): Few-Shot Learning におけるテストタイムトレーニングのサプライズ効果
- Authors: Ekin Akyürek, Mehul Damani, Adam Zweiger, Linlu Qiu, Han Guo, Jyothish Pari, Yoon Kim, Jacob Andreas,
- Abstract要約: 言語モデル(LM)は、トレーニングディストリビューション内のタスクにおいて印象的なパフォーマンスを示しているが、しばしば構造的に新しいタスクで苦労している。
LMの推論と少数ショット学習能力を改善するメカニズムとして,テストタイムトレーニング(TTT)の有効性を検討する。
本研究は,新しいタスクにおける文脈内学習の限界を強調し,言語モデルの適応性を高めるためのテストタイムトレーニングの可能性を示した。
- 参考スコア(独自算出の注目度): 59.309477460893916
- License:
- Abstract: Language models (LMs) have shown impressive performance on tasks within their training distribution, but often struggle with structurally novel tasks even when given a small number of in-context task examples. We investigate the effectiveness of test-time training (TTT) -- temporarily updating model parameters during inference using a loss derived from input data -- as a mechanism for improving LMs' reasoning and few-shot learning capabilities. On the Abstraction and Reasoning Corpus (ARC), performing TTT with in-context examples yields up to $6\times$ higher accuracy compared to fine-tuned baselines -- reaching $53.0\%$ on the public validation set with an 8B-parameter LM and $61.9\%$ when ensembled with program-synthesis methods, matching average human performance. On BIG-Bench Hard (BBH), TTT on in-context examples surpasses standard few-shot prompting in the $10$-shot setting by $7.3$ percentage points ($50.5\%$ to $57.8\%$). Our findings highlight the limitations of in-context learning for novel tasks and demonstrate the potential of test-time training to enhance language model adaptability.
- Abstract(参考訳): 言語モデル(LM)は、トレーニングディストリビューション内のタスクに対して印象的なパフォーマンスを示してきたが、少数のコンテキスト内タスク例を与えられたとしても、構造的に新しいタスクに苦慮することが多い。
本研究では、LMの推論と少数ショット学習能力を改善するメカニズムとして、TTT(Test-time Training)の有効性について検討する。
Abstraction and Reasoning Corpus (ARC)では、コンテキスト内での例でTTTを実行すると、微調整されたベースラインよりも高い精度で6\times$が得られ、8BパラメータLMの公開検証セットで53.0\%、プログラム合成メソッドでアンサンブルされた場合611.9\%が平均人間のパフォーマンスと一致する。
BIG-Bench Hard (BBH) では、テキスト中の例のTTTは標準のショット数を超え、$10$で7.3$%(50.5\%から$57.8\%)のパーセンテージポイントを獲得している。
本研究は,新しいタスクにおける文脈内学習の限界を強調し,言語モデルの適応性を高めるためのテストタイムトレーニングの可能性を示した。
関連論文リスト
- FORLAPS: An Innovative Data-Driven Reinforcement Learning Approach for Prescriptive Process Monitoring [3.4437362489150254]
本研究は,9つの公開データセットを用いた先行研究に対して,その性能をベンチマークする,革新的な評価モデルを提案する。
提案モデルであるFOLAPSは、プロセストレース内で最も最適なポリシーを提案し、最もよい次のアクティビティを予測するために、既存の最先端アプローチよりも優れたパフォーマンスを示した。
論文 参考訳(メタデータ) (2025-01-17T20:31:35Z) - Towards Robust Extractive Question Answering Models: Rethinking the Training Methodology [0.34530027457862006]
従来の研究によると、既存のモデルは、答えがつかない質問を含むEQAデータセットでトレーニングされた場合、ロバスト性の著しい欠如を示している。
提案手法は,EQA問題に対する新たな損失関数を含み,多数のEQAデータセットに存在する暗黙の仮定に挑戦する。
本モデルでは,2種類の敵攻撃に対するロバスト性が有意に向上し,デフォルトモデルに比べて性能は3分の1程度低下した。
論文 参考訳(メタデータ) (2024-09-29T20:35:57Z) - Efficient Grammatical Error Correction Via Multi-Task Training and
Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。
我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。
トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文 参考訳(メタデータ) (2023-11-20T14:50:12Z) - L3 Ensembles: Lifelong Learning Approach for Ensemble of Foundational
Language Models [15.726224465017596]
本稿では、未知のデータから意味のある表現を抽出し、構造化知識ベースを構築することに焦点を当てたアプローチを提案する。
我々は,GLUE や SuperGLUE などのベンチマークを含む様々な NLP タスクの有効性を検証する実験を行った。
提案したL3アンサンブル法は、細調整されたFLMと比較してモデル精度を4%36%向上させる。
論文 参考訳(メタデータ) (2023-11-11T06:59:50Z) - Efficient Data Learning for Open Information Extraction with Pre-trained Language Models [15.554865537872919]
オープン情報抽出(OpenIE)は自然言語処理の基本的な課題である。
本稿では,OpenIEのタスク形式をT5モデルの事前学習タスク形式に変換する新しいフレームワークであるOK-IEを紹介する。
さらに、モデル出力のシーケンスを制御するためのアンカーの革新的な概念を導入し、モデル収束に対するオーダーペナルティの影響を効果的に排除する。
論文 参考訳(メタデータ) (2023-10-23T15:19:24Z) - Point-TTA: Test-Time Adaptation for Point Cloud Registration Using
Multitask Meta-Auxiliary Learning [17.980649681325406]
我々は、ポイントクラウド登録(PCR)のための新しいテスト時間適応フレームワークであるPoint-TTAを提案する。
我々のモデルは、テストデータの事前の知識を必要とせずに、テスト時に目に見えない分布に適応することができる。
訓練中は, 補助タスクによる適応モデルにより主タスクの精度が向上するように, メタ補助学習アプローチを用いて訓練を行う。
論文 参考訳(メタデータ) (2023-08-31T06:32:11Z) - Improving Pre-trained Language Model Fine-tuning with Noise Stability
Regularization [94.4409074435894]
本稿では,LNSR(Layerwise Noise Stability Regularization)という,新規かつ効果的な微調整フレームワークを提案する。
具体的には、標準ガウス雑音を注入し、微調整モデルの隠れ表現を正規化することを提案する。
提案手法は,L2-SP,Mixout,SMARTなど他の最先端アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-12T04:42:49Z) - SUPERB-SG: Enhanced Speech processing Universal PERformance Benchmark
for Semantic and Generative Capabilities [76.97949110580703]
各種音声タスクの事前学習モデルを評価するための新しいベンチマークであるSUPERB-SGを紹介する。
データドメインのシフトの下で、事前訓練されたモデルによって学習された表現の堅牢性をテストするために、軽量な方法論を使用します。
また,SUPERB-SGのタスク多様性とタスク監督の限定が,モデル表現の一般化性を評価する効果的な方法であることを示す。
論文 参考訳(メタデータ) (2022-03-14T04:26:40Z) - Avoiding Inference Heuristics in Few-shot Prompt-based Finetuning [57.4036085386653]
文ペア分類タスクのプロンプトベースモデルでは,語彙重なりに基づく推論の一般的な落とし穴が依然として残っていることを示す。
そこで,プレトレーニングウェイトを保存する正規化を加えることは,この破壊的な微調整の傾向を緩和するのに有効であることを示す。
論文 参考訳(メタデータ) (2021-09-09T10:10:29Z) - NoiER: An Approach for Training more Reliable Fine-TunedDownstream Task
Models [54.184609286094044]
補助モデルと付加データなしで問題を解くための学習パラダイムとして,ノイズエントロピー正規化(NoiER)を提案する。
提案手法は,従来の微調整モデルと比較して平均55%改善した。
論文 参考訳(メタデータ) (2021-08-29T06:58:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。