Fugu-MT 論文翻訳(概要): The Surprising Effectiveness of Test-Time Training for Few-Shot Learning

論文の概要: The Surprising Effectiveness of Test-Time Training for Few-Shot Learning

arxiv url: http://arxiv.org/abs/2411.07279v2
Date: Tue, 25 Mar 2025 03:36:21 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-26 19:42:57.043183
Title: The Surprising Effectiveness of Test-Time Training for Few-Shot Learning
Title（参考訳）: Few-Shot Learning におけるテストタイムトレーニングのサプライズ効果
Authors: Ekin Akyürek, Mehul Damani, Adam Zweiger, Linlu Qiu, Han Guo, Jyothish Pari, Yoon Kim, Jacob Andreas,
Abstract要約: 言語モデル(LM)は、トレーニングディストリビューション内のタスクにおいて印象的なパフォーマンスを示しているが、しばしば構造的に新しいタスクで苦労している。 LMの推論と少数ショット学習能力を改善するメカニズムとして,テストタイムトレーニング(TTT)の有効性を検討する。本研究は,新しいタスクにおける文脈内学習の限界を強調し,言語モデルの適応性を高めるためのテストタイムトレーニングの可能性を示した。
参考スコア（独自算出の注目度）: 59.309477460893916
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Language models (LMs) have shown impressive performance on tasks within their training distribution, but often struggle with structurally novel tasks even when given a small number of in-context task examples. We investigate the effectiveness of test-time training (TTT) -- temporarily updating model parameters during inference using a loss derived from input data -- as a mechanism for improving LMs' reasoning and few-shot learning capabilities. On the Abstraction and Reasoning Corpus (ARC), performing TTT with in-context examples yields up to $6\times$ higher accuracy compared to fine-tuned baselines -- reaching $53.0\%$ on the public validation set with an 8B-parameter LM and $61.9\%$ when ensembled with program-synthesis methods, matching average human performance. On BIG-Bench Hard (BBH), TTT on in-context examples surpasses standard few-shot prompting in the $10$-shot setting by $7.3$ percentage points ($50.5\%$ to $57.8\%$). Our findings highlight the limitations of in-context learning for novel tasks and demonstrate the potential of test-time training to enhance language model adaptability.
Abstract（参考訳）: 言語モデル(LM)は、トレーニングディストリビューション内のタスクに対して印象的なパフォーマンスを示してきたが、少数のコンテキスト内タスク例を与えられたとしても、構造的に新しいタスクに苦慮することが多い。本研究では、LMの推論と少数ショット学習能力を改善するメカニズムとして、TTT(Test-time Training)の有効性について検討する。 Abstraction and Reasoning Corpus (ARC)では、コンテキスト内での例でTTTを実行すると、微調整されたベースラインよりも高い精度で6\times$が得られ、8BパラメータLMの公開検証セットで53.0\%、プログラム合成メソッドでアンサンブルされた場合611.9\%が平均人間のパフォーマンスと一致する。 BIG-Bench Hard (BBH) では、テキスト中の例のTTTは標準のショット数を超え、$10$で7.3$%(50.5\%から$57.8\%)のパーセンテージポイントを獲得している。本研究は,新しいタスクにおける文脈内学習の限界を強調し,言語モデルの適応性を高めるためのテストタイムトレーニングの可能性を示した。

関連論文リスト

Test-Time Training Provably Improves Transformers as In-context Learners [49.09821664572445]
テキスト内学習のための勾配に基づくTTTアルゴリズムについて検討する。テストプロンプトで提供されるコンテキスト内デモに対して,トランスフォーマーモデルをトレーニングする。経験的貢献として,TabPFNに対するTTTの有用性について検討した。
論文参考訳（メタデータ） (2025-03-14T20:06:37Z)
Selection-p: Self-Supervised Task-Agnostic Prompt Compression for Faithfulness and Transferability [67.77534983324229]
本稿では,非形式的トークンを識別する統一圧縮法を開発するために,大規模言語モデルの能力について検討する。実験により、Selection-pは様々な分類タスクで最先端のパフォーマンスを達成することが示された。以前の作業と比べて、異なるモデルに対して優れた転送性を示す。
論文参考訳（メタデータ） (2024-10-15T17:05:25Z)
Towards Robust Extractive Question Answering Models: Rethinking the Training Methodology [0.34530027457862006]
従来の研究によると、既存のモデルは、答えがつかない質問を含むEQAデータセットでトレーニングされた場合、ロバスト性の著しい欠如を示している。提案手法は,EQA問題に対する新たな損失関数を含み,多数のEQAデータセットに存在する暗黙の仮定に挑戦する。本モデルでは,2種類の敵攻撃に対するロバスト性が有意に向上し,デフォルトモデルに比べて性能は3分の1程度低下した。
論文参考訳（メタデータ） (2024-09-29T20:35:57Z)
In-context Prompt Learning for Test-time Vision Recognition with Frozen Vision-language Model [13.983810804606264]
In-Context Prompt Learning (InCPL) を提案する。 InCPLは、コンテキスト情報としてラベル付き例がほとんどない新しいテストサンプルを関連付けている。テストサンプルに適した視覚的プロンプトを最適化するために、コンテキスト対応の教師なし損失を導入する。
論文参考訳（メタデータ） (2024-03-10T08:15:51Z)
Efficient Grammatical Error Correction Via Multi-Task Training and Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文参考訳（メタデータ） (2023-11-20T14:50:12Z)
L3 Ensembles: Lifelong Learning Approach for Ensemble of Foundational Language Models [15.726224465017596]
本稿では、未知のデータから意味のある表現を抽出し、構造化知識ベースを構築することに焦点を当てたアプローチを提案する。我々は,GLUE や SuperGLUE などのベンチマークを含む様々な NLP タスクの有効性を検証する実験を行った。提案したL3アンサンブル法は、細調整されたFLMと比較してモデル精度を4%36%向上させる。
論文参考訳（メタデータ） (2023-11-11T06:59:50Z)
Efficient Data Learning for Open Information Extraction with Pre-trained Language Models [15.554865537872919]
オープン情報抽出(OpenIE)は自然言語処理の基本的な課題である。本稿では,OpenIEのタスク形式をT5モデルの事前学習タスク形式に変換する新しいフレームワークであるOK-IEを紹介する。さらに、モデル出力のシーケンスを制御するためのアンカーの革新的な概念を導入し、モデル収束に対するオーダーペナルティの影響を効果的に排除する。
論文参考訳（メタデータ） (2023-10-23T15:19:24Z)
Point-TTA: Test-Time Adaptation for Point Cloud Registration Using Multitask Meta-Auxiliary Learning [17.980649681325406]
我々は、ポイントクラウド登録(PCR)のための新しいテスト時間適応フレームワークであるPoint-TTAを提案する。我々のモデルは、テストデータの事前の知識を必要とせずに、テスト時に目に見えない分布に適応することができる。訓練中は, 補助タスクによる適応モデルにより主タスクの精度が向上するように, メタ補助学習アプローチを用いて訓練を行う。
論文参考訳（メタデータ） (2023-08-31T06:32:11Z)
USB: A Unified Summarization Benchmark Across Tasks and Domains [68.82726887802856]
ウィキペディア由来のベンチマークを導入し、クラウドソースアノテーションの豊富なセットを補完し、8ドルの相互関連タスクをサポートする。このベンチマークで様々な手法を比較し、複数のタスクにおいて、中程度の大きさの微調整されたモデルが、より大きな数発の言語モデルよりも一貫して優れていることを発見した。
論文参考訳（メタデータ） (2023-05-23T17:39:54Z)
Test-Time Adaptation with Perturbation Consistency Learning [32.58879780726279]
そこで本研究では, 分布変化のあるサンプルに対して, 安定な予測を行うための簡易なテスト時間適応手法を提案する。提案手法は,強力なPLMバックボーンよりも推論時間が少なく,高い,あるいは同等の性能を実現することができる。
論文参考訳（メタデータ） (2023-04-25T12:29:22Z)
How Does In-Context Learning Help Prompt Tuning? [55.78535874154915]
微調整された大きな言語モデルは、急速に拡大するスケールのために、ますます実用的ではないものになりつつある。これはプロンプトチューニング(PT)のようなパラメータ効率のよい適応手法の使用を動機付け、凍ったモデルに少数のチューナブルな埋め込みを追加する。近年,Singhalら (2022) はPTとICLを組み合わせた命令プロンプトチューニング (IPT) を提案している。
論文参考訳（メタデータ） (2023-02-22T17:45:12Z)
Improving Pre-trained Language Model Fine-tuning with Noise Stability Regularization [94.4409074435894]
本稿では,LNSR(Layerwise Noise Stability Regularization)という,新規かつ効果的な微調整フレームワークを提案する。具体的には、標準ガウス雑音を注入し、微調整モデルの隠れ表現を正規化することを提案する。提案手法は,L2-SP,Mixout,SMARTなど他の最先端アルゴリズムよりも優れていることを示す。
論文参考訳（メタデータ） (2022-06-12T04:42:49Z)
Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than In-Context Learning [81.3514358542452]
ICL (Few-shot in-context Learning) は、予測を行うたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。パラメータ効率の良い微調整は、モデルの新たなタスクの実行を可能にするために、小さなパラメータセットをトレーニングする、代替パラダイムを提供する。本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
論文参考訳（メタデータ） (2022-05-11T17:10:41Z)
Self-critical Sequence Training for Automatic Speech Recognition [25.06635361326706]
本稿では,自己臨界シーケンストレーニング(SCST)と呼ばれる最適化手法を提案する。強化学習(RL)に基づく手法として、SCSTはトレーニング基準とWERを関連付けるために、カスタマイズされた報酬関数を利用する。その結果,提案したSCSTは,WERの基準値に対して,それぞれ8.7%,7.8%の相対的な改善が得られた。
論文参考訳（メタデータ） (2022-04-13T09:13:32Z)
SUPERB-SG: Enhanced Speech processing Universal PERformance Benchmark for Semantic and Generative Capabilities [76.97949110580703]
各種音声タスクの事前学習モデルを評価するための新しいベンチマークであるSUPERB-SGを紹介する。データドメインのシフトの下で、事前訓練されたモデルによって学習された表現の堅牢性をテストするために、軽量な方法論を使用します。また,SUPERB-SGのタスク多様性とタスク監督の限定が,モデル表現の一般化性を評価する効果的な方法であることを示す。
論文参考訳（メタデータ） (2022-03-14T04:26:40Z)
Avoiding Inference Heuristics in Few-shot Prompt-based Finetuning [57.4036085386653]
文ペア分類タスクのプロンプトベースモデルでは,語彙重なりに基づく推論の一般的な落とし穴が依然として残っていることを示す。そこで,プレトレーニングウェイトを保存する正規化を加えることは,この破壊的な微調整の傾向を緩和するのに有効であることを示す。
論文参考訳（メタデータ） (2021-09-09T10:10:29Z)
NoiER: An Approach for Training more Reliable Fine-TunedDownstream Task Models [54.184609286094044]
補助モデルと付加データなしで問題を解くための学習パラダイムとして,ノイズエントロピー正規化(NoiER)を提案する。提案手法は,従来の微調整モデルと比較して平均55%改善した。
論文参考訳（メタデータ） (2021-08-29T06:58:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。