論文の概要: The Surprising Effectiveness of Test-Time Training for Abstract Reasoning
- arxiv url: http://arxiv.org/abs/2411.07279v1
- Date: Mon, 11 Nov 2024 18:59:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-13 13:19:29.271531
- Title: The Surprising Effectiveness of Test-Time Training for Abstract Reasoning
- Title(参考訳): 抽象推論におけるテスト時間トレーニングのサプライズ効果
- Authors: Ekin Akyürek, Mehul Damani, Linlu Qiu, Han Guo, Yoon Kim, Jacob Andreas,
- Abstract要約: モデル推論能力向上のためのメカニズムとして,テストタイムトレーニング(TTT)の有効性を検討する。
TTTはARCタスクのパフォーマンスを大幅に改善し、ベースとなる微調整モデルと比較して最大6倍の精度向上を実現した。
本研究は,ニューラルネットワークモデルにおける抽象的推論改善の道筋として,明示的な記号探索が唯一の道ではないことを示唆している。
- 参考スコア(独自算出の注目度): 64.36534512742736
- License:
- Abstract: Language models have shown impressive performance on tasks within their training distribution, but often struggle with novel problems requiring complex reasoning. We investigate the effectiveness of test-time training (TTT) -- updating model parameters temporarily during inference using a loss derived from input data -- as a mechanism for improving models' reasoning capabilities, using the Abstraction and Reasoning Corpus (ARC) as a benchmark. Through systematic experimentation, we identify three crucial components for successful TTT: (1) initial finetuning on similar tasks (2) auxiliary task format and augmentations (3) per-instance training. TTT significantly improves performance on ARC tasks, achieving up to 6x improvement in accuracy compared to base fine-tuned models; applying TTT to an 8B-parameter language model, we achieve 53% accuracy on the ARC's public validation set, improving the state-of-the-art by nearly 25% for public and purely neural approaches. By ensembling our method with recent program generation approaches, we get SoTA public validation accuracy of 61.9%, matching the average human score. Our findings suggest that explicit symbolic search is not the only path to improved abstract reasoning in neural language models; additional test-time applied to continued training on few-shot examples can also be extremely effective.
- Abstract(参考訳): 言語モデルは、トレーニングディストリビューション内のタスクで顕著なパフォーマンスを示してきたが、しばしば複雑な推論を必要とする新しい問題に悩まされている。
本研究では,モデル推論能力向上のメカニズムとして,TTT(Test-time Training)の有効性について,ARC(Abstraction and Reasoning Corpus)をベンチマークとして検討した。
組織的な実験を通じて,TTTを成功させるためには,(1)類似タスクの初期微調整,(2)補助タスク形式と強化(3)インスタンスごとのトレーニングの3つの重要な要素を同定する。
TTTはARCタスクの性能を大幅に改善し,基本微調整モデルと比較して最大6倍の精度向上を実現し,TTTを8Bパラメータ言語モデルに適用し,ARCの公開検証セット上で53%の精度を実現した。
提案手法を最近のプログラム生成手法と組み合わせることで,平均的な人的得点と一致して,SoTAの検証精度61.9%を得ることができた。
本研究は,ニューラルネットワークモデルにおける抽象的推論改善の道筋として,明示的記号探索が唯一の方法ではないことを示唆する。
関連論文リスト
- Towards Robust Extractive Question Answering Models: Rethinking the Training Methodology [0.34530027457862006]
従来の研究によると、既存のモデルは、答えがつかない質問を含むEQAデータセットでトレーニングされた場合、ロバスト性の著しい欠如を示している。
提案手法は,EQA問題に対する新たな損失関数を含み,多数のEQAデータセットに存在する暗黙の仮定に挑戦する。
本モデルでは,2種類の敵攻撃に対するロバスト性が有意に向上し,デフォルトモデルに比べて性能は3分の1程度低下した。
論文 参考訳(メタデータ) (2024-09-29T20:35:57Z) - Efficient Grammatical Error Correction Via Multi-Task Training and
Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。
我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。
トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文 参考訳(メタデータ) (2023-11-20T14:50:12Z) - L3 Ensembles: Lifelong Learning Approach for Ensemble of Foundational
Language Models [15.726224465017596]
本稿では、未知のデータから意味のある表現を抽出し、構造化知識ベースを構築することに焦点を当てたアプローチを提案する。
我々は,GLUE や SuperGLUE などのベンチマークを含む様々な NLP タスクの有効性を検証する実験を行った。
提案したL3アンサンブル法は、細調整されたFLMと比較してモデル精度を4%36%向上させる。
論文 参考訳(メタデータ) (2023-11-11T06:59:50Z) - Efficient Data Learning for Open Information Extraction with Pre-trained Language Models [15.554865537872919]
オープン情報抽出(OpenIE)は自然言語処理の基本的な課題である。
本稿では,OpenIEのタスク形式をT5モデルの事前学習タスク形式に変換する新しいフレームワークであるOK-IEを紹介する。
さらに、モデル出力のシーケンスを制御するためのアンカーの革新的な概念を導入し、モデル収束に対するオーダーペナルティの影響を効果的に排除する。
論文 参考訳(メタデータ) (2023-10-23T15:19:24Z) - Point-TTA: Test-Time Adaptation for Point Cloud Registration Using
Multitask Meta-Auxiliary Learning [17.980649681325406]
我々は、ポイントクラウド登録(PCR)のための新しいテスト時間適応フレームワークであるPoint-TTAを提案する。
我々のモデルは、テストデータの事前の知識を必要とせずに、テスト時に目に見えない分布に適応することができる。
訓練中は, 補助タスクによる適応モデルにより主タスクの精度が向上するように, メタ補助学習アプローチを用いて訓練を行う。
論文 参考訳(メタデータ) (2023-08-31T06:32:11Z) - Improving Pre-trained Language Model Fine-tuning with Noise Stability
Regularization [94.4409074435894]
本稿では,LNSR(Layerwise Noise Stability Regularization)という,新規かつ効果的な微調整フレームワークを提案する。
具体的には、標準ガウス雑音を注入し、微調整モデルの隠れ表現を正規化することを提案する。
提案手法は,L2-SP,Mixout,SMARTなど他の最先端アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-12T04:42:49Z) - Self-critical Sequence Training for Automatic Speech Recognition [25.06635361326706]
本稿では,自己臨界シーケンストレーニング(SCST)と呼ばれる最適化手法を提案する。
強化学習(RL)に基づく手法として、SCSTはトレーニング基準とWERを関連付けるために、カスタマイズされた報酬関数を利用する。
その結果,提案したSCSTは,WERの基準値に対して,それぞれ8.7%,7.8%の相対的な改善が得られた。
論文 参考訳(メタデータ) (2022-04-13T09:13:32Z) - SUPERB-SG: Enhanced Speech processing Universal PERformance Benchmark
for Semantic and Generative Capabilities [76.97949110580703]
各種音声タスクの事前学習モデルを評価するための新しいベンチマークであるSUPERB-SGを紹介する。
データドメインのシフトの下で、事前訓練されたモデルによって学習された表現の堅牢性をテストするために、軽量な方法論を使用します。
また,SUPERB-SGのタスク多様性とタスク監督の限定が,モデル表現の一般化性を評価する効果的な方法であることを示す。
論文 参考訳(メタデータ) (2022-03-14T04:26:40Z) - Avoiding Inference Heuristics in Few-shot Prompt-based Finetuning [57.4036085386653]
文ペア分類タスクのプロンプトベースモデルでは,語彙重なりに基づく推論の一般的な落とし穴が依然として残っていることを示す。
そこで,プレトレーニングウェイトを保存する正規化を加えることは,この破壊的な微調整の傾向を緩和するのに有効であることを示す。
論文 参考訳(メタデータ) (2021-09-09T10:10:29Z) - NoiER: An Approach for Training more Reliable Fine-TunedDownstream Task
Models [54.184609286094044]
補助モデルと付加データなしで問題を解くための学習パラダイムとして,ノイズエントロピー正規化(NoiER)を提案する。
提案手法は,従来の微調整モデルと比較して平均55%改善した。
論文 参考訳(メタデータ) (2021-08-29T06:58:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。