論文の概要: Test-time Adaptation of Tiny Recursive Models
- arxiv url: http://arxiv.org/abs/2511.02886v1
- Date: Tue, 04 Nov 2025 13:47:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 18:19:32.193717
- Title: Test-time Adaptation of Tiny Recursive Models
- Title(参考訳): Tiny Recursive Modelの試行時間適応
- Authors: Ronan Killian McGovern,
- Abstract要約: 本稿では,計算限界内での競合タスクを効率的に微調整できることを示す。
具体的には、4xH100 SXMで48時間以上700k以上のステップで1,280の公開タスクで事前トレーニングを行い、公開評価セットで10%のスコアを得た。
そのモデルは、セミプライベートな評価タスクで6.67%に達するために、競技中にわずか12,500の勾配ステップで訓練された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prior to the close of the 2025 ARC Prize competition, the leading open source approach - known as TRM, or Tiny Recursive Models - involved training a 7M parameter recursive neural network on augmented variants of ARC tasks. That approach scored approximately 7.8% on the public ARC AGI II evaluation set, but required a level of compute far in excess of what is allowed during the competition. This paper shows that, by starting from a tiny recursive model that has been pre-trained on public ARC tasks, one can efficiently fine-tune on competition tasks within the allowed compute limits. Specifically, a model was pre-trained on 1,280 public tasks for 700k+ optimizer steps over 48 hours on 4xH100 SXM GPUs to obtain a ~10% score on the public evaluation set. That model was then post-trained in just 12,500 gradient steps during the competition to reach a score of 6.67% on semi-private evaluation tasks. Notably, such post-training performance is achieved by full-fine tuning of the tiny model, not LoRA fine-tuning or fine-tuning of task embeddings alone.
- Abstract(参考訳): 2025年のARC Prizeコンペティションが終了する前、主要なオープンソースアプローチであるTRM(Tiny Recursive Models)は、ARCタスクの拡張版に対して、7Mパラメータ再帰ニューラルネットワークをトレーニングした。
この手法はパブリックなARC AGI II評価セットで約7.8%のスコアを得たが、競争中に許容される値を超える計算のレベルを必要とした。
本稿では、ARCタスクで事前訓練された小さな再帰モデルから始めることで、許容された計算限界内での競合タスクを効率的に微調整できることを示す。
具体的には、4xH100 SXM GPUで48時間以上、700k以上のオプティマイザステップで1,280の公開タスクで事前トレーニングを行い、公開評価セットで約10%のスコアを得た。
そのモデルは、セミプライベートな評価タスクで6.67%に達するために、競技中にわずか12,500の勾配ステップで訓練された。
特に、このような後処理性能は、LoRAの微調整やタスク埋め込みのみの微調整ではなく、小さなモデルの完全な微調整によって達成される。
関連論文リスト
- Exploring the Hierarchical Reasoning Model for Small Natural-Image Classification Without Augmentation [51.56484100374058]
MNIST、CIFAR-10、CIFAR-100で意図的に生の条件下で評価される。
拡張性のない小型画像分類では、HRMは単純な畳み込みアーキテクチャと競合するものではないと結論付けている。
論文 参考訳(メタデータ) (2025-10-04T01:22:41Z) - Confidence Is All You Need: Few-Shot RL Fine-Tuning of Language Models [43.98994504606355]
大規模言語モデル(LLM)のための自己信頼による強化学習(RLSC)を提案する。
RLSCはモデル自身の自信を報奨信号として使用し、ラベル、選好モデル、報酬工学の必要性を排除している。
論文 参考訳(メタデータ) (2025-06-05T19:55:15Z) - Kimi k1.5: Scaling Reinforcement Learning with LLMs [84.95584393629998]
我々は、強化学習で訓練された最新のマルチモーダル言語モデル、Kimi k1.5の訓練実践について報告する。
長いコンテキストスケーリングと改善されたポリシー最適化手法が、我々のアプローチの鍵となる要素である。
本システムは,複数のベンチマークやモダリティに対して,最先端の推論性能を実現する。
論文 参考訳(メタデータ) (2025-01-22T02:48:14Z) - H-ARC: A Robust Estimate of Human Performance on the Abstraction and Reasoning Corpus Benchmark [7.840781070208872]
2019年以降、既存の人工知能手法による課題について、限られた進展が観察されている。
これまでの研究は、ARCベンチマークで人間がいかにうまくタスクを解くことができるかを調査した。
我々は,400のトレーニングと400のタスクの完全なセットに基づいて1729人の人間を評価することによって,より堅牢な人的パフォーマンスの推定値を得る。
論文 参考訳(メタデータ) (2024-09-02T17:11:32Z) - Step-DPO: Step-wise Preference Optimization for Long-chain Reasoning of LLMs [54.05511925104712]
本稿では,Step-DPOと呼ばれるシンプルで効果的でデータ効率のよい手法を提案する。
Step-DPOは、個々の推論ステップを、論理的に回答を評価するのではなく、優先最適化の単位として扱う。
以上の結果から,70B パラメータ以上のモデルでは,10K の選好データペアと500 Step-DPO トレーニングステップ以下では,MATH の精度が約3%向上する可能性が示唆された。
論文 参考訳(メタデータ) (2024-06-26T17:43:06Z) - Biased Self-supervised learning for ASR [31.701098864180256]
本稿では,特定のタスクに対して自己指導型学習をバイアスする手法を提案する。
中心となる考え方は、ターゲットシーケンスを得るために使用されるモデルをわずかに微調整することである。
ストリーミングモデルの場合、事前学習のアプローチは単語エラー率を44.1%削減する。
論文 参考訳(メタデータ) (2022-11-04T15:57:59Z) - The ReturnZero System for VoxCeleb Speaker Recognition Challenge 2022 [0.0]
RTZR VoxCeleb Speaker Recognition Challenge 2022 (VoxSRC-22) の上位候補について述べる。
最上位のシステムは7つのモデルの融合であり、3種類のモデルアーキテクチャを含んでいる。
最後の提出はVoxSRC22テストセットで0.165 DCFと2.912% EERを達成した。
論文 参考訳(メタデータ) (2022-09-21T06:54:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。