論文の概要: Tiny Recursive Models on ARC-AGI-1: Inductive Biases, Identity Conditioning, and Test-Time Compute
- arxiv url: http://arxiv.org/abs/2512.11847v1
- Date: Thu, 04 Dec 2025 06:20:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-21 14:22:08.720712
- Title: Tiny Recursive Models on ARC-AGI-1: Inductive Biases, Identity Conditioning, and Test-Time Compute
- Title(参考訳): ARC-AGI-1におけるTiny Recursive Models on ARC-AGI-1: Inductive Biases, Identity Conditioning, Test-Time Computes
- Authors: Antonio Roye-Azar, Santiago Vargas-Naranjo, Dhruv Ghai, Nithin Balamurugan, Rayan Amir,
- Abstract要約: 我々はARC-AGI-1のARC Prize TRMチェックポイントを実験的に分析した。
テストタイムの増大と多数投票の合理化が報告された性能のかなりの部分を占めていることを示す。
また, TRMとLlama 3 8BのQLoRAファインチューンを標準ARC-AGI-1上で比較した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tiny Recursive Models (TRM) were proposed as a parameter-efficient alternative to large language models for solving Abstraction and Reasoning Corpus (ARC) style tasks. The original work reports strong performance and suggests that recursive latent updates enable non-trivial reasoning, but it remains unclear how much of this performance stems from architecture, test-time compute, or task-specific priors. In this technical note, we empirically analyze the ARC Prize TRM checkpoint on ARC-AGI-1 and report four behavioral findings and an efficiency comparison. First, we show that test-time augmentation and majority-vote ensembling account for a substantial fraction of reported performance: the 1000-sample voting pipeline improves Pass@1 by about 11 percentage points over single-pass canonical inference. Second, a puzzle-identity ablation reveals strict dependence on task identifiers: replacing the correct puzzle ID with a blank or random token yields zero accuracy. Third, a recursion trajectory analysis shows that most of the final accuracy is achieved at the first recursion step and that performance saturates after few latent updates, indicating shallow effective recursion. Fourth, early-stage training experiments under canonical versus heavy augmentation regimes suggest that heavy augmentation broadens the distribution of candidate solutions and improves multi-sample success. Finally, we compare TRM with a naive QLoRA fine-tune of Llama 3 8B on canonical ARC-AGI-1, finding that TRM's non-autoregressive design achieves much higher throughput and substantially lower memory usage in this setting. Overall, TRM's ARC-AGI-1 performance appears to arise from an interaction between efficiency, task-specific conditioning, and aggressive test-time compute rather than deep internal reasoning.
- Abstract(参考訳): 抽象・推論コーパス(ARC)スタイルのタスクを解くために,大規模な言語モデルに代わるパラメータ効率の代替として,Tiny Recursive Models (TRM) が提案された。
元々の作業では、強いパフォーマンスを報告し、再帰的な潜伏更新が非自明な推論を可能にすることを示唆していたが、このパフォーマンスのどれ程がアーキテクチャ、テスト時間計算、タスク固有の前例に起因するのかは定かではない。
本稿では,ARC-AGI-1におけるARC Prize TRMチェックポイントを実証的に分析し,4つの行動所見と効率比較を報告する。
まず、1000サンプルの投票パイプラインは、単一パスの標準推論よりも約11パーセント改善します。
第二に、パズル・アイデンティティ・アブレーションはタスク識別子への厳密な依存を明らかにし、正しいパズルIDを空白またはランダムなトークンに置き換えると精度がゼロになる。
第3に、再帰軌跡解析は、最終精度の大部分が第1の再帰ステップで達成され、潜伏更新のわずかな後に性能が飽和し、浅い有効再帰を示すことを示している。
第4に、正準および重増重体制下での早期訓練実験は、重増重が候補解の分布を拡大し、マルチサンプルの成功を改善することを示唆している。
最後に, TRM と ARC-AGI-1 上の Llama 3 8B の単純な QLoRA ファインチューンを比較し, TRM の非自己回帰設計によりスループットが向上し, メモリ使用量が大幅に低下することを確認した。
全体として、TRMのARC-AGI-1性能は、内部の深い推論ではなく、効率性、タスク固有の条件付け、アグレッシブなテスト時間計算との相互作用から生じているようである。
関連論文リスト
- Efficient Reasoning via Reward Model [24.105621725286497]
検証可能な報酬(RLVR)を用いた強化学習は、大規模言語モデル(LLM)の推論能力を高めることが示されている。
DeepSeek-R1 や OpenAI o1 のような LRM は、過剰または無関係な推論ステップを含む冗長な応答をしばしば生成する。
本稿では,結果報酬と簡潔度スコアとの間に明確な依存性を有する,CRF(Conciseness Reward Function)という新たな報酬定式化を導入する。
論文 参考訳(メタデータ) (2025-11-12T09:51:07Z) - TeaRAG: A Token-Efficient Agentic Retrieval-Augmented Generation Framework [62.66056331998838]
TeaRAGは、検索内容と推論ステップの両方を圧縮できるトークン効率のエージェントRAGフレームワークである。
報奨関数は,過剰な推論ステップをペナルティ化しながら,知識マッチング機構によって知識満足度を評価する。
論文 参考訳(メタデータ) (2025-11-07T16:08:34Z) - RaCoT: Plug-and-Play Contrastive Example Generation Mechanism for Enhanced LLM Reasoning Reliability [12.67288560758937]
本稿では,RaCoT(Retrieval-aware Contrastive-of-Thought)を提案する。
RaCoTは、解答の発散を決定する重要な詳細に積極的に焦点を合わせるようモデルに誘導する。
論文 参考訳(メタデータ) (2025-10-26T15:06:44Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - SEAL: Steerable Reasoning Calibration of Large Language Models for Free [58.931194824519935]
大規模言語モデル(LLM)は、拡張チェーン・オブ・ソート(CoT)推論機構を通じて複雑な推論タスクに魅力的な機能を示した。
最近の研究では、CoT推論トレースにかなりの冗長性が示されており、これはモデル性能に悪影響を及ぼす。
我々は,CoTプロセスをシームレスに校正し,高い効率性を示しながら精度を向上する,トレーニング不要なアプローチであるSEALを紹介した。
論文 参考訳(メタデータ) (2025-04-07T02:42:07Z) - Chain-of-Retrieval Augmented Generation [91.02950964802454]
本稿では,o1-like RAGモデルを学習し,最終回答を生成する前に段階的に関連情報を抽出・推論する手法を提案する。
提案手法であるCoRAGは,進化状態に基づいて動的にクエリを再構成する。
論文 参考訳(メタデータ) (2025-01-24T09:12:52Z) - An Efficiency Study for SPLADE Models [5.725475501578801]
本稿では,SPLADEモデルの効率向上に焦点をあてる。
本稿では、クエリのL1正規化、ドキュメント/エンコーダの分離、FLOPS正規化ミドルトレーニング、高速なクエリエンコーダの使用など、いくつかの手法を提案する。
論文 参考訳(メタデータ) (2022-07-08T11:42:05Z) - Hierarchical and Efficient Learning for Person Re-Identification [19.172946887940874]
階層的大域的, 部分的, 回復的特徴を複数の損失結合の監督の下で学習する, 階層的, 効率的なネットワーク(HENet)を提案する。
また,RPE (Random Polygon Erasing) と呼ばれる新しいデータセット拡張手法を提案する。
論文 参考訳(メタデータ) (2020-05-18T15:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。