論文の概要: One Step Forward and K Steps Back: Better Reasoning with Denoising Recursion Models
- arxiv url: http://arxiv.org/abs/2604.18839v1
- Date: Mon, 20 Apr 2026 21:06:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.495471
- Title: One Step Forward and K Steps Back: Better Reasoning with Denoising Recursion Models
- Title(参考訳): 一歩前進して一歩後退する - 再帰モデルのデノレーションによる推論の改善
- Authors: Chris Cameron, Wangzheng Wang, Nikita Ivanov, Ashmita Bhattacharyya, Didier Chételat, Yingxue Zhang,
- Abstract要約: Denoising Recursion Modelsは、データをノイズで汚すが、複数のステップで破損を逆転させるようモデルを訓練する手法である。
この戦略は、中間状態の抽出可能なカリキュラムを提供すると同時に、テストとの整合性を向上し、非グレーディで前向きな世代にインセンティブを与える。
この手法はARC-AGI上のTiny Recursion Modelよりも優れており、最近はブレークスルー性能を達成している。
- 参考スコア(独自算出の注目度): 4.903188186588148
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Looped transformers scale computational depth without increasing parameter count by repeatedly applying a shared transformer block and can be used for iterative refinement, where each loop rewrites a full fixed-size prediction in parallel. On difficult problems, such as those that require search-like computation, reaching a highly structured solution starting from noise can require long refinement trajectories. Learning such trajectories is challenging when training specifies only the target solution and provides no supervision over the intermediate refinement path. Diffusion models tackle this issue by corrupting data with varying magnitudes of noise and training the model to reverse it in a \textit{single step}. However, this process misaligns training and testing behaviour. We introduce Denoising Recursion Models, a method that similarly corrupts data with noise but trains the model to reverse the corruption over \textit{multiple} recursive steps. This strategy provides a tractable curriculum of intermediate states, while better aligning training with testing and incentivizing non-greedy, forward-looking generation. Through extensive experiments, we show this approach outperforms the Tiny Recursion Model (TRM) on ARC-AGI, where it recently achieved breakthrough performance.
- Abstract(参考訳): ループ変換器は、共用変圧器ブロックを繰り返し適用することでパラメータ数を増やすことなく計算深度を拡大し、各ループが完全な固定サイズ予測を並列に書き直す反復精製に使用できる。
探索のような計算を必要とするような難しい問題では、ノイズから始まる高度に構造化された解に到達するには、長い洗練された軌道が必要となる。
このような軌道の学習は、トレーニングが対象のソリューションのみを指定し、中間の洗練パスを監督しない場合、困難である。
拡散モデルは、様々な大きさのノイズでデータを破損させ、それを「textit{single step}」で逆転するようにモデルを訓練することでこの問題に対処する。
しかし、このプロセスはトレーニングやテストの振る舞いを誤ったものにします。
Denoising Recursion Models(デノナイジング・リキュレーション・モデル)は、同様にノイズでデータを破損させる手法であるが、モデルにリキュレイティブ・ステップであるtextit{multiple} を逆転させるよう訓練する手法である。
この戦略は、中間状態の抽出可能なカリキュラムを提供すると同時に、テストとトレーニングの整合性を改善し、非グレードで前向きな世代にインセンティブを与える。
大規模な実験を通じて,この手法はARC-AGI上のTiny Recursion Model(TRM)より優れていることを示す。
関連論文リスト
- Exploiting the Exact Denoising Posterior Score in Training-Free Guidance of Diffusion Models [0.0]
Diffusion Posterior Smpling (DPS) に基づく一般的な手法のクラスは、難解な後楽譜関数を直接近似しようとする。
非条件のスコア関数で抽出可能なタスクを純粋に分解するための、正確な後部スコアに対する新しい表現を提案する。
これらのステップサイズは、色付け、ランダムな塗布、超解像などの関連する逆問題に転送可能であることを実証する。
論文 参考訳(メタデータ) (2025-06-16T15:43:28Z) - Test-Time Scaling of Diffusion Models via Noise Trajectory Search [10.8507840358202]
我々は,デミキシングの中間段階において,極端時間と局所的なエクスプロイトをグローバルに探索する$epsilon$-greedy検索アルゴリズムを導入する。
EDMと安定拡散の実験は、クラス条件/テキスト-画像生成のための最先端スコアを明らかにする。
論文 参考訳(メタデータ) (2025-05-24T19:13:29Z) - Half-order Fine-Tuning for Diffusion Model: A Recursive Likelihood Ratio Optimizer [16.103949557802988]
確率拡散モデル(DM)は、連鎖構造を通して推論することで内容を生成する。
現代の手法は強化学習 (RL) と切り離されたバックプロパゲーション (BP) に基づいている
DMのためのRLR(Recursive Likelihood Ratio)ファインチューニングパラダイムを提案する。
論文 参考訳(メタデータ) (2025-02-02T03:00:26Z) - Truncated Consistency Models [57.50243901368328]
トレーニング一貫性モデルは、PF ODE 軌道に沿ったすべての中間点を対応するエンドポイントにマッピングする学習を必要とする。
このトレーニングパラダイムが一貫性モデルの1ステップ生成性能を制限することを実証的に見出した。
整合性関数の新しいパラメータ化と2段階の訓練手順を提案し,時間外学習が崩壊することを防ぐ。
論文 参考訳(メタデータ) (2024-10-18T22:38:08Z) - Improving Diffusion Inverse Problem Solving with Decoupled Noise Annealing [84.97865583302244]
Decoupled Annealing Posterior Smpling (DAPS) と呼ばれる新しい手法を提案する。
DAPSは、新しいノイズアニール法に依存している。
DAPSは複数の画像復元作業において,サンプル品質と安定性を著しく向上することを示した。
論文 参考訳(メタデータ) (2024-07-01T17:59:23Z) - An Efficient Rehearsal Scheme for Catastrophic Forgetting Mitigation during Multi-stage Fine-tuning [55.467047686093025]
このような忘れを緩和するための一般的なアプローチは、微調整中に以前のタスクからサンプルをリハーサルすることである。
側方損傷のリハーサルを優先するサンプリング手法である textttbf mix-cd を提案する。
我々の手法は計算効率が高く、実装が容易で、計算制約のある設定においていくつかの主要な連続学習手法より優れています。
論文 参考訳(メタデータ) (2024-02-12T22:32:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。