論文の概要: REPOT: Recoverable Program-of-Thought via Checkpoint Repair
- arxiv url: http://arxiv.org/abs/2605.30052v1
- Date: Thu, 28 May 2026 15:03:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.41448
- Title: REPOT: Recoverable Program-of-Thought via Checkpoint Repair
- Title(参考訳): REPOT: チェックポイント修復によるリカバリ可能なプログラム
- Authors: Parsa Mazaheri,
- Abstract要約: One-shot Program-of-Thought (PoT) はプリミティブアクションプランを印刷するPythonプログラムを出力する。
決定論的に検証されたリプレイであるRePoTを紹介します。
RePoTは4つの閉じたモデル構成でPoTを+3から+11ppで打ち負かす。
- 参考スコア(独自算出の注目度): 0.03038255798961237
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One-shot Program-of-Thought (PoT) emits a Python program that prints a primitive-action plan; a single invalid action silently invalidates the trajectory. We introduce RePoT (Recoverable PoT): a deterministic verified replay that walks the plan through the environment to its first invalid transition, then one LLM call that resumes from the verified prefix. RePoT costs at most one extra LLM call on the ~14% of problems where PoT fails. RePoT beats PoT by +3 to +11pp across four closed-model configurations on PuzzleZoo-775 and peaks at 96.9% vs 86.3% on gpt-5.4-mini-medium; against the matched-budget PoT-retry baseline, RePoT wins decisively on Gemini (+3.8pp, 95% CI [+2.2,+5.4]), is within sampling noise on GPT-medium and Claude, and loses on GPT-mini -- a capability-scaling pattern we begin to address with Adaptive RePoT, a rule-based dispatcher that routes between suffix repair and a fresh PoT retry based on verified-prefix length (preliminary). We replicate on PlanBench Blocksworld (+1.1 to +11.4pp) and on four open-weights models (+3.3 to +20.0pp on three of four). On Derail-550, our controlled recovery benchmark, every condition with access to checkpoint information clears >=30% on GPT-medium and >=70% on Gemini, vs <=3.1% for error-only feedback -- showing that checkpoint information, not the specific verified-prefix tail, is the load-bearing recovery signal.
- Abstract(参考訳): One-shot Program-of-Thought (PoT)はプリミティブアクションプランを印刷するPythonプログラムを出力する。
RePoT(Recoverable PoT: Recoverable PoT): 決定論的に検証されたリプレイで、環境を通り抜けて最初の無効な遷移へと移動し、検証されたプレフィックスから再開する1つのLCMコールを導入する。
RePoTは、PoTが失敗する問題の約14%に対して、少なくとも1つのLCMコールのコストがかかる。
RePoTはPuzzleZoo-775の4つのクローズドモデル構成を+3から+11ppで破り、gpt-5.4-mini-mediumで96.9%対86.3%のピークとなる。一致した予算のPoTリトライベースラインに対して、RePoTはGemini(+3.8pp, 95% CI [+2.2,+5.4])で決定的に勝利する。
PlanBench Blocksworld (+1.1 - +11.4pp) と4つのオープンウェイトモデル (4つのうち3つで+3.3 - +20.0pp) で複製する。
制御されたリカバリベンチマークであるDerail-550では、チェックポイント情報にアクセスするすべての条件が、GPT-mediumで >=30%、Geminiで >=70%、エラーのみのフィードバックで <==3.1% である。
関連論文リスト
- AgentModernize: Preserving Business Logic in Legacy Modernization with Multi-Agent LLMs and Behavioral Specification Graphs [0.0]
本稿では,モダナイゼーションを行動保存問題として扱うフレームワークであるAgentModernizeを提案する。
4つの専門エージェントが抽出、仕様、コード生成、バリデーションを処理する。
Behavioral Specification Graphは、ゴールドスタンダードルールの91.2%をキャプチャし、ボトルネックは抽出ではなくコード生成であることを確認した。
論文 参考訳(メタデータ) (2026-05-17T16:39:48Z) - Perturbation Dose Responses in Recursive LLM Loops: Raw Switching, Stochastic Floors, and Persistent Escape under Append, Replace, and Dialog Updates [0.0]
我々は、他のどこかで落ち着いたループを動かすのに、注入されたテキストがどれだけ必要か、そしてそれが継続するかどうかを調査する。
12,000文字の尾クリップの下では、目的地とコヒーレントな持続性台地が16%近く、ソースとバスンの脱出は36%近くで400。
4段階のファルシフィケーション・バッテリは、高線量のデスティネーションコヒーレントディップを有限水平、エンドポイント定義感度の特徴として再キャストする。
論文 参考訳(メタデータ) (2026-05-04T05:16:43Z) - Universal Transformers Need Memory: Depth-State Trade-offs in Adaptive Recursive Reasoning [0.0]
本研究では,SudokuExtreme上の単一ブロックユニバーサルトランス (UT) のスクラッチパッドとして学習したメモリトークンについて検討した。
メモリトークンは、テストされたすべての構成で、メモリトークンのない構成は、非自明なパフォーマンスです。
論文 参考訳(メタデータ) (2026-04-23T18:30:01Z) - Reasoning Topology Matters: Network-of-Thought for Complex Reasoning Tasks [5.523132953818281]
CoT(Chain-of-Thought)は線形トレースを生成し、ToT(Tree-of-Thought)は分岐探索を実行する。
タイプノードとエッジを持つ有向グラフとして推論をモデル化するフレームワークであるNetwork-of-Thought (NoT)を提案する。
論文 参考訳(メタデータ) (2026-03-21T09:32:28Z) - Squeeze the Soaked Sponge: Efficient Off-policy Reinforcement Finetuning for Large Language Model [56.92219181993453]
本稿では,PPOやGRPOなどのオンラインRFT手法をオフ・ポリティクスデータに活用するために,Reincarnating Mix-policy Proximal Policy Gradient (ReMix)を提案する。
ReMix は,(1) 効率的なトレーニングのための更新データ(UTD)比が増大した混成政策勾配,(2) 安定性と柔軟性のトレードオフのバランスをとるためのKL-Convex 政策制約,(3) 効率的な早期学習から安定した改善へのシームレスな移行を実現するための政策再編成の3つの主要な構成要素から構成される。
論文 参考訳(メタデータ) (2025-07-09T14:29:45Z) - InstructRetro: Instruction Tuning post Retrieval-Augmented Pretraining [47.60376031955207]
Retro 48Bは検索で事前訓練された最大の大規模言語モデルである。
InstructRetroは、幅広いゼロショットタスクでチューニングされたGPTよりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-10-11T17:59:05Z) - The CoT Collection: Improving Zero-shot and Few-shot Learning of
Language Models via Chain-of-Thought Fine-Tuning [50.75534397373867]
100B未満のパラメータを持つ言語モデル(LM)は、チェーン・オブ・ソート(CoT)の推論では不十分であることが知られている。
本研究は,CoTの有理量を用いた命令チューニングにより,段階的推論機能を備えた小型LMを実現することを目的とする。
論文 参考訳(メタデータ) (2023-05-23T13:14:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。