Fugu-MT 論文翻訳(概要): CLEANER: Self-Purified Trajectories Boost Agentic Reinforcement Learning

論文の概要: CLEANER: Self-Purified Trajectories Boost Agentic Reinforcement Learning

arxiv url: http://arxiv.org/abs/2601.15141v1
Date: Wed, 21 Jan 2026 16:14:30 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-22 21:27:50.452721
Title: CLEANER: Self-Purified Trajectories Boost Agentic Reinforcement Learning
Title（参考訳）: Cleaner: 自己組織化軌道はエージェント強化学習を促進する
Authors: Tianshi Xu, Yuteng Chen, Meng Li,
Abstract要約: CLEANERは本質的な自己訂正機能を利用して、データ収集中にエラーに汚染されたコンテキストを除去する。類似性を考慮した適応ロールバック機構は、クリーンで清浄な軌道を自律的に構築する。その結果, 平均精度は6%, 3%, 5%であった。
参考スコア（独自算出の注目度）: 4.765206163164323
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Agentic Reinforcement Learning (RL) has empowered Large Language Models (LLMs) to utilize tools like Python interpreters for complex problem-solving. However, for parameter-constrained models (e.g., 4B--7B), the exploration phase is often plagued by frequent execution failures, creating noisy trajectories that hinder policy optimization. Under standard outcome-based reward settings, this noise leads to a critical credit assignment issue, where erroneous actions are inadvertently reinforced alongside successful outcomes. Existing mitigations face a dilemma: dense rewards often trigger reward hacking, while supersampling incurs prohibitive computational costs. To address these challenges, we propose CLEANER. Distinct from external filtering methods, CLEANER exploits the model's intrinsic self-correction capabilities to eliminate error-contaminated context directly during data collection. At its core, the Similarity-Aware Adaptive Rollback (SAAR) mechanism autonomously constructs clean, purified trajectories by retrospectively replacing failures with successful self-corrections. Based on semantic similarity, SAAR adaptively regulates replacement granularity from shallow execution repairs to deep reasoning substitutions. By training on these self-purified paths, the model internalizes correct reasoning patterns rather than error-recovery loops. Empirical results on AIME24/25, GPQA, and LiveCodeBench show average accuracy gains of 6%, 3%, and 5% over baselines. Notably, CLEANER matches state-of-the-art performance using only one-third of the training steps, highlighting trajectory purification as a scalable solution for efficient agentic RL. Our models and code are available at GitHub
Abstract（参考訳）: Agentic Reinforcement Learning (RL) は,Pythonインタプリタなどのツールを複雑な問題解決に活用するために,Large Language Models (LLM) の権限を付与した。しかし、パラメータ制約付きモデル(例: 4B--7B)では、探索フェーズは頻繁な実行障害に悩まされ、ポリシー最適化を妨げるノイズの多い軌道を生成する。標準的な結果に基づく報酬設定の下では、このノイズは重要なクレジット割り当て問題につながり、誤ったアクションは必然的に成功と並行して強化される。既存の軽減策はジレンマに直面している。密度の高い報酬はしばしば報酬のハッキングを引き起こすが、スーパーサンプリングは計算コストを禁止している。これらの課題に対処するため,我々はCLEANERを提案する。外部フィルタリング法とは違い、CLEANERは本質的な自己補正機能を利用して、データ収集中にエラーに汚染されたコンテキストを直接排除する。その中核にあるSimisity-Aware Adaptive Rollback (SAAR) メカニズムは、障害を振り返って自己補正に置き換えることで、クリーンで清浄な軌道を自律的に構築する。意味的類似性に基づいて、SAARは浅い実行修復から深い推論置換への置換粒度を適応的に規制する。これらの自己浄化経路のトレーニングにより、モデルは誤り回復ループではなく正しい推論パターンを内部化する。 AIME24/25,GPQA,LiveCodeBenchでは,平均精度6%,3%,5%がベースライン上で向上した。特に、CLEANERはトレーニングステップの3分の1だけを使用して最先端のパフォーマンスと一致し、効率的なエージェントRLのためのスケーラブルなソリューションとして軌道浄化を強調している。私たちのモデルとコードはGitHubで利用可能です。

関連論文リスト

Can Recommender Systems Teach Themselves? A Recursive Self-Improving Framework with Fidelity Control [82.30868101940068]
本稿では,外部データや教師モデルに依存することなく,モデルが自身のパフォーマンスをブートストラップするパラダイムを提案する。我々の理論的分析は、RSIRがデータ駆動型暗黙正則化器として機能し、最適化景観を円滑にしていることを示している。より小さなモデルであっても利点があり、弱いモデルはより強力なモデルに対して効果的なトレーニングカリキュラムを生成することができることを示す。
論文参考訳（メタデータ） (2026-02-17T15:31:32Z)
CVeDRL: An Efficient Code Verifier via Difficulty-aware Reinforcement Learning [57.24524263804788]
コード検証は、LLMベースのコード生成の検証後において重要な役割を果たす。既存の教師付き微調整手法は、データの不足、高い失敗率、推論効率の低下に悩まされている。機能的な報酬しか持たない単純RLは、難しいブランチやサンプルに対して効果的な単体テストを生成することができないことを示す。
論文参考訳（メタデータ） (2026-01-30T10:33:29Z)
Save the Good Prefix: Precise Error Penalization via Process-Supervised RL to Enhance LLM Reasoning [59.76691952347156]
強化学習(RL)は,大規模言語モデル(LLM)の推論能力向上のための強力なフレームワークとして登場した。既存のRLアプローチの多くは疎結果報酬に依存しており、部分的に成功した解では正しい中間段階を信用できない。本稿では、PRMを用いてRL中の最初のエラーをローカライズする検証済み事前修正ポリシー最適化(VPPO)を提案する。
論文参考訳（メタデータ） (2026-01-26T21:38:20Z)
Robust Tool Use via Fission-GRPO: Learning to Recover from Execution Errors [41.78467154106763]
本稿では,実行エラーをRLトレーニングループ内の修正監視に変換するフレームワークであるFission-GRPOを提案する。私たちのコアメカニズムは、微調整されたエラーシミュレータの診断フィードバックによって、新しいトレーニングインスタンスへの各障害軌跡を増大させます。 BFCL v4 Multi-Turnでは、Fission-GRPOはQwen3-8Bのエラー回復率を5.7%改善し、その精度は4%向上した。
論文参考訳（メタデータ） (2026-01-22T03:57:35Z)
InT: Self-Proposed Interventions Enable Credit Assignment in LLM Reasoning [32.274434679047395]
アウトカム・リワード強化学習(RL)は,大規模言語モデル(LLM)の推論能力向上に有効であることが証明された。標準RLは最終回答のレベルにのみクレジットを割り当て、結果が正しくない場合にすべての推論トレースを罰する。 Invention Training (InT) は、モデルが独自の推論トレースに基づいてきめ細かいクレジット割り当てを行う訓練パラダイムである。
論文参考訳（メタデータ） (2026-01-20T18:15:38Z)
GDRO: Group-level Reward Post-training Suitable for Diffusion Models [55.948229011478304]
グループレベルの報酬は、モデルを目標とする報酬と整合させるのに成功します。 Group-level Direct Reward Optimization (GDRO)は、グループレベルの報酬アライメントのための新しいトレーニング後のパラダイムである。 GDROは完全なオフライントレーニングをサポートし、画像ロールアウトサンプリングの大幅なコスト削減を実現する。これは拡散サンプラー非依存であり、取得性に対するODE-to-SDE近似の必要性を排除している。
論文参考訳（メタデータ） (2026-01-05T11:47:18Z)
LaSeR: Reinforcement Learning with Last-Token Self-Rewarding [54.72617309922891]
RLVR(Reinforcement Learning with Verifiable Rewards)は、Large Language Models(LLM)の推論能力を高めるためのコアパラダイムとして登場した。従来、LLMは2つの異なるプロンプトテンプレートを使用してソリューションと自己検証をシーケンシャルに生成し、効率を大幅に低下させる必要があった。本稿では,従来のRLVR損失をMSE損失で増大させるアルゴリズムであるLaSeR(Reinforcement Learning with Last-Token Self-Rewarding)を提案する。
論文参考訳（メタデータ） (2025-10-16T17:55:11Z)
Optimization Modeling via Semantic Anchored Alignment [30.047608671041104]
SAC-Optは,問題セマンティクスにおいて,解答フィードバックではなく最適化モデルに基づく後方誘導補正フレームワークである。各ステップで、SAC-Optは元のセマンティックアンカーと生成されたコードから再構成されたアンカーを調整し、ミスマッチしたコンポーネントのみを選択的に修正する。 7つの公開データセットに関する実証的な結果は、SAC-Optが平均モデリング精度を7.8%改善し、ComplexLPデータセットで最大21.9%向上したことを示している。
論文参考訳（メタデータ） (2025-09-28T12:25:31Z)
Abduct, Act, Predict: Scaffolding Causal Inference for Automated Failure Attribution in Multi-Agent Systems [20.846301581161978]
マルチエージェントシステムにおける障害帰属は、批判的だが未解決の課題である。現在の手法では、これを長い会話ログ上のパターン認識タスクとして扱う。 A2P Scaffoldingは、パターン認識から構造化因果推論タスクへの障害帰属を変換する。
論文参考訳（メタデータ） (2025-09-12T16:51:15Z)
Scalable Best-of-N Selection for Large Language Models via Self-Certainty [75.1351701045874]
Best-of-N selectionは、Large Language Models(LLMs)の推論性能を改善するための重要なテクニックである。本稿では, LLM出力の固有確率分布を利用して, 外部報酬モデルを必要としない応答品質を推定する, 新規で効率的な指標である自己確実性を提案する。本研究は, LLM推論能力を向上させるための実用的で効率的な方法として, 自己確実性を確立した。
論文参考訳（メタデータ） (2025-02-25T19:08:07Z)
S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文参考訳（メタデータ） (2025-02-18T13:40:22Z)
Agent-R: Training Language Model Agents to Reflect via Iterative Self-Training [18.896813839389893]
本稿では,言語エージェントをオンザフライでリフレクション可能な反復型自己学習フレームワーク,Agent-Rを提案する。 Agent-Rは、正しさに基づいてアクションを報酬または罰揚する従来の方法とは異なり、MCTSを活用して、誤ったトラジェクトリから正しいトラジェクトリを復元するトレーニングデータを構築する。以上の結果から,Agent-Rは連続的にエラーから回復し,タイムリーなエラー訂正を可能にすることが示唆された。
論文参考訳（メタデータ） (2025-01-20T11:46:04Z)
Training Language Models to Self-Correct via Reinforcement Learning [98.35197671595343]
自己補正は、現代の大規模言語モデル(LLM)では、ほとんど効果がないことが判明した。完全自己生成データを用いたLLMの自己補正能力を大幅に向上させるマルチターンオンライン強化学習手法であるSCoReを開発した。 SCoReは最先端の自己補正性能を実現し,MATHとHumanEvalでそれぞれ15.6%,9.1%向上した。
論文参考訳（メタデータ） (2024-09-19T17:16:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。