論文の概要: KLong: Training LLM Agent for Extremely Long-horizon Tasks
- arxiv url: http://arxiv.org/abs/2602.17547v1
- Date: Thu, 19 Feb 2026 17:01:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:29.226653
- Title: KLong: Training LLM Agent for Extremely Long-horizon Tasks
- Title(参考訳): KLong:超長期作業のためのLLMエージェントのトレーニング
- Authors: Yue Liu, Zhiyuan Hu, Flood Sung, Jiaheng Zhang, Bryan Hooi,
- Abstract要約: 本稿では,極端に長期的課題を解決するために訓練されたオープンソースのLLMエージェントであるKLongを紹介する。
まず、トラジェクトリ分割SFTを用いてモデルをコールドスタートし、次にプログレッシブRLトレーニングによりスケールする。
特に、提案したKLong(106B)は、PaperBenchでKim K2 Thinking(1T)を11.28%上回っている。
- 参考スコア(独自算出の注目度): 58.68395081637727
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces KLong, an open-source LLM agent trained to solve extremely long-horizon tasks. The principle is to first cold-start the model via trajectory-splitting SFT, then scale it via progressive RL training. Specifically, we first activate basic agentic abilities of a base model with a comprehensive SFT recipe. Then, we introduce Research-Factory, an automated pipeline that generates high-quality training data by collecting research papers and constructing evaluation rubrics. Using this pipeline, we build thousands of long-horizon trajectories distilled from Claude 4.5 Sonnet (Thinking). To train with these extremely long trajectories, we propose a new trajectory-splitting SFT, which preserves early context, progressively truncates later context, and maintains overlap between sub-trajectories. In addition, to further improve long-horizon task-solving capability, we propose a novel progressive RL, which schedules training into multiple stages with progressively extended timeouts. Experiments demonstrate the superiority and generalization of KLong, as shown in Figure 1. Notably, our proposed KLong (106B) surpasses Kimi K2 Thinking (1T) by 11.28% on PaperBench, and the performance improvement generalizes to other coding benchmarks like SWE-bench Verified and MLE-bench.
- Abstract(参考訳): 本稿では,極端に長期的課題を解決するために訓練されたオープンソースのLLMエージェントであるKLongを紹介する。
基本原理は、まず軌道分割SFTでモデルを冷やし、次にプログレッシブRLトレーニングでスケールすることである。
具体的には、まず、総合的なSFTレシピを用いたベースモデルの基本的なエージェント能力を活性化する。
次に,研究論文の収集と評価ルーリックの構築により,高品質なトレーニングデータを生成する自動パイプラインであるResearch-Factoryを紹介する。
このパイプラインを用いて、Claude 4.5 Sonnet (Thinking)から蒸留した何千もの長い水平軌跡を構築します。
非常に長い軌跡を学習するために,早期の文脈を保存し,後続の文脈を段階的に切り離し,サブトラジェクトリ間の重なりを維持できる新しいトラジェクトリ分割SFTを提案する。
さらに,より長期タスク解決能力を向上させるために,段階的に拡張されたタイムアウトを伴う複数の段階にトレーニングをスケジュールする新しいプログレッシブRLを提案する。
図1に示すように、実験はKLongの優越性と一般化を示す。
特に、提案したKLong (106B) は、PaperBenchで Kimi K2 Thinking (1T) を11.28%上回り、パフォーマンス改善はSWE-bench Verified や MLE-bench といった他のコーディングベンチマークに一般化される。
関連論文リスト
- Late-to-Early Training: LET LLMs Learn Earlier, So Faster and Better [24.03797089794804]
我々は,大規模言語モデルが初期のステップやそれ以前のレイヤで後続の知識を学習できるようにするため,LET(Lat-to-Early Training)パラダイムを提案する。
LETの有効性を駆動する2つの重要なメカニズムは、後期から後期の学習と後期から後期の学習である。
本手法は, 最大1.6$times$の高速化を実現し, ダウンストリームタスクの精度を標準訓練と比較して5%近く向上した。
論文 参考訳(メタデータ) (2026-02-05T07:19:34Z) - QwenLong-L1.5: Post-Training Recipe for Long-Context Reasoning and Memory Management [81.24674400474989]
QwenLong-L1.5は、体系的なポストトレーニングイノベーションを通じて優れた長文推論機能を提供するモデルである。
我々は,グローバルに分散した証拠に対してマルチホップシーケンスを必要とする難解な推論タスクを生成するための体系的枠組みを開発する。
我々は,4Mトークンを超えるタスクに対して,単一パス推論と反復的メモリベース処理をシームレスに統合するマルチエクスプロイト融合RLトレーニングを用いたメモリ管理フレームワークを開発した。
論文 参考訳(メタデータ) (2025-12-15T04:11:11Z) - Beat the long tail: Distribution-Aware Speculative Decoding for RL Training [75.75462952580796]
モデル出力を変更することなくRLロールアウトを高速化する分散Aware Speculativeデコーディングフレームワークを提案する。
数学とコード推論タスクの実験は、DASが同一のトレーニング曲線を保ちながらロールアウト時間を最大50%短縮することを示している。
論文 参考訳(メタデータ) (2025-11-17T19:02:12Z) - h1: Bootstrapping LLMs to Reason over Longer Horizons via Reinforcement Learning [22.930073904843212]
大規模言語モデルは短期水平推論タスクでは優れているが、水平線長の推論によって性能が低下する。
既存のアプローチでは、推論時の足場やコストのかかるステップレベルの監視に依存しています。
本稿では,既存短軸データのみを用いて,長軸推論機能をブートストラップするスケーラブルな手法を提案する。
論文 参考訳(メタデータ) (2025-10-08T17:58:41Z) - LongWriter-Zero: Mastering Ultra-Long Text Generation via Reinforcement Learning [34.723917246316205]
本稿では、強化学習(RL)を利用したインセンティブベースのアプローチを提案し、超長大で高品質なテキスト生成能力の出現を促進する。
Qwen2.5-32BからトレーニングされたLongWriter-Zeroモデルは、長文処理において従来のSFTメソッドよりも一貫して優れています。
論文 参考訳(メタデータ) (2025-06-23T16:59:02Z) - How to Train Long-Context Language Models (Effectively) [75.5418485597276]
言語モデル(LM)の継続学習と教師付き微調整(SFT)を行い,長文情報の有効利用について検討した。
コードリポジトリと書籍は長いデータの優れた情報源であることがわかったが、それらと高品質の短文データを組み合わせることが不可欠である。
最終モデルであるProLong-8Bは、128Kの同様のサイズのモデル間で、最先端の長文性能を示す。
論文 参考訳(メタデータ) (2024-10-03T16:46:52Z) - LongSkywork: A Training Recipe for Efficiently Extending Context Length in Large Language Models [61.12177317970258]
LongSkyworkは、最大20万のトークンを処理できる、長いコンテキストのLarge Language Modelである。
我々は合成データを作成する2つの新しい方法を開発した。
LongSkyworkは、様々なロングコンテキストベンチマークで優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-06-02T03:34:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。