論文の概要: On Data Engineering for Scaling LLM Terminal Capabilities
- arxiv url: http://arxiv.org/abs/2602.21193v1
- Date: Tue, 24 Feb 2026 18:51:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.889524
- Title: On Data Engineering for Scaling LLM Terminal Capabilities
- Title(参考訳): LLM端末機能拡張のためのデータエンジニアリングについて
- Authors: Renjie Pi, Grace Lam, Mohammad Shoeybi, Pooya Jannaty, Bryan Catanzaro, Wei Ping,
- Abstract要約: 最先端の端末エージェントの背後にあるトレーニングデータ戦略はほとんど公表されていない。
端末エージェントのデータエンジニアリングプラクティスの体系的研究を通じて,このギャップに対処する。
当社のパイプラインは,端末タスク用の大規模オープンソースデータセットである Terminal-Corpus を生成する。
- 参考スコア(独自算出の注目度): 62.14352406328365
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite rapid recent progress in the terminal capabilities of large language models, the training data strategies behind state-of-the-art terminal agents remain largely undisclosed. We address this gap through a systematic study of data engineering practices for terminal agents, making two key contributions: (1) Terminal-Task-Gen, a lightweight synthetic task generation pipeline that supports seed-based and skill-based task construction, and (2) a comprehensive analysis of data and training strategies, including filtering, curriculum learning, long context training, and scaling behavior. Our pipeline yields Terminal-Corpus, a large-scale open-source dataset for terminal tasks. Using this dataset, we train Nemotron-Terminal, a family of models initialized from Qwen3(8B, 14B, 32B) that achieve substantial gains on Terminal-Bench 2.0: Nemotron-Terminal-8B improves from 2.5% to 13.0% Nemotron-Terminal-14B improves from 4.0% to 20.2%, and Nemotron-Terminal-32B improves from 3.4% to 27.4%, matching the performance of significantly larger models. To accelerate research in this domain, we open-source our model checkpoints and most of our synthetic datasets at https://huggingface.co/collections/nvidia/nemotron-terminal.
- Abstract(参考訳): 大規模言語モデルの端末能力の急速な進歩にもかかわらず、最先端の端末エージェントを支えるトレーニングデータ戦略はほとんど公表されていない。
端末エージェントのデータエンジニアリングの実践を体系的に研究し、(1)シードベースおよびスキルベースタスク構築をサポートする軽量な合成タスク生成パイプラインである Terminal-Task-Gen、(2)フィルタリング、カリキュラム学習、長期文脈トレーニング、スケーリング行動を含むデータおよびトレーニング戦略の包括的分析を行う。
当社のパイプラインは,端末タスク用の大規模オープンソースデータセットである Terminal-Corpus を生成する。
ネモトロン・ターミナル8Bは2.5%から13.0%に改善され、ネモトロン・ターミナル14Bは4.0%から20.2%に改善され、ネモトロン・ターミナル32Bは3.4%から27.4%に改善された。
この領域の研究を加速するために、私たちはモデルチェックポイントと合成データセットのほとんどをhttps://huggingface.co/collections/nvidia/nemotron-terminalでオープンソース化しました。
関連論文リスト
- AgentCPM-Explore: Realizing Long-Horizon Deep Exploration for Edge-Scale Agents [75.67445299298949]
AgentCPM-Exploreは、知識密度と強力な探索能力を備えたコンパクトな4Bエージェントモデルである。
本稿では,パラメータ空間モデルの融合,報酬信号の復調,文脈情報の改良を特徴とする総合的なトレーニングフレームワークを提案する。
AgentCPM-Exploreは4つのベンチマークで8BクラスのSOTAモデルにマッチまたは超え、また5つのベンチマークでClaude-4.5-SonnetやDeepSeek-v3.2のような大規模モデルよりも優れている。
論文 参考訳(メタデータ) (2026-02-06T08:24:59Z) - Large-Scale Terminal Agentic Trajectory Generation from Dockerized Environments [36.81059045059001]
終端型タスクのトレーニングエージェントモデルは、現実的な長距離相互作用を捉える高品質な終端軌道に依存する。
我々は,Dockerに準拠したタスクインスタンスを生成し,エージェントトラジェクトリを実行可能なバリデーションコードで合成する,スケーラブルなパイプラインである textbfTerminalTraj を提案する。
TerminalTrajを使って32KのDockerイメージをキュレートし、8つのドメインにわたる50,733の認証済みターミナルトラジェクトリを生成します。
論文 参考訳(メタデータ) (2026-02-01T14:09:23Z) - Endless Terminals: Scaling RL Environments for Terminal Agents [39.60665149203152]
Endless Terminalsは、人間のアノテーションを使わずに端末用タスクを手続き的に生成する、完全に自律的なパイプラインである。
我々は、バイナリエピソードレベルの報酬と最小の相互作用ループを持つバニラPPOを使用してエージェントを訓練する。
これらの改善は人為的なベンチマークに移行する。
論文 参考訳(メタデータ) (2026-01-23T04:39:55Z) - UI-TARS-2 Technical Report: Advancing GUI Agent with Multi-Turn Reinforcement Learning [155.51875080423883]
グラフィカルユーザインタフェースのための自律エージェントの開発は、人工知能における大きな課題を示している。
本稿では,GUI中心のエージェントモデルであるUI-TARS-2を提案する。
実証的な評価では、UI-TARS-2は以前のUI-TARS-1.5よりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-09-02T17:44:45Z) - Skywork-SWE: Unveiling Data Scaling Laws for Software Engineering in LLMs [19.766885088032932]
ソフトウェアエンジニアリング(SWE)は、次世代のLLMエージェントにとって重要なテストベッドとして登場した。
既存のデータセットのほとんどは、わずか数千のGitHubソースインスタンスに制限されている。
SWEデータセットのボリュームと多様性の両方を体系的にスケールするインクリメンタルな自動データキュレーションパイプラインを提案する。
論文 参考訳(メタデータ) (2025-06-24T03:53:36Z) - Beyond Scaling: Measuring and Predicting the Upper Bound of Knowledge Retention in Language Model Pre-Training [68.94373533768501]
我々は、知識保持をモデル化し、そのコーパスから事実情報を記憶するための事前学習言語モデルの能力を示し、学習前にそれを推定する原則的手法を導入する。
本稿では,知識周波数,知識特異度,モデルサイズを統合し,クローズドブック質問応答(QA)の精度を予測する情報理論予測器である,サイズ依存型相互情報(SMI)を提案する。
論文 参考訳(メタデータ) (2025-02-06T13:23:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。