論文の概要: On Data Engineering for Scaling LLM Terminal Capabilities
- arxiv url: http://arxiv.org/abs/2602.21193v1
- Date: Tue, 24 Feb 2026 18:51:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.889524
- Title: On Data Engineering for Scaling LLM Terminal Capabilities
- Title(参考訳): LLM端末機能拡張のためのデータエンジニアリングについて
- Authors: Renjie Pi, Grace Lam, Mohammad Shoeybi, Pooya Jannaty, Bryan Catanzaro, Wei Ping,
- Abstract要約: 最先端の端末エージェントの背後にあるトレーニングデータ戦略はほとんど公表されていない。
端末エージェントのデータエンジニアリングプラクティスの体系的研究を通じて,このギャップに対処する。
当社のパイプラインは,端末タスク用の大規模オープンソースデータセットである Terminal-Corpus を生成する。
- 参考スコア(独自算出の注目度): 62.14352406328365
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite rapid recent progress in the terminal capabilities of large language models, the training data strategies behind state-of-the-art terminal agents remain largely undisclosed. We address this gap through a systematic study of data engineering practices for terminal agents, making two key contributions: (1) Terminal-Task-Gen, a lightweight synthetic task generation pipeline that supports seed-based and skill-based task construction, and (2) a comprehensive analysis of data and training strategies, including filtering, curriculum learning, long context training, and scaling behavior. Our pipeline yields Terminal-Corpus, a large-scale open-source dataset for terminal tasks. Using this dataset, we train Nemotron-Terminal, a family of models initialized from Qwen3(8B, 14B, 32B) that achieve substantial gains on Terminal-Bench 2.0: Nemotron-Terminal-8B improves from 2.5% to 13.0% Nemotron-Terminal-14B improves from 4.0% to 20.2%, and Nemotron-Terminal-32B improves from 3.4% to 27.4%, matching the performance of significantly larger models. To accelerate research in this domain, we open-source our model checkpoints and most of our synthetic datasets at https://huggingface.co/collections/nvidia/nemotron-terminal.
- Abstract(参考訳): 大規模言語モデルの端末能力の急速な進歩にもかかわらず、最先端の端末エージェントを支えるトレーニングデータ戦略はほとんど公表されていない。
端末エージェントのデータエンジニアリングの実践を体系的に研究し、(1)シードベースおよびスキルベースタスク構築をサポートする軽量な合成タスク生成パイプラインである Terminal-Task-Gen、(2)フィルタリング、カリキュラム学習、長期文脈トレーニング、スケーリング行動を含むデータおよびトレーニング戦略の包括的分析を行う。
当社のパイプラインは,端末タスク用の大規模オープンソースデータセットである Terminal-Corpus を生成する。
ネモトロン・ターミナル8Bは2.5%から13.0%に改善され、ネモトロン・ターミナル14Bは4.0%から20.2%に改善され、ネモトロン・ターミナル32Bは3.4%から27.4%に改善された。
この領域の研究を加速するために、私たちはモデルチェックポイントと合成データセットのほとんどをhttps://huggingface.co/collections/nvidia/nemotron-terminalでオープンソース化しました。
関連論文リスト
- TermiGen: High-Fidelity Environment and Robust Trajectory Synthesis for Terminal Agents [70.68963723787424]
TermiGenは検証可能な環境とレジリエントな専門家軌道を合成するためのエンドツーエンドパイプラインである。
TermiGen-Qwen2.5-Coder-32B は TerminalBench 上で 31.3% のパスレートを達成した。
論文 参考訳(メタデータ) (2026-02-06T23:56:50Z) - AgentCPM-Explore: Realizing Long-Horizon Deep Exploration for Edge-Scale Agents [75.67445299298949]
AgentCPM-Exploreは、知識密度と強力な探索能力を備えたコンパクトな4Bエージェントモデルである。
本稿では,パラメータ空間モデルの融合,報酬信号の復調,文脈情報の改良を特徴とする総合的なトレーニングフレームワークを提案する。
AgentCPM-Exploreは4つのベンチマークで8BクラスのSOTAモデルにマッチまたは超え、また5つのベンチマークでClaude-4.5-SonnetやDeepSeek-v3.2のような大規模モデルよりも優れている。
論文 参考訳(メタデータ) (2026-02-06T08:24:59Z) - Large-Scale Terminal Agentic Trajectory Generation from Dockerized Environments [36.81059045059001]
終端型タスクのトレーニングエージェントモデルは、現実的な長距離相互作用を捉える高品質な終端軌道に依存する。
我々は,Dockerに準拠したタスクインスタンスを生成し,エージェントトラジェクトリを実行可能なバリデーションコードで合成する,スケーラブルなパイプラインである textbfTerminalTraj を提案する。
TerminalTrajを使って32KのDockerイメージをキュレートし、8つのドメインにわたる50,733の認証済みターミナルトラジェクトリを生成します。
論文 参考訳(メタデータ) (2026-02-01T14:09:23Z) - Endless Terminals: Scaling RL Environments for Terminal Agents [39.60665149203152]
Endless Terminalsは、人間のアノテーションを使わずに端末用タスクを手続き的に生成する、完全に自律的なパイプラインである。
我々は、バイナリエピソードレベルの報酬と最小の相互作用ループを持つバニラPPOを使用してエージェントを訓練する。
これらの改善は人為的なベンチマークに移行する。
論文 参考訳(メタデータ) (2026-01-23T04:39:55Z) - Efficient Multi-turn RL for GUI Agents via Decoupled Training and Adaptive Data Curation [65.3648667980258]
視覚言語モデル(VLM)に基づくGUIエージェントは複雑なタスクの自動化を約束するが、強化学習(RL)の適用において大きな課題に直面している。
異種モジュールを高度に非結合的に協調するGUIエージェントのための非結合エージェントRLトレーニングフレームワークであるDARTを提案する。
OSWorldのベンチマークでは、DART-GUI-7Bは42.13%のタスク成功率、14.61%の絶対ゲイン、オープンソースSOTAよりも7.34%高い。
論文 参考訳(メタデータ) (2025-09-28T13:19:20Z) - UI-TARS-2 Technical Report: Advancing GUI Agent with Multi-Turn Reinforcement Learning [155.51875080423883]
グラフィカルユーザインタフェースのための自律エージェントの開発は、人工知能における大きな課題を示している。
本稿では,GUI中心のエージェントモデルであるUI-TARS-2を提案する。
実証的な評価では、UI-TARS-2は以前のUI-TARS-1.5よりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-09-02T17:44:45Z) - Skywork-SWE: Unveiling Data Scaling Laws for Software Engineering in LLMs [19.766885088032932]
ソフトウェアエンジニアリング(SWE)は、次世代のLLMエージェントにとって重要なテストベッドとして登場した。
既存のデータセットのほとんどは、わずか数千のGitHubソースインスタンスに制限されている。
SWEデータセットのボリュームと多様性の両方を体系的にスケールするインクリメンタルな自動データキュレーションパイプラインを提案する。
論文 参考訳(メタデータ) (2025-06-24T03:53:36Z) - A Two-Stage Data Selection Framework for Data-Efficient Model Training on Edge Devices [18.853357902416832]
現在のオンデバイスモデルのトレーニングは、低いトレーニングスループット、限られたストレージ、さまざまなデータの重要性によって妨げられています。
モデル学習のためのストリーミングデータから,最も重要なデータバッチを選択するための2段階データ選択フレームワークであるsf Titanを提案する。
sf Titanは、トレーニング時間の最大43%の削減と、マイナーシステムのオーバーヘッドを伴う最終的な精度の6.2%の向上を実現している。
論文 参考訳(メタデータ) (2025-05-22T11:53:48Z) - NeMo-Inspector: A Visualization Tool for LLM Generation Analysis [6.55530159050218]
我々はNeMo-Inspectorを紹介した。NeMo-Inspectorは、統合推論機能を備えた合成データセットの解析を簡素化するオープンソースツールである。
2つの実世界のケースを通してその効果を実証する。
論文 参考訳(メタデータ) (2025-05-01T22:47:06Z) - Beyond Scaling: Measuring and Predicting the Upper Bound of Knowledge Retention in Language Model Pre-Training [68.94373533768501]
我々は、知識保持をモデル化し、そのコーパスから事実情報を記憶するための事前学習言語モデルの能力を示し、学習前にそれを推定する原則的手法を導入する。
本稿では,知識周波数,知識特異度,モデルサイズを統合し,クローズドブック質問応答(QA)の精度を予測する情報理論予測器である,サイズ依存型相互情報(SMI)を提案する。
論文 参考訳(メタデータ) (2025-02-06T13:23:53Z) - Scaling Data Generation in Vision-and-Language Navigation [116.95534559103788]
本稿では,学習のための大規模データ生成に有効なパラダイムを提案する。
我々は、HM3DとGibsonのデータセットから1200以上のフォトリアリスティック環境を適用し、490万の命令軌道対を合成する。
我々の大規模データセットのおかげで、既存のエージェントの性能は(以前のSoTAでは+11%絶対)、単純な模倣学習によってR2Rテストの分割で80%の単ラン成功率で大幅に向上できる。
論文 参考訳(メタデータ) (2023-07-28T16:03:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。