論文の概要: Agents Learn Their Runtime: Interpreter Persistence as Training-Time Semantics
- arxiv url: http://arxiv.org/abs/2603.01209v2
- Date: Thu, 05 Mar 2026 05:07:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 15:25:24.163243
- Title: Agents Learn Their Runtime: Interpreter Persistence as Training-Time Semantics
- Title(参考訳): エージェントは実行時を学習する:訓練時セマンティックとしての解釈パーシスタンス
- Authors: Victor May, Aaditya Salgarkar, Yishan Wang, Diganta Misra, Huu Nguyen,
- Abstract要約: ツール拡張LDMは、自然言語推論と実行可能なPythonアクションをインターリーブするエージェントとして、ますます多くデプロイされている。
インタプリタの永続化は単に実行時の足場なのか、それともエージェントがインタープリタの使い方を学習する方法を形作るトレーニングデータの特性なのかを問う。
ワンショットソリューションを避けるために設計された、部分的に観測可能な最適化タスクの手続き的に生成されたファミリーであるOpaque Knapsackを紹介する。
- 参考スコア(独自算出の注目度): 4.774525456207306
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tool-augmented LLMs are increasingly deployed as agents that interleave natural-language reasoning with executable Python actions, as in CodeAct-style frameworks. In deployment, these agents rely on runtime state that persists across steps. By contrast, the traces used to post-train these models rarely encode how interpreter state is managed. We ask whether interpreter persistence is merely a runtime scaffold, or a property of the training data that shapes how agents learn to use the interpreter. We isolate state persistence as a training-time variable. We introduce Opaque Knapsack, a procedurally generated family of partially observable optimization tasks designed to prevent one-shot solutions. Item attributes and constraints are hidden behind budgeted tool calls, forcing multi-turn control flow and iterative state revision. Holding task instances, prompts, tools, model, and supervision fixed, we generate matched trajectories differing only in whether interpreter state persists across steps or resets after each action. We then fine-tune identical base models (Qwen3-8B) on each trace variant and evaluate all four train-runtime combinations. Our 2x2 cross-evaluation shows that interpreter persistence shapes how agents reach solutions, not whether they do: solution quality is statistically indistinguishable across conditions, but token cost and stability differ substantially. A persistent-trained model in a stateless runtime triggers missing-variable errors in roughly 80% of episodes; a stateless-trained model in a persistent runtime redundantly re-derives retained state, using roughly 3.5x more tokens. Interpreter persistence should be treated as a first-class semantic of agent traces. Aligning fine-tuning data with deployment runtimes improves efficiency and reduces brittle train-runtime mismatches.
- Abstract(参考訳): ツール拡張LDMは、CodeActスタイルのフレームワークのように、実行可能なPythonアクションと自然言語推論をインターリーブするエージェントとして、ますます多くデプロイされている。
デプロイでは、これらのエージェントはステップ間で持続するランタイム状態に依存する。
対照的に、これらのモデルをポストトレーニングに使用するトレースは、インタプリタ状態の管理方法のコード化がほとんどない。
インタプリタの永続化は単に実行時の足場なのか、それともエージェントがインタープリタの使い方を学習する方法を形作るトレーニングデータの特性なのかを問う。
状態永続化をトレーニング時間変数として分離する。
ワンショットソリューションを避けるために設計された、部分的に観測可能な最適化タスクの手続き的に生成されたファミリーであるOpaque Knapsackを紹介する。
アイテム属性と制約は、多ターン制御フローと反復状態リビジョンを強制する、予算化されたツールコールの背後に隠されている。
タスクインスタンス、プロンプト、ツール、モデル、監督を固定すると、各アクションの後にインタプリタ状態がステップをまたいで持続するか、リセットするかでのみ一致したトラジェクトリを生成します。
次に、各トレース変種における同一ベースモデル(Qwen3-8B)を微調整し、4つの列車・列車の組み合わせを評価した。
当社の2x2クロス評価では、インタプリタの永続性は、エージェントがソリューションに到達する方法を形作っているかどうかではなく、ソリューションの品質は、条件によって統計的に区別できないが、トークンのコストと安定性は大きく異なる。
ステートレスランタイムの永続的トレーニングモデルは、約80%のエピソードで不足変数エラーを引き起こし、永続的ランタイムのステートレストレーニングモデルは、約3.5倍のトークンを使用して、状態を冗長に再帰する。
インタープリタの永続性はエージェントトレースのファーストクラスのセマンティクスとして扱われるべきである。
微調整データをデプロイメントランタイムにアライメントすることで、効率が向上し、不安定なトレイン実行時のミスマッチが削減される。
関連論文リスト
- Efficient Continual Learning in Language Models via Thalamically Routed Cortical Columns [0.16921396880325779]
アーキテクチャレベルでの継続的な学習に対処するデコーダのみのバックボーンであるTRC$2(Thalamically Routed Cortical Columns)を導入します。
結果として得られるブロックはスパースでチャンク並列であり、各サブシステムのクリーンなアブレーションを維持しながら、効率的なトレーニングと推論を可能にする。
論文 参考訳(メタデータ) (2026-02-25T23:38:16Z) - Transporting Task Vectors across Different Architectures without Training [18.853461748616333]
異種モデルにまたがってタスク固有の更新をトランスポートするためのトレーニング不要な方法であるSoseusを紹介した。
パラメータを直接マッチングするのではなく、中間表現で引き起こされる機能的効果によってタスク更新を特徴付ける。
論文 参考訳(メタデータ) (2026-02-13T14:16:34Z) - Decomposing Reasoning Efficiency in Large Language Models [2.4149105714758545]
我々はトークン効率を、固定されたトークン予算の下での完了、与えられた完了条件の正確性、冗長性といった、解釈可能な要因に分解する。
推論トレースが利用可能であれば、冗長だが拡張された推論からループを分離するために決定論的トレース品質尺度を追加します。
我々の分解は、異なる効率の介入を示唆する異なるボトルネックプロファイルを明らかにします。
論文 参考訳(メタデータ) (2026-02-10T14:09:18Z) - ET-Agent: Incentivizing Effective Tool-Integrated Reasoning Agent via Behavior Calibration [68.89572566071575]
ETAgentはエージェントのツール使用行動を調整するためのトレーニングフレームワークである。
過誤行動パターンを最適行動に段階的に校正するように設計されている。
論文 参考訳(メタデータ) (2026-01-11T11:05:26Z) - Tree Training: Accelerating Agentic LLMs Training via Shared Prefix Reuse [21.642997639835396]
本研究では,各接頭辞を1回だけ計算し,前後の両方の分岐で中間結果を再利用するパラダイムであるツリートレーニングを提案する。
複数のオープンソースモデルの実験では、総トレーニング時間を3.9倍に削減し、より効率的なLLM SFTおよびRLトレーニングを可能にした。
論文 参考訳(メタデータ) (2025-11-01T05:56:49Z) - Training-Free Time Series Classification via In-Context Reasoning with LLM Agents [29.14242392533328]
時系列分類(TSC)は様々なアプリケーションシナリオにまたがるが、ラベル付きデータは少ないことが多い。
本稿では,事前の文脈推論による学習自由TSCのためのマルチエージェントフレームワークであるFETAを提案する。
論文 参考訳(メタデータ) (2025-10-07T14:07:43Z) - Impatient Users Confuse AI Agents: High-fidelity Simulations of Human Traits for Testing Agents [58.00130492861884]
TraitBasisは、AIエージェントを体系的にストレステストするための軽量でモデルに依存しない方法である。
TraitBasisは、ステアブルなユーザ特性に対応するアクティベーション空間で方向を学習する。
We observed on average a 2%-30% performance degradation on $tau$-Trait across frontier model。
論文 参考訳(メタデータ) (2025-10-06T05:03:57Z) - Reinforcement Learning for Machine Learning Engineering Agents [52.03168614623642]
強化学習によって改善される弱いモデルによって支援されるエージェントは、はるかに大きいが静的モデルによって支援されるエージェントよりも優れていることを示す。
分散非同期RLフレームワークにおいて,高コストかつ高利回りな動作を増幅するための時間依存性の勾配更新を提案する。
また,早期に失敗するプログラムとほぼ正しくないプログラムを区別し,部分クレジットを提供する環境機器を提案する。
論文 参考訳(メタデータ) (2025-09-01T18:04:10Z) - Agentic-R1: Distilled Dual-Strategy Reasoning [58.73951532294446]
現在のロングチェーン・オブ・ソート(ロングCoT)モデルは数学的推論において優れているが、遅くてエラーを起こしやすい自然言語トレースに依存している。
複数の教師の補完的推論戦略を統合された学生モデルに蒸留する微調整フレームワークであるDualDistillを導入する。
本手法は,計算集約型ベンチマークと標準ベンチマークの両方を含むタスクの精度を向上する。
論文 参考訳(メタデータ) (2025-07-08T06:35:16Z) - Runaway is Ashamed, But Helpful: On the Early-Exit Behavior of Large Language Model-based Agents in Embodied Environments [54.67512489842682]
大規模言語モデル(LLM)は、複雑な実施環境において、強力な計画と意思決定能力を示す。
LLMをベースとしたエージェントの早期退避行動を探究する第一歩を踏み出す。
論文 参考訳(メタデータ) (2025-05-23T08:23:36Z) - Sports-Traj: A Unified Trajectory Generation Model for Multi-Agent Movement in Sports [53.637837706712794]
任意の軌道をマスク入力として処理する統一軌道生成モデルUniTrajを提案する。
具体的には,空間特徴抽出のためのトランスフォーマーエンコーダ内に埋め込まれたゴースト空間マスキング(GSM)モジュールを紹介する。
バスケットボールU,サッカーU,サッカーUの3つの実践的スポーツデータセットをベンチマークして評価を行った。
論文 参考訳(メタデータ) (2024-05-27T22:15:23Z) - Sequential Reptile: Inter-Task Gradient Alignment for Multilingual
Learning [61.29879000628815]
知識伝達を最大化するためには,タスク間の勾配の整合が不可欠であることを示す。
本稿では,タスク間の勾配を効率よく調整する,シンプルで効果的な手法を提案する。
様々なマルチタスク学習やゼロショット言語間移動タスクにおいて,提案手法を広範囲に検証する。
論文 参考訳(メタデータ) (2021-10-06T09:10:10Z) - Stabilizing Label Assignment for Speech Separation by Self-supervised
Pre-training [58.30339239234169]
本稿では,音声分離モデルの訓練において,ラベル割り当てを安定させるために,自己教師付き事前学習を行うことを提案する。
複数のタイプの自己教師的アプローチ、いくつかの典型的な音声分離モデル、2つの異なるデータセットに対する実験により、適切な自己教師的アプローチが選択された場合、非常に優れた改善が達成可能であることが示された。
論文 参考訳(メタデータ) (2020-10-29T06:07:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。