論文の概要: Adapting the Interface, Not the Model: Runtime Harness Adaptation for Deterministic LLM Agents
- arxiv url: http://arxiv.org/abs/2605.22166v2
- Date: Wed, 27 May 2026 04:34:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:54.863624
- Title: Adapting the Interface, Not the Model: Runtime Harness Adaptation for Deterministic LLM Agents
- Title(参考訳): モデルではなくインタフェースに適応する:決定論的LLMエージェントの実行時ハーネス適応
- Authors: Tianshi Xu, Huifeng Wen, Meng Li,
- Abstract要約: モデル重みや評価環境を変化させることなく冷凍LDMエージェントを改善するライフサイクル対応ランタイムハーネスであるLife-Harnessを提案する。
ライフ・ハーネスは、繰り返し発生する相互作用の失敗を、環境契約、手続きスキル、行動実現、軌道規制にまたがる再利用可能な介入に変換することによって、訓練軌道から進化する。
ライフハーネスはモデル116のうち116で改善され、環境設定は18モデルバックボーンで改善され、平均的な相対的改善は88.5%である。
- 参考スコア(独自算出の注目度): 4.765206163164323
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM agents are shaped not only by their language models, but also by the runtime harness that mediates observation, tool use, action execution, feedback interpretation, and trajectory control. While existing agent adaptation methods mainly update model parameters, many failures in deterministic, rule-governed domains stem from mismatches at the model--environment interface. We propose Life-Harness, a lifecycle-aware runtime harness that improves frozen LLM agents without changing model weights or evaluation environments. Life-Harness evolves from training trajectories by converting recurring interaction failures into reusable interventions across environment contracts, procedural skills, action realization, and trajectory regulation, and remains fixed for evaluation on unseen tasks. On seven deterministic environments from $τ$-bench, $τ^2$-bench, and AgentBench, Life-Harness improves 116 out of 126 model--environment settings across 18 model backbones, with an average relative improvement of 88.5%. Harnesses evolved only from Qwen3-4B-Instruct trajectories transfer to 17 other models, showing that Life-Harness captures reusable environment-side structure rather than model-specific behavior. These results position runtime interface adaptation as a complementary alternative to model-centric agent training. Code is available at https://github.com/Tianshi-Xu/Life-Harness.
- Abstract(参考訳): LLMエージェントは言語モデルだけでなく、観察、ツールの使用、アクションの実行、フィードバックの解釈、軌道制御を仲介するランタイムハーネスによっても形成されている。
既存のエージェント適応法は主にモデルパラメータを更新するが、決定論的でルールに支配されたドメインの多くの失敗はモデル環境インタフェースにおけるミスマッチに起因する。
モデル重みや評価環境を変化させることなく冷凍LDMエージェントを改善するライフサイクル対応ランタイムハーネスであるLife-Harnessを提案する。
ライフ・ハーネスは、繰り返し発生する相互作用の失敗を、環境契約、手続きスキル、行動実現、軌道規制にまたがる再利用可能な介入に変換することによって、訓練軌道から進化し、目に見えないタスクの評価のために固定されている。
τ$-bench, $τ^2$-bench, AgentBenchの7つの決定論的環境において、Life-Harnessは18モデルのバックボーンにまたがる環境設定を16%改善し、平均的な相対的改善は88.5%である。
ハーネスはQwen3-4B-Instruct trajectoriesから17の他のモデルに遷移しただけであり、ライフ・ハーネスはモデル固有の振る舞いではなく、再利用可能な環境サイド構造を捉えている。
これらの結果は、モデル中心エージェントトレーニングの補完的な代替手段としてランタイムインタフェース適応が位置づけられる。
コードはhttps://github.com/Tianshi-Xu/Life-Harnessで入手できる。
関連論文リスト
- Inference-Time Machine Unlearning via Gated Activation Redirection [1.1699531043716684]
ゲーテッド・アクティベーション・リダイレクト(GUARD-IT)による推論時間学習の導入
GUARD-ITは入力依存のアクティベーションステアリングを推論時に解き放ち、モデルの重みはそのまま残す。
TOFUとMUSEの実験では、GUARD-ITは3つのモデルスケールで12の勾配ベースラインと一致するか、あるいは超えている。
論文 参考訳(メタデータ) (2026-05-12T21:26:25Z) - Pioneer Agent: Continual Improvement of Small Language Models in Production [6.452260317191361]
小さな言語モデルは、低コスト、高速な推論、特殊化の容易さのために、製品展開にとって魅力的なものだ。
特定のタスクに小さな言語モデルを適用するプロセスを自動化するクローズドループシステムであるPioneer Agentを提案する。
論文 参考訳(メタデータ) (2026-04-10T18:13:09Z) - AdaptEvolve: Improving Efficiency of Evolutionary AI Agents through Adaptive Model Selection [14.17960333915609]
進化的エージェントシステムは、計算効率と推論能力の間のトレードオフを強化する。
本稿では,AdaptEvolve: Adaptive Selection for Multi-LLM Evolutionary Refinementを紹介する。
論文 参考訳(メタデータ) (2026-02-12T13:26:56Z) - ProAct: Agentic Lookahead in Interactive Environments [56.50613398808361]
ProActは、2段階のトレーニングパラダイムを通じて、エージェントが正確なルックアヘッド推論を内部化することを可能にするフレームワークである。
そこでは,環境に基づく探索から得られたトラジェクトリの微調整をエージェントが行うGLAD(Grounded LookAhead Distillation)を紹介する。
また,政策段階のアルゴリズムを改良する補助値推定器であるモンテカルロ批判(MC-Critic)を提案する。
論文 参考訳(メタデータ) (2026-02-05T05:45:16Z) - ET-Agent: Incentivizing Effective Tool-Integrated Reasoning Agent via Behavior Calibration [68.89572566071575]
ETAgentはエージェントのツール使用行動を調整するためのトレーニングフレームワークである。
過誤行動パターンを最適行動に段階的に校正するように設計されている。
論文 参考訳(メタデータ) (2026-01-11T11:05:26Z) - Sample-Efficient Online Learning in LM Agents via Hindsight Trajectory Rewriting [92.57796055887995]
本稿では,言語モデルエージェントの強化学習から後視体験のリプレイに適応するプロンプトフレームワークECHOを紹介する。
ECHOは失敗した試みで達成できた代替目標のために最適化された軌道を生成する。
我々は、テキストベースのナビゲーションと計画ベンチマークであるXMiniGridのステートフルバージョンと、協調的な情報収集企業シミュレーションであるPeopleJoinQAについて、ECHOを評価した。
論文 参考訳(メタデータ) (2025-10-11T18:11:09Z) - GrAInS: Gradient-based Attribution for Inference-Time Steering of LLMs and VLMs [56.93583799109029]
GrAInSは推論時ステアリングのアプローチで、言語のみのモデルと視覚言語の両方のモデルとタスクで動作する。
推論中、GrAInSはトークンレベルの属性信号によって誘導されるトランスフォーマー層で隠されたアクティベーションを隠蔽し、アクティベーションを正規化し、表現スケールを保存する。
微調整と既存のステアリングベースラインの両方を一貫して上回る。
論文 参考訳(メタデータ) (2025-07-24T02:34:13Z) - ChameleonLLM: Batch-Aware Dynamic Low-Rank Adaptation via Inference-Time Clusters [3.729242965449096]
本稿では,大規模言語モデルの推論時間適応を可能にする新しいフレームワークであるChameleonLLMを紹介する。
Low-Rank Adaptation (LoRA)のような従来の微調整手法とは異なり、本手法はデコーダ重みに対する適応的な修正を動的に生成する。
同様の入力をインテリジェントにグループ化し、ハイパーネットワーク経由でコンテキスト対応の低ランク更新を演算することで、ChameleonLLMは大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-02-06T18:57:06Z) - STORM: Efficient Stochastic Transformer based World Models for
Reinforcement Learning [82.03481509373037]
近年,モデルに基づく強化学習アルゴリズムは視覚入力環境において顕著な有効性を示している。
本稿では,強力なモデリングと生成機能を組み合わせた効率的な世界モデルアーキテクチャであるTransformer-based wORld Model (STORM)を紹介する。
Stormは、Atari 100$kベンチマークで平均126.7%の人的パフォーマンスを達成し、最先端のメソッドの中で新しい記録を樹立した。
論文 参考訳(メタデータ) (2023-10-14T16:42:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。