論文の概要: Evidence Over Plans: Online Trajectory Verification for Skill Distillation
- arxiv url: http://arxiv.org/abs/2605.09192v1
- Date: Sat, 09 May 2026 22:15:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 02:24:05.529545
- Title: Evidence Over Plans: Online Trajectory Verification for Skill Distillation
- Title(参考訳): 計画のエビデンス: スキル蒸留のためのオンライン軌道検証
- Authors: Yang Zhou, Zihan Dong, Zhenting Wang, Can Jin, Shiyu Zhao, Bangwei Guo, Difei Gu, Linjun Zhang, Mu Zhou, Dimitris N. Metaxas,
- Abstract要約: 後方蒸留指数 (Posterior Distillation Index, PDI) は、タスク環境証拠に蒸留技術がどの程度うまく根付いているかを測る軌跡レベルの指標である。
SPARKはPDIを計算するのに使用される環境検証トラジェクトリを生成する。
本研究では,SPARK生成スキルが非スキルベースラインを一貫して上回り,学生モデルにおける人書きスキルを上回っていることを示す。
- 参考スコア(独自算出の注目度): 59.17625804241461
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Agent skills can remarkably improve task success rates by using human-written procedural documents, but their quality is difficult to assess without environment-grounded verification. Existing skill generation methods heavily rely on preference logs rather than direct environment interaction, often yielding negligible or even degraded gains. We identify that it is a fundamental timing bottleneck: robust skills should be posterior-based, distilled from empirical environment interaction rather than prior plans. In this study, we introduce the Posterior Distillation Index (PDI), a trajectory-level metric that quantifies how well a distilled skill is grounded in the task-environment evidence. To operationalize PDI, we present SPARK (Structured Pipelines for Autonomous Runnable tasKs and sKill generation) for preserving task execution evidence towards full trajectory-level analysis. SPARK generates environment-verified trajectories used to compute PDI, and it applies PDI as an online diagnostic and intervention signal to ensure posterior skill formation. Across 86 runnable tasks, SPARK-generated skills consistently surpass no-skill baselines and outperform human-written skills on student models (inference cost up to 1,000x cheaper than teacher models). These findings show that PDI-guided distillation produces efficient and transferable skills grounded in the task-environment interaction. We release our code at https://github.com/EtaYang10th/spark-skills .
- Abstract(参考訳): エージェントスキルは人手による手続き文書を用いることでタスク成功率を著しく向上させることができるが,その品質は環境条件による検証を伴わずに評価することは困難である。
既存のスキル生成手法は、直接の環境相互作用よりも好みのログに大きく依存しており、しばしば無視できない、あるいは劣化した利得をもたらす。
強靭なスキルは、以前の計画よりも経験的な環境相互作用から抽出されるべきである。
本研究では, PDI(Posterior Distillation Index)という, 作業環境証拠に蒸留技術がどの程度有効であるかを定量化するためのトラジェクトリレベルの指標について紹介する。
PDI を運用するために,SPARK (Structured Pipelines for autonomous Runnable tasKs and sKill generation) を提案する。
SPARKはPDIの計算に使用される環境検証トラジェクトリを生成し、PDIをオンライン診断および介入信号として適用し、後部スキル形成を確実にする。
86の実行可能なタスクで、SPARK生成スキルは一貫して非スキルのベースラインを上回り、学生モデル(教師モデルより最大1000倍安い推論コスト)で人書きスキルを上回っている。
これらの結果から, PDI誘導蒸留はタスク-環境相互作用に根ざした効率的かつ伝達可能な技術を生み出すことが示唆された。
コードをhttps://github.com/EtaYang10th/spark-skillsでリリースしています。
関連論文リスト
- E$^2$DT: Efficient and Effective Decision Transformer with Experience-Aware Sampling for Robotic Manipulation [12.326967455610536]
Decision Transformer (DT) は、長期タスクに対処するための効果的なフレームワークとして登場した。
E$2$DTはDT誘導k-Determinantal Point Processサンプリングフレームワークである。
私たちのフレームワークはエクスペリエンスを意識しており、E$2$DTの両方を効率的にできます。
論文 参考訳(メタデータ) (2026-04-30T19:28:44Z) - Skill-SD: Skill-Conditioned Self-Distillation for Multi-turn LLM Agents [24.99615788156812]
Skill-SDはエージェント自身の軌道を動的トレーニングのみの監視に変換するフレームワークである。
我々は, 重み付き逆KL損失を導出し, 勾配補正型トークンレベルの蒸留を行った。
エージェントベンチマークの実験結果は、Skill-SDが標準RLベースラインを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2026-04-12T14:57:52Z) - Autonomous Continual Learning of Computer-Use Agents for Environment Adaptation [57.65688895630163]
ACuRLは自律的なカリキュラム強化学習フレームワークで、エージェントを人間データゼロの特定の環境に継続的に適応させる。
本研究では,環境内学習と環境横断学習の両方を効果的に実現し,既存の環境を忘れずに4~22%の性能向上を実現した。
論文 参考訳(メタデータ) (2026-02-10T23:06:02Z) - Self-Imitated Diffusion Policy for Efficient and Robust Visual Navigation [7.341858898582114]
SIDP(Self-Imitated Diffusion Policy)は、自己からサンプリングされた一連の軌跡を選択的に模倣することによって、計画の改善を学ぶ新しいフレームワークである。
具体的には、SIDPは報酬誘導型自己刺激機構を導入し、政策が常に高品質な軌道を効率的に生成することを奨励する。
論文 参考訳(メタデータ) (2026-01-30T13:27:59Z) - No Regrets: Investigating and Improving Regret Approximations for Curriculum Discovery [53.08822154199948]
非教師なし環境設計(UED)手法は、エージェントがイン・オブ・アウト・ディストリビューションタスクに対して堅牢になることを約束する適応的カリキュラムとして近年注目を集めている。
本研究は,既存のUEDメソッドがいかにトレーニング環境を選択するかを検討する。
本研究では,学習性の高いシナリオを直接訓練する手法を開発した。
論文 参考訳(メタデータ) (2024-08-27T14:31:54Z) - Skill-Based Reinforcement Learning with Intrinsic Reward Matching [77.34726150561087]
Intrinsic Reward Matching (IRM) を提案する。
IRMにより、従来のスキル選択方法よりもはるかに効果的に事前訓練されたスキルを活用できる。
論文 参考訳(メタデータ) (2022-10-14T00:04:49Z) - Design of Negative Sampling Strategies for Distantly Supervised Skill
Extraction [19.43668931500507]
本稿では,リテラルマッチングによる遠隔監視に基づく,スキル抽出のためのエンドツーエンドシステムを提案する。
ESCO分類を用いて、関連するスキルからネガティブな例を選択することで、最大の改善が得られます。
我々は,タスクのさらなる研究を促進するために,研究目的のベンチマークデータセットをリリースする。
論文 参考訳(メタデータ) (2022-09-13T13:37:06Z) - Learning Task Automata for Reinforcement Learning using Hidden Markov
Models [37.69303106863453]
本稿では,非マルコフ型タスク仕様を簡潔な有限状態タスクオートマトンとして学習するための新しいパイプラインを提案する。
我々は,その製品 MDP を部分的に観測可能な MDP として扱い,よく知られた Baum-Welch アルゴリズムを用いて隠れマルコフモデルを学習することで,仕様のオートマトンと環境の MDP からなるモデルである製品 MDP を学習する。
我々の学習タスクオートマトンはタスクをその構成サブタスクに分解し、RLエージェントが後に最適なポリシーを合成できる速度を改善する。
論文 参考訳(メタデータ) (2022-08-25T02:58:23Z) - Self-Knowledge Distillation with Progressive Refinement of Targets [1.1470070927586016]
プログレッシブ自己知識蒸留(PS-KD)という,単純で効果的な正則化法を提案する。
PS-KDは、訓練中にハードターゲットを柔らかくするために、モデルの知識を徐々に蒸留する。
分析の結果,PS-KDは,試料の分類の難しさに応じて勾配を再スケーリングすることで,硬い試料採掘の効果を示すことがわかった。
論文 参考訳(メタデータ) (2020-06-22T04:06:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。