論文の概要: Steve-Evolving: Open-World Embodied Self-Evolution via Fine-Grained Diagnosis and Dual-Track Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2603.13131v1
- Date: Fri, 13 Mar 2026 16:23:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:12.191572
- Title: Steve-Evolving: Open-World Embodied Self-Evolution via Fine-Grained Diagnosis and Dual-Track Knowledge Distillation
- Title(参考訳): Steve-Evolving: 細粒度診断とデュアルトラック知識蒸留によるオープンワールドの自己進化
- Authors: Zhengwei Xie, Zhisheng Chen, Ziyan Weng, Tingyu Wu, Chenglong Li, Vireo Zhang, Kun Wang,
- Abstract要約: 閉ループ内における2トラックの知識蒸留と微粒な実行診断を密結合した非パラメトリック自己進化フレームワークを提案する。
このメソッドは、エクスペリエンスアンコリング、エクスペリエンス蒸留、ナレッジ駆動クローズドループという3つのフェーズに従っている。
Minecraft MCUの長距離スイートの実験では、静的検索に対する一貫した軌道が示されている。
- 参考スコア(独自算出の注目度): 8.148658798211313
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-world embodied agents must solve long-horizon tasks where the main bottleneck is not single-step planning quality but how interaction experience is organized and evolved. To this end, we present Steve-Evolving, a non-parametric self-evolving framework that tightly couples fine-grained execution diagnosis with dual-track knowledge distillation in a closed loop. The method follows three phases: Experience Anchoring, Experience Distillation, and Knowledge-Driven Closed-Loop Control. In detail, Experience Anchoring solidifies each subgoal attempt into a structured experience tuple with a fixed schema (pre-state, action, diagnosis-result, and post-state) and organizes it in a three-tier experience space with multi-dimensional indices (e.g., condition signatures, spatial hashing, and semantic tags) plus rolling summarization for efficient and auditable recall. To ensure sufficient information density for attribution, the execution layer provides compositional diagnosis signals beyond binary outcomes, including state-difference summaries, enumerated failure causes, continuous indicators, and stagnation/loop detection. Moreover, successful trajectories of Experience Distillation are generalized into reusable skills with explicit preconditions and verification criteria, while failures are distilled into executable guardrails that capture root causes and forbid risky operations at both subgoal and task granularities. Besides, Knowledge-Driven Closed-Loop Control retrieved skills and guardrails are injected into an LLM planner, and diagnosis-triggered local replanning updates the active constraints online, forming a continual evolution process without any model parameter updates. Experiments on the long-horizon suite of Minecraft MCU demonstrate consistent improvements over static-retrieval baselines.
- Abstract(参考訳): オープンワールドの具体化エージェントは、主要なボトルネックが単一ステップの計画品質ではなく、インタラクションエクスペリエンスの組織化と進化の方法であるような、長期的なタスクを解決しなければなりません。
この目的のためにSteve-Evolvingを提案する。これは非パラメトリックな自己進化フレームワークで、クローズドループ内の2トラックの知識蒸留ときめ細かな実行診断を密に結合する。
この方法は、経験記法、経験蒸留法、知識駆動閉ループ制御という3つのフェーズに従っている。
より詳しくは、Experience Anchoringは、固定されたスキーマ(状態、アクション、診断、状態後)で構造化されたエクスペリエンスタプルへの各サブゴールの試みを、多次元のインデックス(例えば、条件シグネチャ、空間ハッシュ、セマンティックタグ)と、効率的で監査可能なリコールのためのローリング要約を備えた3層エクスペリエンス空間に編成する。
帰属のための十分な情報密度を確保するために、実行層は、状態差の要約、列挙された障害原因、連続的な指標、停滞/ループ検出を含むバイナリ結果を超えた合成診断信号を提供する。
さらに, 経験蒸留の成功軌道は, 明示的な前提条件と検証基準で再利用可能な技術に一般化され, 故障は根本原因を把握し, 作業の粒度の危険度を抑える実行可能なガードレールに蒸留される。
さらに、知識駆動クローズドループコントロールが取得したスキルとガードレールをLSMプランナに注入し、診断トリガーのローカルリプランニングがオンラインでアクティブな制約を更新し、モデルパラメータを更新せずに継続的進化プロセスを形成する。
Minecraft MCUの長距離スイートの実験では、静的検索ベースラインよりも一貫した改善が示されている。
関連論文リスト
- AI Knows What's Wrong But Cannot Fix It: Helicoid Dynamics in Frontier LLMs Under High-Stakes Decisions [51.56484100374058]
ヘリコイド力学(Helicoid dynamics)は、その2番目のドメインの特定の障害状態に与えられる名前である。
システムは巧みに働き、エラーに陥り、何がうまくいかなかったかを正確に名付け、さらに高度な技術で同じパターンを再現する。
この先進的な事例シリーズは、7つの主要なシステムにまたがる体制を文書化する。
論文 参考訳(メタデータ) (2026-03-12T05:25:49Z) - LHAW: Controllable Underspecification for Long-Horizon Tasks [8.46227536869596]
LHAW(Long-Horizon Augmenteds)は、モジュール型でデータセットに依存しない合成パイプラインである。
あいまいさのLLM予測に依存するアプローチとは異なり、LHAWは経験的エージェント試行を通じて変種を検証し、観察された終端状態のばらつきに基づいて結果クリティカル、発散、良性として分類する。
TheAgentCompany、SWE-Bench Pro、MCP-Atlasから285のタスク変種をリリースし、現在のエージェントが不明瞭な設定に対して不特定性を検知し、推論し、解決する方法を測定した。
論文 参考訳(メタデータ) (2026-02-11T04:49:50Z) - daVinci-Agency: Unlocking Long-Horizon Agency Data-Efficiently [35.39097522391409]
大規模言語モデル(LLM)は短期的なタスクで優れており、それらを長期のエージェント合成に拡張することは依然として困難である。
本稿では,PRチェーンから構造化監視を体系的にマイニングするdaVinci-Agencyを提案する。
DaVinci-AgencyのPR基底構造は、本質的には、永続的なゴールサイクルの振る舞いを教えるのに不可欠な因果依存性と反復的な洗練を保っている。
論文 参考訳(メタデータ) (2026-02-02T13:23:39Z) - Hierarchical Vision Language Action Model Using Success and Failure Demonstrations [60.82332413442677]
階層型視覚-言語-アクションモデルであるVINEを導入し,高レベル推論を低レベル制御から分離する。
システム2は、2Dシーングラフの抽象化を介して、実現可能性誘導木探索を行う。
システム1はエージェントのコアスキルを変更することなく、低レベルのアクションを実行する。
論文 参考訳(メタデータ) (2025-12-03T15:58:38Z) - CKDA: Cross-modality Knowledge Disentanglement and Alignment for Visible-Infrared Lifelong Person Re-identification [77.07028925223383]
生涯にわたる人物再識別は、異なるシナリオから継続的に収集された個々のデータを同一人物と一致させることを目的としている。
日夜の連続した日中マッチングを実現するために、Visible-Infrared Lifelong person Re-IDentification (VI-LReID) は、可視および赤外線モダリティからのデータのシーケンシャルトレーニングに重点を置いている。
既存の方法は、伝統的知識の破滅的な忘れを和らげるために、クロスモーダルな知識蒸留を利用するのが一般的である。
論文 参考訳(メタデータ) (2025-11-19T01:30:29Z) - Building a Foundational Guardrail for General Agentic Systems via Synthetic Data [76.18834864749606]
LLMエージェントは、計画段階で介入するマルチステップタスクを計画できる。
既存のガードレールは主にポスト・エグゼクティブ(英語版)を運用しており、スケーリングが困難であり、計画レベルで制御可能な監督を行う余地がほとんどない。
我々は、良性軌道を合成し、カテゴリーラベル付きリスクを困難に注入し、自動報酬モデルを介して出力をフィルタリングする制御可能なエンジンであるAuraGenを紹介する。
論文 参考訳(メタデータ) (2025-10-10T18:42:32Z) - Alignment Tipping Process: How Self-Evolution Pushes LLM Agents Off the Rails [103.05296856071931]
本稿では,自己進化型大規模言語モデル(LLM)エージェントに特有の,アライメント・ティッピング・プロセス(ATP)を同定する。
ATPは、連続的な相互作用によってエージェントが訓練中に確立されたアライメント制約を放棄し、強化された自己関心の戦略を支持するときに生じる。
実験の結果、アライメントの利点は自己進化の下で急速に低下し、最初は整合性のない状態に収束したモデルであることが判明した。
論文 参考訳(メタデータ) (2025-10-06T14:48:39Z) - Mutual Information Tracks Policy Coherence in Reinforcement Learning [0.0]
強化学習(RL)エージェントは、センサの故障、アクチュエータの摩耗、環境変化による劣化に直面している。
本稿では,RLの基本動力学を両立させる情報理論フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-12T17:24:20Z) - Endo-TTAP: Robust Endoscopic Tissue Tracking via Multi-Facet Guided Attention and Hybrid Flow-point Supervision [3.290418382279656]
Endo-TTAPは内視鏡的ビデオにおける組織点追跡のための新しいフレームワークである。
MFGAモジュールは、多スケールフローダイナミクス、DINOv2セマンティック埋め込み、および明示的な動きパターンを相乗して、ポイント位置を共同で予測する。
ステージIは、光学フローグラウンド真理を用いた合成データを用いて不確定閉塞正則化を行う。
ステージIIは、教師なしのフロー一貫性と半教師付き学習と、市販のトラッカーからの洗練された擬似ラベルを組み合わせる。
論文 参考訳(メタデータ) (2025-03-28T13:00:07Z) - Weakly-Supervised Spatio-Temporal Anomaly Detection in Surveillance
Video [128.41392860714635]
Weakly-Supervised Snoma-Temporally Detection (WSSTAD) を監視ビデオに導入する。
WSSTADは異常事象を封止する時空間管(すなわち連続する境界ボックスのシーケンス)をローカライズすることを目的としている。
本稿では,空間的・時間的領域に複数粒度を持つ入力提案を行うデュアルブランチネットワークを提案する。
論文 参考訳(メタデータ) (2021-08-09T06:11:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。