論文の概要: Real-Time Verification of Embodied Reasoning for Generative Skill Acquisition
- arxiv url: http://arxiv.org/abs/2505.11175v2
- Date: Mon, 19 May 2025 05:14:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 12:45:56.192511
- Title: Real-Time Verification of Embodied Reasoning for Generative Skill Acquisition
- Title(参考訳): 創発的スキル獲得のための身体的推論のリアルタイム検証
- Authors: Bo Yue, Shuqi Guo, Kaiyu Hu, Chujiao Wang, Benyou Wang, Kui Jia, Guiliang Liu,
- Abstract要約: 生成的スキル獲得により、エンボディエージェントは、スケーラブルで進化するコントロールスキルのレパートリーを積極的に学ぶことができる。
本稿では,実時間検証の原則を具体化技術学習に体系的に統合するフレームワークであるVERGSAを提案する。
我々の知る限り、本手法は検証駆動型生成スキル獲得のための総合的なトレーニングデータセットとして最初のものである。
- 参考スコア(独自算出の注目度): 47.068088124436535
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative skill acquisition enables embodied agents to actively learn a scalable and evolving repertoire of control skills, crucial for the advancement of large decision models. While prior approaches often rely on supervision signals from generalist agents (e.g., LLMs), their effectiveness in complex 3D environments remains unclear; exhaustive evaluation incurs substantial computational costs, significantly hindering the efficiency of skill learning. Inspired by recent successes in verification models for mathematical reasoning, we propose VERGSA (Verifying Embodied Reasoning in Generative Skill Acquisition), a framework that systematically integrates real-time verification principles into embodied skill learning. VERGSA establishes 1) a seamless extension from verification of mathematical reasoning into embodied learning by dynamically incorporating contextually relevant tasks into prompts and defining success metrics for both subtasks and overall tasks, and 2) an automated, scalable reward labeling scheme that synthesizes dense reward signals by iteratively finalizing the contribution of scene configuration and subtask learning to overall skill acquisition. To the best of our knowledge, this approach constitutes the first comprehensive training dataset for verification-driven generative skill acquisition, eliminating arduous manual reward engineering. Experiments validate the efficacy of our approach: 1) the exemplar task pool improves the average task success rates by 21%, 2) our verification model boosts success rates by 24% for novel tasks and 36% for encountered tasks, and 3) outperforms LLM-as-a-Judge baselines in verification quality.
- Abstract(参考訳): 生成的スキル獲得により、エンボディエージェントは、大規模な意思決定モデルの進歩に不可欠な、スケーラブルで進化する制御スキルのレパートリーを積極的に学習することができる。
従来のアプローチでは、ジェネラリストエージェント(例えばLSM)の監視信号に頼っていることが多いが、複雑な3D環境におけるそれらの効果は依然として不明であり、徹底的な評価はかなりの計算コストをもたらし、スキル学習の効率を著しく損なう。
近年の数学的推論の検証モデルの成功に触発されて,実時間検証の原則を体系的に具体化スキル学習に統合するフレームワークであるVERGSA(Verifying Embodied Reasoning in Generative Skill Acquisition)を提案する。
VERGSA が確立
1) 数学的推論の検証から具体的学習へのシームレスな拡張は、文脈的関連タスクをプロンプトに動的に組み込んで、サブタスクと全体タスクの両方の成功基準を定義し、
2)シーン構成とサブタスク学習の総合的獲得への貢献を反復的に確定させることにより、密集した報酬信号を合成する、自動化されたスケーラブルな報酬ラベル方式を提案する。
我々の知る限りでは、この手法は検証駆動型生成スキル獲得のための最初の総合的なトレーニングデータセットを構成しており、手動報酬工学は不要である。
実験は我々のアプローチの有効性を検証する。
1)模範タスクプールは、平均タスク成功率を21%改善する。
2)本検証モデルでは,新規タスクが24%,遭遇タスクが36%,成功率が24%向上する。
3) LLM-as-a-Judgeベースラインを検証品質で上回る。
関連論文リスト
- Knowledge capture, adaptation and composition (KCAC): A framework for cross-task curriculum learning in robotic manipulation [6.683222869973898]
強化学習(Reinforcement Learning, RL)は、ロボット操作において顕著な可能性を示しているが、サンプルの非効率性や解釈可能性の欠如において課題に直面している。
本稿では,クロスタスクのカリキュラム学習を通じてRLに知識伝達を統合するための知識キャプチャ,適応,構成フレームワークを提案する。
その結果,従来のRL法に比べてタスク成功率を10%向上させながら,トレーニング時間の40%削減を実現した。
論文 参考訳(メタデータ) (2025-05-15T17:30:29Z) - ReVISE: Learning to Refine at Test-Time via Intrinsic Self-Verification [53.80183105328448]
Refine via Intrinsic Self-Verification (ReVISE)は、LLMが自己検証を通じてアウトプットを自己修正できる効率的なフレームワークである。
様々な推論タスクに関する実験により、ReVISEは効率的な自己補正を実現し、推論性能を大幅に向上することを示した。
論文 参考訳(メタデータ) (2025-02-20T13:50:02Z) - Re-TASK: Revisiting LLM Tasks from Capability, Skill, and Knowledge Perspectives [54.14429346914995]
CoT (Chain-of-Thought) は複雑な問題を解決する重要な方法となっている。
大規模言語モデル(LLM)はドメイン固有のタスクを正確に分解するのに苦労することが多い。
本稿では,LLMタスクを能力,スキル,知識の観点から再検討する理論モデルであるRe-TASKフレームワークを紹介する。
論文 参考訳(メタデータ) (2024-08-13T13:58:23Z) - LLM-Empowered State Representation for Reinforcement Learning [64.3351150030341]
強化学習における状態表現はしばしば重要なタスク関連の詳細を省略する。
LLMを用いたタスク関連状態表現を自律的に生成する新しい手法であるLESR(LLM-Empowered State Representation)を提案する。
LESRは高いサンプル効率を示し、ムジョコタスクの累積報酬の29%、ジム・ロボティクスタスクの成功率の30%で最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2024-07-18T07:47:51Z) - Variational Curriculum Reinforcement Learning for Unsupervised Discovery
of Skills [25.326624139426514]
本稿では,VUVC(Value Uncertainty Vari Curriculum Curriculum)と呼ばれる情報理論に基づく教師なしスキル発見手法を提案する。
規則性条件下では、VUVCは、均一なカリキュラムに比べて訪問状態のエントロピーの増加を加速させる。
また,本手法によって発見された技術は,ゼロショット設定で現実のロボットナビゲーションタスクを達成できることを実証した。
論文 参考訳(メタデータ) (2023-10-30T10:34:25Z) - Human-Timescale Adaptation in an Open-Ended Task Space [56.55530165036327]
大規模にRLエージェントを訓練することで、オープンエンドの新規な3D問題に人間と同じくらい早く適応できる一般的なコンテキスト内学習アルゴリズムが実現可能であることを示す。
我々の研究は、より大規模で適応的なRLエージェントの基礎を築いた。
論文 参考訳(メタデータ) (2023-01-18T15:39:21Z) - Task-Agnostic Continual Reinforcement Learning: Gaining Insights and
Overcoming Challenges [27.474011433615317]
連続学習(CL)は、一連のタスクから学習するモデルやエージェントの開発を可能にする。
タスクに依存しないCLとマルチタスク(MTL)エージェントのパフォーマンス差に寄与する要因について検討する。
論文 参考訳(メタデータ) (2022-05-28T17:59:00Z) - Evidentiality-guided Generation for Knowledge-Intensive NLP Tasks [59.761411682238645]
Retrieval-augmented Generation Modelは、多くの知識集約型NLPタスクにまたがって最先端のパフォーマンスを示している。
生成器の訓練に、パスが出力をサポートするための正しい証拠を含むか否かに関わらず、パスの明快さを組み込む方法を導入する。
論文 参考訳(メタデータ) (2021-12-16T08:18:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。