論文の概要: Bridging VLMs and Embodied Intelligence with Deliberate Practice Policy Optimization
- arxiv url: http://arxiv.org/abs/2511.16602v1
- Date: Thu, 20 Nov 2025 17:58:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.778565
- Title: Bridging VLMs and Embodied Intelligence with Deliberate Practice Policy Optimization
- Title(参考訳): 熟考実践政策最適化によるVLMと身体知のブリッジ
- Authors: Yi Zhang, Che Liu, Xiancong Ren, Hanchu Ni, Yingji Zhang, Shuai Zhang, Zeyuan Ding, Jiayu Hu, Haozhe Shan, Junbo Qi, Yan Bai, Dengjie Li, Jiachen Luo, Yidong Wang, Yong Dai, Zenglin Xu, Bin Shen, Qifan Wang, Jian Tang, Xiaozhu Ju,
- Abstract要約: Deliberate Practice Policy Optimization (DPPO) はメタ認知型メタループのトレーニングフレームワークである。
DPPOは教師付き微調整(能力拡張)と強化学習(技能向上)の交互に行う
実証的には、DPPO(Pelican-VL 1.0)で視覚言語を具現化したモデルをトレーニングすると、ベースモデルよりも20.3%パフォーマンスが向上する。
私たちはモデルとコードをオープンソースにして、データとリソースのボトルネックを軽減する最初の体系的なフレームワークを提供しています。
- 参考スコア(独自算出の注目度): 72.20212909644017
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Developing a universal and versatile embodied intelligence system presents two primary challenges: the critical embodied data bottleneck, where real-world data is scarce and expensive, and the algorithmic inefficiency of existing methods, which are resource-prohibitive. To address these limitations, we introduce Deliberate Practice Policy Optimization (DPPO), a metacognitive ``Metaloop'' training framework that dynamically alternates between supervised fine-tuning (competence expansion) and reinforcement learning (skill refinement). This enables automatic weakness identification and targeted resource allocation, specifically designed to maximize learning efficiency from sparse, finite data. Theoretically, DPPO can be formalised as a unified preference-learning framework. Empirically, training a vision-language embodied model with DPPO, referred to as Pelican-VL 1.0, yields a 20.3% performance improvement over the base model and surpasses open-source models at the 100B-parameter scale by 10.6%. We are open-sourcing both the models and code, providing the first systematic framework that alleviates the data and resource bottleneck and enables the community to build versatile embodied agents efficiently.
- Abstract(参考訳): 普遍的で汎用的なエンボディードインテリジェンスシステムを開発することは、2つの大きな課題を提示している。
これらの制約に対処するために,教師付き微調整(能力拡張)と強化学習(技能向上)を動的に交互に行うメタ認知型 ``Metaloop'' トレーニングフレームワークである Deliberate Practice Policy Optimization (DPPO) を導入する。
これにより、スパースな有限データから学習効率を最大化するために特別に設計された、自動的な弱点識別とリソース割り当てが可能になる。
理論的には、DPPOは統一された嗜好学習フレームワークとして定式化することができる。
実証的に、DPPO(Pelican-VL 1.0)で視覚言語を具現化したモデルをトレーニングすると、ベースモデルよりも20.3%パフォーマンスが向上し、100Bパラメータスケールでオープンソースモデルを10.6%上回った。
私たちはモデルとコードをオープンソースにして、データとリソースのボトルネックを緩和し、コミュニティが多目的なエンボディエージェントを効率的に構築できる最初の体系的なフレームワークを提供しています。
関連論文リスト
- RecLLM-R1: A Two-Stage Training Paradigm with Reinforcement Learning and Chain-of-Thought v1 [20.92548890511589]
本稿では,Large Language Models(LLM)を利用したレコメンデーションフレームワークであるRecLLM-R1を紹介する。
RecLLM-R1は、精度、多様性、新規性など、さまざまな評価指標において、既存のベースラインメソッドを大幅に上回っている。
論文 参考訳(メタデータ) (2025-06-24T01:39:34Z) - Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである
我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文 参考訳(メタデータ) (2025-06-17T17:12:34Z) - Memory-Enhanced Neural Solvers for Routing Problems [8.255381359612885]
本稿では、メモリを活用して推論時のニューラルソルバの探索を改善するアプローチであるMementOを提案する。
本研究は, ツリーサーチと政策段階の微調整よりも, 走行セールスマンとキャパシタント車両ルーティングの問題に有効性を示すものである。
我々は,大規模インスタンス上で全RL自動回帰解法をトレーニングし,MementOのスケーラビリティとデータ効率を検証した。
論文 参考訳(メタデータ) (2024-06-24T08:18:19Z) - Source-Free Domain Adaptation Guided by Vision and Vision-Language Pre-Training [23.56208527227504]
ソースフリードメイン適応(SFDA)は、完全にラベル付けされたソースドメインでトレーニングされたソースモデルを、関連するがラベル付けされていないターゲットドメインに適応させることを目的としている。
従来のSFDAパイプラインでは、ソースモデルを初期化するために、大量のデータ(イメージネットなど)を事前訓練した特徴抽出器が使用される。
トレーニング済みネットワークを対象適応プロセスに組み込むための統合フレームワークを導入する。
論文 参考訳(メタデータ) (2024-05-05T14:48:13Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - Towards Deployment-Efficient Reinforcement Learning: Lower Bound and
Optimality [141.89413461337324]
展開効率は、強化学習(RL)の多くの実世界の応用にとって重要な基準である
本稿では,「制約付き最適化」の観点から,デプロイ効率の高いRL(DE-RL)の理論的定式化を提案する。
論文 参考訳(メタデータ) (2022-02-14T01:31:46Z) - Edge-assisted Democratized Learning Towards Federated Analytics [67.44078999945722]
本稿では,エッジ支援型民主化学習機構であるEdge-DemLearnの階層的学習構造を示す。
また、Edge-DemLearnを柔軟なモデルトレーニングメカニズムとして検証し、リージョンに分散制御と集約の方法論を構築する。
論文 参考訳(メタデータ) (2020-12-01T11:46:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。