論文の概要: HY-Embodied-0.5: Embodied Foundation Models for Real-World Agents
- arxiv url: http://arxiv.org/abs/2604.07430v1
- Date: Wed, 08 Apr 2026 17:59:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.478839
- Title: HY-Embodied-0.5: Embodied Foundation Models for Real-World Agents
- Title(参考訳): HY-Embodied-0.5:Embodied Foundation Models for Real-World Agents
- Authors: Tencent Robotics X, HY Vision Team, :, Xumin Yu, Zuyan Liu, Ziyi Wang, He Zhang, Yongming Rao, Fangfu Liu, Yani Zhang, Ruowen Zhao, Oran Wang, Yves Liang, Haitao Lin, Minghui Wang, Yubo Dong, Kevin Cheng, Bolin Ni, Rui Huang, Han Hu, Zhengyou Zhang, Linus, Shunyu Yao,
- Abstract要約: 本稿では,実世界のエンボディエージェントに特化して設計された基礎モデルのファウンデーションモデルであるHY-Embodied-0.5を紹介する。
HY-Embodied-0.5スイートは、エッジ配置用に設計された2Bアクティベートパラメータを持つ効率的なモデルと、複雑な推論をターゲットとした32Bアクティベートパラメータを持つ強力なモデルである。
私たちのMoT-2Bモデルは16ベンチマークで同等の大きさの最先端モデルより優れていますが、32BはGemini 3.0 Proのようなフロンティアモデルに匹敵するパフォーマンスを実現しています。
- 参考スコア(独自算出の注目度): 71.09493646932046
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce HY-Embodied-0.5, a family of foundation models specifically designed for real-world embodied agents. To bridge the gap between general Vision-Language Models (VLMs) and the demands of embodied agents, our models are developed to enhance the core capabilities required by embodied intelligence: spatial and temporal visual perception, alongside advanced embodied reasoning for prediction, interaction, and planning. The HY-Embodied-0.5 suite comprises two primary variants: an efficient model with 2B activated parameters designed for edge deployment, and a powerful model with 32B activated parameters targeted for complex reasoning. To support the fine-grained visual perception essential for embodied tasks, we adopt a Mixture-of-Transformers (MoT) architecture to enable modality-specific computing. By incorporating latent tokens, this design effectively enhances the perceptual representation of the models. To improve reasoning capabilities, we introduce an iterative, self-evolving post-training paradigm. Furthermore, we employ on-policy distillation to transfer the advanced capabilities of the large model to the smaller variant, thereby maximizing the performance potential of the compact model. Extensive evaluations across 22 benchmarks, spanning visual perception, spatial reasoning, and embodied understanding, demonstrate the effectiveness of our approach. Our MoT-2B model outperforms similarly sized state-of-the-art models on 16 benchmarks, while the 32B variant achieves performance comparable to frontier models such as Gemini 3.0 Pro. In downstream robot control experiments, we leverage our robust VLM foundation to train an effective Vision-Language-Action (VLA) model, achieving compelling results in real-world physical evaluations. Code and models are open-sourced at https://github.com/Tencent-Hunyuan/HY-Embodied.
- Abstract(参考訳): 本稿では,実世界のエンボディエージェントに特化して設計された基礎モデルのファウンデーションモデルであるHY-Embodied-0.5を紹介する。
一般視覚言語モデル(VLM)とエンボディエージェントの要求とのギャップを埋めるため,我々のモデルは,予測,相互作用,計画のための高度なエンボディド推論とともに,空間的および時間的視覚知覚という,インテリジェンスによって要求されるコア能力を強化するために開発された。
HY-Embodied-0.5スイートは、エッジ配置用に設計された2Bアクティベートパラメータを持つ効率的なモデルと、複雑な推論をターゲットとした32Bアクティベートパラメータを持つ強力なモデルである。
具体化タスクに不可欠な微粒な視覚知覚を支援するため,モーフィア・オブ・トランスフォーマ(Mixture-of-Transformers, MOT)アーキテクチャを採用し,モダリティ固有計算を実現する。
潜在トークンを組み込むことで、この設計はモデルの知覚表現を効果的に強化する。
推論能力を改善するために、反復的で自己進化的なポストトレーニングパラダイムを導入する。
さらに, 大規模モデルの高度化能力をより小さい変種に伝達するために, オンライン蒸留を用いて, コンパクトモデルの性能ポテンシャルを最大化する。
視覚知覚,空間的推論,具体的理解など22のベンチマークを総合的に評価し,本手法の有効性を実証した。
私たちのMoT-2Bモデルは16ベンチマークで同等の大きさの最先端モデルより優れていますが、32BはGemini 3.0 Proのようなフロンティアモデルに匹敵するパフォーマンスを実現しています。
下流でのロボット制御実験では、ロバストなVLM基盤を活用し、実世界の物理的評価において説得力のある結果を達成するために有効なビジョン・ランゲージ・アクション(VLA)モデルを訓練する。
コードとモデルはhttps://github.com/Tencent-Hunyuan/HY-Embodied.comでオープンソース化されている。
関連論文リスト
- InternVLA-A1: Unifying Understanding, Generation and Action for Robotic Manipulation [77.07565723756119]
InternVLA-A1は動的予測機能を備えた視覚言語モデルである。
我々は、実世界のロボットデータ、合成シミュレーションデータ、人間のビデオなどを用いて、これらのモデルを異種データソース上で事前訓練する。
InternVLA-A1を実世界の12のロボットタスクとシミュレーションベンチマークで評価した。
論文 参考訳(メタデータ) (2026-01-05T18:54:29Z) - VAGEN: Reinforcing World Model Reasoning for Multi-Turn VLM Agents [130.70999337445468]
言語モデル(LLM)エージェントと比較して、視覚言語モデル(VLM)エージェントを訓練する際の重要な課題は、テキスト状態から複雑な視覚観察に移行することである。
VLMエージェントは、明示的な視覚状態推論によって内部世界モデルを構築することができるか?
我々は、強化学習(RL)を通して、エージェントの推論プロセスを建築的に実施し、報奨する。
エージェントの状態推定と遷移モデリングへの推論が成功に不可欠であることが分かりました。
論文 参考訳(メタデータ) (2025-10-19T16:05:07Z) - On the Use of Hierarchical Vision Foundation Models for Low-Cost Human Mesh Recovery and Pose Estimation [1.6385815610837169]
我々は,ヒューマンメッシュリカバリ(HMR)とヒューマンポーズ推定(HPE)のためのシンプルで効率的なモデルの開発を目指している。
まず、対応する ViTPose モデルを適用することで、3つの軽量な HMR2.0 変異体を構築する。
さらに,階層型視覚基盤モデル(VFM)の初期段階をエンコーダとして活用することを提案する。
論文 参考訳(メタデータ) (2025-10-14T15:57:40Z) - Structuring a Training Strategy to Robustify Perception Models with Realistic Image Augmentations [1.5723316845301678]
本報告では, モデルロバスト性, 性能を向上させるため, 強化したトレーニング手法を提案する。
機械学習モデルの弱点を特定し、適切な拡張を選択し、効果的なトレーニング戦略を考案する包括的フレームワークを提案する。
実験結果は,オープンソースオブジェクトの検出とセマンティックセグメンテーションモデルとデータセットに対する平均平均精度(mAP)や平均距離(mIoU)といった一般的な測定値によって測定されるモデル性能の改善を示す。
論文 参考訳(メタデータ) (2024-08-30T14:15:48Z) - Characterizing Disparity Between Edge Models and High-Accuracy Base Models for Vision Tasks [5.081175754775484]
XDELTAは、高精度ベースモデルと計算効率が良いが低精度エッジモデルの違いを説明する、説明可能な新しいAIツールである。
我々は、XDELTAのモデル不一致を説明する能力をテストするための総合的な評価を行い、120万以上の画像と24のモデルを使用し、6人の参加者による実世界の展開を評価する。
論文 参考訳(メタデータ) (2024-07-13T22:05:58Z) - MoE-LLaVA: Mixture of Experts for Large Vision-Language Models [49.32669226551026]
本稿では,LVLMのための簡易かつ効果的なトレーニング戦略であるMoE-Tuningを提案する。
MoE-LLaVAはMoEベースのスパースLVLMアーキテクチャであり、ルータを通じてトップkの専門家のみをユニークに活性化する。
様々な視覚的理解と物体幻覚のベンチマークにおいて,MoE-LLaVAの顕著な性能を示す実験を行った。
論文 参考訳(メタデータ) (2024-01-29T08:13:40Z) - A Lightweight Feature Fusion Architecture For Resource-Constrained Crowd
Counting [3.5066463427087777]
クラウドカウントモデルの汎用性を高めるために,2つの軽量モデルを導入する。
これらのモデルは、MobileNetとMobileViTという2つの異なるバックボーンを持ちながら、同じダウンストリームアーキテクチャを維持している。
隣接特徴融合を利用して、事前学習モデル(PTM)から多様な特徴を抽出し、その後、シームレスにこれらの特徴を組み合わせる。
論文 参考訳(メタデータ) (2024-01-11T15:13:31Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - STORM: Efficient Stochastic Transformer based World Models for
Reinforcement Learning [82.03481509373037]
近年,モデルに基づく強化学習アルゴリズムは視覚入力環境において顕著な有効性を示している。
本稿では,強力なモデリングと生成機能を組み合わせた効率的な世界モデルアーキテクチャであるTransformer-based wORld Model (STORM)を紹介する。
Stormは、Atari 100$kベンチマークで平均126.7%の人的パフォーマンスを達成し、最先端のメソッドの中で新しい記録を樹立した。
論文 参考訳(メタデータ) (2023-10-14T16:42:02Z) - Sparse MoEs meet Efficient Ensembles [49.313497379189315]
このようなモデルの2つの一般的なクラス、すなわちニューラルネットワークのアンサンブルと専門家のスパースミックス(スパースMoE)の相互作用について研究する。
Efficient Ensemble of Experts (E$3$)は、両モデルのクラスを最大限に活用するスケーラブルでシンプルなMoEのアンサンブルであり、深いアンサンブルよりも最大45%少ないFLOPを使用する。
論文 参考訳(メタデータ) (2021-10-07T11:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。