論文の概要: Training Cross-Morphology Embodied AI Agents: From Practical Challenges to Theoretical Foundations
- arxiv url: http://arxiv.org/abs/2506.03613v1
- Date: Wed, 04 Jun 2025 06:44:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.18537
- Title: Training Cross-Morphology Embodied AI Agents: From Practical Challenges to Theoretical Foundations
- Title(参考訳): 組織横断型AIエージェントの訓練 : 実践的課題から理論的基礎まで
- Authors: Shaoshan Liu, Fan Wang, Hongjun Zhou, Yuanfeng Wang,
- Abstract要約: この記事では、現実のエンジニアリング障壁を克服するために理論的洞察が不可欠であることを示す。
PSPACE完全である構造化部分可観測マルコフ決定プロセス(POMDP)に還元されることを証明した。
また,生物システムにインスパイアされた分散学習手法である集合適応についても検討する。
- 参考スコア(独自算出の注目度): 16.735655028118817
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While theory and practice are often seen as separate domains, this article shows that theoretical insight is essential for overcoming real-world engineering barriers. We begin with a practical challenge: training a cross-morphology embodied AI policy that generalizes across diverse robot morphologies. We formalize this as the Heterogeneous Embodied Agent Training (HEAT) problem and prove it reduces to a structured Partially Observable Markov Decision Process (POMDP) that is PSPACE-complete. This result explains why current reinforcement learning pipelines break down under morphological diversity, due to sequential training constraints, memory-policy coupling, and data incompatibility. We further explore Collective Adaptation, a distributed learning alternative inspired by biological systems. Though NEXP-complete in theory, it offers meaningful scalability and deployment benefits in practice. This work illustrates how computational theory can illuminate system design trade-offs and guide the development of more robust, scalable embodied AI. For practitioners and researchers to explore this problem, the implementation code of this work has been made publicly available at https://github.com/airs-admin/HEAT
- Abstract(参考訳): 理論と実践は、しばしば別々の領域と見なされるが、この記事では、現実の工学的障壁を克服するために理論的な洞察が不可欠であることを示す。
私たちはまず、多様なロボット形態を一般化するクロスモルフォロジーを具体化したAIポリシーのトレーニングという、実践的な課題から始めます。
PSPACE完全である構造化部分可観測マルコフ決定プロセス (POMDP) に還元されることを証明し, これをHeterogeneous Embodied Agent Training (HEAT) 問題として定式化する。
この結果から、逐次的なトレーニング制約、メモリとポリティクスの結合、データの非互換性などにより、現在の強化学習パイプラインが形態的多様性の下で崩壊する理由が説明できる。
さらに,生物システムにインスパイアされた分散学習手法である集合適応について検討する。
NEXPは理論上は完全だが、実際は有意義なスケーラビリティとデプロイメントの利点を提供する。
この研究は、計算理論がシステム設計のトレードオフを照らし、より堅牢でスケーラブルなAIの開発を導く方法を示している。
この問題を解決する実践者や研究者にとって、この研究の実装コードはhttps://github.com/airs-admin/HEATで公開されている。
関連論文リスト
- On the Mistaken Assumption of Interchangeable Deep Reinforcement Learning Implementations [53.0667196725616]
ディープ・強化学習(Deep Reinforcement Learning, DRL)とは、エージェントがニューラルネットワークを使って特定の環境でどのアクションをとるかを学ぶ人工知能のパラダイムである。
DRLは最近、ドライビングシミュレーター、3Dロボット制御、マルチプレイヤー・オンライン・バトル・アリーナ・ビデオゲームといった複雑な環境を解くことで注目を集めている。
現在、Deep Q-Network (DQN) や Proximal Policy Optimization (PPO) アルゴリズムのような、これらのエージェントを訓練する最先端のアルゴリズムの実装が数多く存在する。
論文 参考訳(メタデータ) (2025-03-28T16:25:06Z) - Synthesizing world models for bilevel planning [46.21010194281677]
理論に基づく強化学習(TBRL)は、このギャップに対処するために設計されたアルゴリズムフレームワークである。
TBRLは理論の階層的表現と、より強力な学習と計画のための効率的なプログラム合成手法を利用する。
政策を直接合成する手法が不十分な多様かつ挑戦的なグリッドワールドゲームに対して,このアプローチがうまく適用可能であることを実証する。
論文 参考訳(メタデータ) (2025-03-26T00:10:01Z) - Vintix: Action Model via In-Context Reinforcement Learning [72.65703565352769]
In-context reinforcement learning を通じて振る舞いを学習できる固定されたクロスドメインモデルを導入することで ICRL のスケールアップに向けた第一歩を提示する。
ICRLを促進するために設計されたフレームワークであるアルゴリズム蒸留は、多目的な作用モデルを構築するために、専門家蒸留に代わる魅力的な、競争力のある代替手段を提供することを示した。
論文 参考訳(メタデータ) (2025-01-31T18:57:08Z) - Causality-Aware Transformer Networks for Robotic Navigation [13.719643934968367]
Visual Navigationの現在の研究は、改善の機会を明らかにしている。
RNNとTransformerの直接的な採用はしばしば、Embodied AIと従来のシーケンシャルなデータモデリングの具体的な違いを見落としている。
因果理解モジュールを特徴とするナビゲーション用因果認識変換器(CAT)ネットワークを提案する。
論文 参考訳(メタデータ) (2024-09-04T12:53:26Z) - Identifiable Causal Representation Learning: Unsupervised, Multi-View, and Multi-Environment [10.814585613336778]
因果表現学習は、機械学習のコアとなる強みと因果性を組み合わせることを目的としている。
この論文は、CRLが直接の監督なしに何が可能であるかを調査し、理論的基礎に寄与する。
論文 参考訳(メタデータ) (2024-06-19T09:14:40Z) - Hierarchical Invariance for Robust and Interpretable Vision Tasks at Larger Scales [54.78115855552886]
本稿では、畳み込みニューラルネットワーク(CNN)のような階層型アーキテクチャを用いて、オーバーコンプリート不変量を構築する方法を示す。
オーバーコンプリート性により、そのタスクはニューラルアーキテクチャサーチ(NAS)のような方法で適応的に形成される。
大規模で頑健で解釈可能な視覚タスクの場合、階層的不変表現は伝統的なCNNや不変量に対する効果的な代替物とみなすことができる。
論文 参考訳(メタデータ) (2024-02-23T16:50:07Z) - Pangu-Agent: A Fine-Tunable Generalist Agent with Structured Reasoning [50.47568731994238]
人工知能(AI)エージェント作成の鍵となる方法は強化学習(RL)である
本稿では,構造化推論をAIエージェントのポリシーに統合し,学習するための一般的なフレームワークモデルを提案する。
論文 参考訳(メタデータ) (2023-12-22T17:57:57Z) - Explainable Reinforcement Learning: A Survey [0.0]
説明可能な人工知能(XAI)はここ数年で勢いを増している。
XAIモデルには1つの有害な特徴がある。
本調査は、説明可能な強化学習(XRL)手法の概要を提供することで、このギャップに対処しようとするものである。
論文 参考訳(メタデータ) (2020-05-13T10:52:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。