論文の概要: Architecting Large Action Models for Human-in-the-Loop Intelligent Robots
- arxiv url: http://arxiv.org/abs/2512.11620v1
- Date: Fri, 12 Dec 2025 14:58:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:40.304539
- Title: Architecting Large Action Models for Human-in-the-Loop Intelligent Robots
- Title(参考訳): 対人知能ロボットのための大規模行動モデルの構築
- Authors: Kanisorn Sangchai, Methasit Boonpun, Withawin Kraipetchara, Paulo Garcia,
- Abstract要約: 既成の基盤モデルを構成することで,優れた大規模行動モデルを構築することができることを示す。
マルチモーダルロボットを用いた実験により,大規模行動モデルインテリジェンスには大規模なエンドツーエンドトレーニングが不要であることが実証された。
- 参考スコア(独自算出の注目度): 0.6999740786886536
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The realization of intelligent robots, operating autonomously and interacting with other intelligent agents, human or artificial, requires the integration of environment perception, reasoning, and action. Classic Artificial Intelligence techniques for this purpose, focusing on symbolic approaches, have long-ago hit the scalability wall on compute and memory costs. Advances in Large Language Models in the past decade (neural approaches) have resulted in unprecedented displays of capability, at the cost of control, explainability, and interpretability. Large Action Models aim at extending Large Language Models to encompass the full perception, reasoning, and action cycle; however, they typically require substantially more comprehensive training and suffer from the same deficiencies in reliability. Here, we show it is possible to build competent Large Action Models by composing off-the-shelf foundation models, and that their control, interpretability, and explainability can be effected by incorporating symbolic wrappers and associated verification on their outputs, achieving verifiable neuro-symbolic solutions for intelligent robots. Our experiments on a multi-modal robot demonstrate that Large Action Model intelligence does not require massive end-to-end training, but can be achieved by integrating efficient perception models with a logic-driven core. We find that driving action execution through the generation of Planning Domain Definition Language (PDDL) code enables a human-in-the-loop verification stage that effectively mitigates action hallucinations. These results can support practitioners in the design and development of robotic Large Action Models across novel industries, and shed light on the ongoing challenges that must be addressed to ensure safety in the field.
- Abstract(参考訳): インテリジェントロボットの実現、自律的に動作し、人間または人工的な他のインテリジェントエージェントと相互作用するには、環境認識、推論、行動の統合が必要である。
この目的のための古典的な人工知能技術は、シンボリックアプローチに重点を置いており、コンピューティングとメモリコストのスケーラビリティの壁を長く押し付けている。
過去10年間の大規模言語モデルの進歩(神経的アプローチ)は、制御、説明可能性、解釈可能性のコストで、前例のない能力の表示をもたらした。
大きなアクションモデルは、大きな言語モデルを拡張して、完全な認識、推論、行動サイクルを包含することを目指しているが、一般的にはより包括的なトレーニングを必要とし、信頼性の同じ欠陥に悩まされる。
そこで,本研究では,既成の基盤モデルを構成することによって,有能な大規模行動モデルを構築することが可能であり,その制御,解釈可能性,説明性は,シンボルラッパーと関連する検証をその出力に組み込むことで,知能ロボットのための検証可能なニューロシンボリック・ソリューションを実現することによって実現可能であることを示す。
マルチモーダルロボットを用いた実験では、大規模行動モデルインテリジェンスには大規模なエンドツーエンドトレーニングは必要ないが、論理駆動コアに効率的な知覚モデルを統合することで実現可能であることが示された。
計画ドメイン定義言語(PDDL)コード生成による動作実行により,行動幻覚を効果的に緩和するループ内検証段階が実現できることが判明した。
これらの結果は、新産業におけるロボット大アクションモデルの設計と開発における実践者を支援し、現場の安全を確保するために対処しなければならない課題に光を当てることができる。
関連論文リスト
- A roadmap for AI in robotics [55.87087746398059]
AIの可能性を生かして、私たちの日常生活にロボットを配備する上での、際立った障壁に取り組みたいと考えています。
この記事では、1990年代からロボット工学におけるAIが達成したことを評価し、課題と約束を列挙した短期的・中期的な研究ロードマップを提案する。
論文 参考訳(メタデータ) (2025-07-26T15:18:28Z) - RoboBrain: A Unified Brain Model for Robotic Manipulation from Abstract to Concrete [27.814422322892522]
MLLM(Multimodal Large Language Models)は、様々なマルチモーダルコンテキストにまたがる顕著な機能を示す。
計画能力、順応知覚、軌道予測の3つの重要なロボット脳能力が欠如している。
タスク計画やオブジェクトの空き時間,エンドエフェクタの軌道といった多次元情報をラベル付けしたデータセットであるShareRobotを紹介する。
ロボットと一般的なマルチモーダルデータを組み合わせたMLLMベースのモデルであるRoboBrainを,マルチステージトレーニング戦略を用いて開発する。
論文 参考訳(メタデータ) (2025-02-28T17:30:39Z) - Redefining Robot Generalization Through Interactive Intelligence [0.0]
ロボットファンデーションモデルは、リアルタイムの人間-ロボット共適応の複雑さを扱うために、インタラクティブなマルチエージェント視点に進化する必要がある、と我々は主張する。
シングルエージェントデザインを超えて、私たちの立場は、ロボット工学の基礎モデルがより堅牢でパーソナライズされ、予想されるパフォーマンスのレベルを達成する方法を強調しています。
論文 参考訳(メタデータ) (2025-02-09T17:13:27Z) - Can Language Models Learn to Skip Steps? [59.84848399905409]
我々は推論においてステップをスキップする能力について研究する。
効率を高めたり認知負荷を減らすためのステップをスキップする人間とは異なり、モデルはそのようなモチベーションを持っていない。
私たちの研究は、人間のようなステップスキッピング能力に関する最初の調査である。
論文 参考訳(メタデータ) (2024-11-04T07:10:24Z) - $π_0$: A Vision-Language-Action Flow Model for General Robot Control [77.32743739202543]
本稿では,インターネット規模のセマンティック知識を継承するために,事前学習された視覚言語モデル(VLM)上に構築された新しいフローマッチングアーキテクチャを提案する。
我々は,事前訓練後のタスクをゼロショットで実行し,人からの言語指導に追従し,微調整で新たなスキルを習得する能力の観点から,我々のモデルを評価した。
論文 参考訳(メタデータ) (2024-10-31T17:22:30Z) - Integration of cognitive tasks into artificial general intelligence test
for large models [54.72053150920186]
我々は、認知科学にインスパイアされた人工知能(AGI)テストの包括的な枠組みを提唱する。
認知科学に触発されたAGIテストは、結晶化インテリジェンス、流体インテリジェンス、社会インテリジェンス、エンボディドインテリジェンスを含む、すべてのインテリジェンスファセットを含んでいる。
論文 参考訳(メタデータ) (2024-02-04T15:50:42Z) - A Survey on Robotics with Foundation Models: toward Embodied AI [30.999414445286757]
近年のコンピュータビジョン,自然言語処理,マルチモーダリティ学習の進歩は,基礎モデルが特定のタスクに対して超人的能力を持つことを示している。
この調査は、ロボット工学の基礎モデルの包括的で最新の概要を提供し、自律的な操作に焦点を当て、高レベルの計画と低レベルの制御を包含することを目的としている。
論文 参考訳(メタデータ) (2024-02-04T07:55:01Z) - Formal Modelling for Multi-Robot Systems Under Uncertainty [11.21074891465253]
我々は不確実性下でのマルチロボットシステムのフォーマリズムのモデル化についてレビューする。
計画、強化学習、モデルチェック、シミュレーションにどのように使用できるかについて議論する。
論文 参考訳(メタデータ) (2023-05-26T15:23:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。