Fugu-MT 論文翻訳(概要): A Flexible Field-Based Policy Learning Framework for Diverse Robotic Systems and Sensors

論文の概要: A Flexible Field-Based Policy Learning Framework for Diverse Robotic Systems and Sensors

arxiv url: http://arxiv.org/abs/2512.19148v1
Date: Mon, 22 Dec 2025 08:45:33 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-23 08:17:40.464175
Title: A Flexible Field-Based Policy Learning Framework for Diverse Robotic Systems and Sensors
Title（参考訳）: 多様なロボットシステムとセンサのためのフレキシブルフィールドベースポリシー学習フレームワーク
Authors: Jose Gustavo Buenaventura Carreon, Floris Erich, Roman Mykhailyshyn, Tomohiro Motoda, Ryo Hanai, Yukiyasu Domae,
Abstract要約: 本稿では,D3Fieldsの3次元セマンティックシーン表現と拡散ポリシーに基づく制御を統合し,カテゴリレベルの操作一般化を実現するクロスロボットビズモータ学習フレームワークを提案する。モジュラーデザインは、Microsoft Azure Kinectアレイを搭載したUR5アームや、低レイテンシ制御スタックと直感的な遠隔操作を通じてIntel RealSenseセンサーを備えたバイマニュアルマニピュレータなど、多様なロボットカメラ構成をサポートする。
参考スコア（独自算出の注目度）: 2.2566808037270745
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: We present a cross robot visuomotor learning framework that integrates diffusion policy based control with 3D semantic scene representations from D3Fields to enable category level generalization in manipulation. Its modular design supports diverse robot camera configurations including UR5 arms with Microsoft Azure Kinect arrays and bimanual manipulators with Intel RealSense sensors through a low latency control stack and intuitive teleoperation. A unified configuration layer enables seamless switching between setups for flexible data collection training and evaluation. In a grasp and lift block task the framework achieved an 80 percent success rate after only 100 demonstration episodes demonstrating robust skill transfer between platforms and sensing modalities. This design paves the way for scalable real world studies in cross robotic generalization.
Abstract（参考訳）: 本稿では,D3Fieldsからの3次元セマンティックシーン表現と拡散ポリシーに基づく制御を統合し,カテゴリレベルの操作一般化を実現するクロスロボットビズモータ学習フレームワークを提案する。モジュラーデザインは、Microsoft Azure Kinectアレイを搭載したUR5アームや、低レイテンシ制御スタックと直感的な遠隔操作を通じてIntel RealSenseセンサーを備えたバイマニュアルマニピュレータなど、多様なロボットカメラ構成をサポートする。統一された構成層は、フレキシブルなデータ収集トレーニングと評価のためのセットアップ間のシームレスな切り替えを可能にする。グラウンド・アンド・リフト・ブロック・タスクでは,100回に過ぎず,プラットフォーム間の堅牢なスキル移行と感覚的モダリティを実証し,80%の成功率を達成した。この設計は、クロスロボットの一般化におけるスケーラブルな現実世界の研究の道を開く。

関連論文リスト

IRIS: Learning-Driven Task-Specific Cinema Robot Arm for Visuomotor Motion Control [7.745271598212898]
IRISは、軽量で完全に3Dプリントされたハードウェアデザインと、目標条件付きビズモータ模倣学習フレームワークを統合している。このシステムは、人間のデモから直接、オブジェクト認識と知覚的にスムーズなカメラ軌跡を学習する。完全なプラットフォームは1,000ドル以下で、1.5kgのペイロードをサポートし、約1mmの再現性を実現している。
論文参考訳（メタデータ） (2026-02-19T16:50:31Z)
ABot-M0: VLA Foundation Model for Robotic Manipulation with Action Manifold Learning [31.000965640377128]
ABot-M0は、システマティックデータキュレーションパイプラインを構築するフレームワークである。これは不均一な生データを統一的で効率的な表現にエンドツーエンドに変換することを可能にする。 ABot-M0はデュアルストリーム機構を通じてモジュール認識をサポートする。
論文参考訳（メタデータ） (2026-02-11T16:47:01Z)
MobileManiBench: Simplifying Model Verification for Mobile Manipulation [70.30578259859512]
MobileManiBenchは、モバイルベースのロボット操作のための大規模なベンチマークである。 MobileManiBenchには、2つのモバイルプラットフォーム(パラレルグリッパーとデキソラスハンドロボット)、2つの同期カメラ(頭と右手首)、630のオブジェクト(オープン、クローズ、プル、プッシュ、ピック)、5つのスキル(オープン、クローズ、プッシュ、ピック)、100以上のタスクが現実的なシーンで実行される。
論文参考訳（メタデータ） (2026-02-05T02:49:52Z)
SceneFoundry: Generating Interactive Infinite 3D Worlds [22.60801815197924]
SceneFoundryは、機能的な家具を備えたアパートスケールの3Dワールドを生成する言語誘導拡散フレームワークである。本フレームワークは,多様なシーンタイプや環境にまたがって,構造的に妥当でセマンティック・コヒーレントで,機能的にインタラクティブな環境を生成する。
論文参考訳（メタデータ） (2026-01-09T14:33:10Z)
RoboMIND 2.0: A Multimodal, Bimanual Mobile Manipulation Dataset for Generalizable Embodied Intelligence [59.39508501733987]
本稿では,RoboMIND 2.0について紹介する。これは310K以上のデュアルアーム操作トラジェクトリからなる,総合的な実世界のデータセットである。コンタクトリッチで空間的に拡張されたタスクの研究を支援するため、データセットには12Kの触覚強調エピソードと20Kの移動操作トラジェクトリが組み込まれている。 RoboMIND 2.0の可能性をフル活用するために、オフライン強化学習により最適化された階層型デュアルシステムフレームワークであるMIND-2システムを提案する。
論文参考訳（メタデータ） (2025-12-31T05:59:40Z)
FastUMI-100K: Advancing Data-driven Robotic Manipulation with a Large-scale UMI-style Dataset [55.66606167502093]
我々は,大規模なUMIスタイルのマルチモーダルデモデータセットであるFastUMI-100Kを提案する。 FastUMI-100Kは、現実世界のロボットデモデータの多様な要求を満たすために、よりスケーラブルで柔軟性があり、適応可能なソリューションを提供する。我々のデータセットは、エンドエフェクタ状態、多視点手首装着魚眼画像、テキストアノテーションを含むマルチモーダルストリームを統合している。
論文参考訳（メタデータ） (2025-10-09T09:57:25Z)
Pixel Motion Diffusion is What We Need for Robot Control [38.925028601732116]
DAWNは言語条件のロボット操作のための統合拡散ベースのフレームワークである。高レベルの動き意図と低レベルのロボット動作を、構造化されたピクセルの動き表現を介してブリッジする。 DAWNは、挑戦的なCALVINベンチマークで最先端の結果を達成する。
論文参考訳（メタデータ） (2025-09-26T17:59:59Z)
Dexplore: Scalable Neural Control for Dexterous Manipulation from Reference-Scoped Exploration [58.4036440289082]
ハンドオブジェクトモーションキャプチャ(MoCap)は、大規模でコンタクトに富んだデモと、器用なロボットスコープの約束を提供する。 Dexploreは、リポジトリとトラッキングを実行し、MoCapから直接ロボット制御ポリシーを学習する、統一された単一ループ最適化である。
論文参考訳（メタデータ） (2025-09-11T17:59:07Z)
Genie Envisioner: A Unified World Foundation Platform for Robotic Manipulation [69.30586607892842]
我々は,ロボット操作のための統一世界基盤プラットフォームであるGenie Envisioner(GE)を紹介する。 GEは、ポリシー学習、評価、シミュレーションを単一のビデオ生成フレームワークに統合する。
論文参考訳（メタデータ） (2025-08-07T17:59:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。