Fugu-MT 論文翻訳(概要): IRASim: Learning Interactive Real-Robot Action Simulators

論文の概要: IRASim: Learning Interactive Real-Robot Action Simulators

arxiv url: http://arxiv.org/abs/2406.14540v1
Date: Thu, 20 Jun 2024 17:50:16 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-21 12:23:24.022741
Title: IRASim: Learning Interactive Real-Robot Action Simulators
Title（参考訳）: IRASim:インタラクティブなリアルロボットアクションシミュレータを学習
Authors: Fangqi Zhu, Hongtao Wu, Song Guo, Yuxiao Liu, Chilam Cheang, Tao Kong,
Abstract要約: 本稿では,ロボットアームが与えられた動作軌跡を実行する様子をリアルに映像化するための新しい手法IRASimを提案する。提案手法の有効性を検証するため,3つの実ロボットデータセットに基づいて,新しいベンチマーク IRASim Benchmark を作成する。その結果, IRASimはすべての基準法より優れており, 人的評価に好適であることが示唆された。
参考スコア（独自算出の注目度）: 24.591694756757278
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Scalable robot learning in the real world is limited by the cost and safety issues of real robots. In addition, rolling out robot trajectories in the real world can be time-consuming and labor-intensive. In this paper, we propose to learn an interactive real-robot action simulator as an alternative. We introduce a novel method, IRASim, which leverages the power of generative models to generate extremely realistic videos of a robot arm that executes a given action trajectory, starting from an initial given frame. To validate the effectiveness of our method, we create a new benchmark, IRASim Benchmark, based on three real-robot datasets and perform extensive experiments on the benchmark. Results show that IRASim outperforms all the baseline methods and is more preferable in human evaluations. We hope that IRASim can serve as an effective and scalable approach to enhance robot learning in the real world. To promote research for generative real-robot action simulators, we open-source code, benchmark, and checkpoints at https: //gen-irasim.github.io.
Abstract（参考訳）: 現実世界でのスケーラブルなロボット学習は、実際のロボットのコストと安全性の問題によって制限されている。さらに、現実世界でのロボット軌道の展開には時間と労力がかかります。本稿では,対話型実ロボット行動シミュレータを代替として学習することを提案する。本稿では、生成モデルのパワーを活用して、与えられた行動軌跡を実行するロボットアームの極めて現実的な映像を生成するIRASimを提案する。提案手法の有効性を検証するため,3つの実ロボットデータセットに基づいてIRASim Benchmarkという新しいベンチマークを作成し,そのベンチマークで広範な実験を行う。その結果, IRASimはすべての基準法より優れており, 人的評価に好適であることが示唆された。 IRASimが実世界でのロボット学習を強化するための効果的でスケーラブルなアプローチとして機能することを願っている。生成した実ロボットの動作シミュレータの研究を促進するため、https: //gen-irasim.github.ioでコード、ベンチマーク、チェックポイントをオープンソース化した。

関連論文リスト

Causal World Modeling for Robot Control [56.31803788587547]
ビデオワールドモデルは、アクションと視覚力学の因果関係を理解することによって、近い将来に想像できる能力を提供する。本稿では,フレーム予測とポリシ実行を同時に学習する自動回帰拡散フレームワークLingBot-VAを紹介する。シミュレーションベンチマークと実世界のシナリオの両方でモデルを評価したところ、長距離操作、ポストトレーニングにおけるデータ効率、新しい構成への強力な一般化性などに大きな可能性を示唆している。
論文参考訳（メタデータ） (2026-01-29T17:07:43Z)
Evaluating Gemini Robotics Policies in a Veo World Simulator [69.23071832313246]
我々はフロンティアビデオ基盤モデル(Veo)に基づく生成的評価システムを導入する。このシステムは、ロボットアクションコンディショニングとマルチビュー一貫性をサポートするよう最適化されている。我々は、Gemini Roboticsのポリシーチェックポイント8つと、バイマニュアルマニピュレータのための5つのタスクの1600以上の実世界の評価を通じて、これらの能力を検証した。
論文参考訳（メタデータ） (2025-12-11T14:22:14Z)
Towards High-Consistency Embodied World Model with Multi-View Trajectory Videos [24.111891848073288]
身体的世界モデルは、視覚的な観察と行動を通じて物理的世界と予測し、相互作用することを目的としている。 MTV-Worldは正確なビジュモータ予測のためのマルチビュートラジェクトリ・ビデオ制御を導入した。 MTV-Worldは、複雑なデュアルアームシナリオにおける正確な制御実行と正確な物理的相互作用モデリングを実現する。
論文参考訳（メタデータ） (2025-11-17T02:17:04Z)
Ctrl-World: A Controllable Generative World Model for Robot Manipulation [53.71061464925014]
汎用ロボットポリシーは、幅広い操作スキルを実行することができる。未知の物体や命令で彼らの能力を評価し改善することは重要な課題です世界モデルは、イマジネーション空間内でポリシーの展開を可能にすることで、有望でスケーラブルな代替手段を提供する。
論文参考訳（メタデータ） (2025-10-11T09:13:10Z)
GWM: Towards Scalable Gaussian World Models for Robotic Manipulation [53.51622803589185]
本稿では,ロボット操作のための世界モデルGawssian World Model (GWM)を提案する。中心となるのは、潜伏拡散変換器(DiT)と3次元変分オートエンコーダを組み合わせることで、微粒なシーンレベルの将来の状態復元を可能にする。シミュレーションと実世界の実験の両方で、GWMは多様なロボットのアクションに照らされた未来のシーンを正確に予測できる。
論文参考訳（メタデータ） (2025-08-25T02:01:09Z)
cVLA: Towards Efficient Camera-Space VLAs [26.781510474119845]
Vision-Language-Action(VLA)モデルは、複雑なロボット操作タスクに取り組むための魅力的なフレームワークを提供する。 2次元画像上での視覚言語モデルの競合性能を活用する新しいVLA手法を提案する。我々のモデルは軌道方向の経路を予測し、トレーニングとロボットの実施の両方を効果的に行う。
論文参考訳（メタデータ） (2025-07-02T22:56:41Z)
ORV: 4D Occupancy-centric Robot Video Generation [33.360345403049685]
遠隔操作を通じて現実世界のロボットシミュレーションデータを取得することは、時間と労力のかかることで有名だ。 ORVは,4次元のセマンティック・コンカレンシー・シーケンスをきめ細かな表現として利用した,作業中心のロボットビデオ生成フレームワークである。 ORVは、占有率に基づく表現を活用することにより、時間的一貫性と正確な制御性を確保しつつ、シミュレーションデータをフォトリアリスティックなロボットビデオにシームレスに変換することができる。
論文参考訳（メタデータ） (2025-06-03T17:00:32Z)
Evaluating Robot Policies in a World Model [54.874926065292904]
WPE(World-model-based Policy Evaluation)について検討する。 WPEは実際のビデオのようにロボットアームの動きを模倣することで高い忠実性を達成する。 WPEは実世界の展開前にロボットポリシーを評価する出発点として機能することを示す。
論文参考訳（メタデータ） (2025-05-31T15:51:56Z)
RoboTwin: Dual-Arm Robot Benchmark with Generative Digital Twins [33.78621017138685]
RoboTwinは、多種多様な専門家データセットを生成するために、3D生成基盤モデルと大規模言語モデルを使用する生成デジタルツインフレームワークである。具体的には、RoboTwinは単一の2D画像からさまざまなデジタルツインを生成し、現実的でインタラクティブなシナリオを生成する。我々のフレームワークはシミュレーションデータと実世界のデータの両方で包括的なベンチマークを提供し、標準化された評価とシミュレーショントレーニングと実世界のパフォーマンスの整合性を向上させる。
論文参考訳（メタデータ） (2025-04-17T16:14:24Z)
VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation [53.63540587160549]
VidBotは、WildのモノクルなRGBのみの人間ビデオから学習した3Dアベイランスを使って、ゼロショットロボット操作を可能にするフレームワークである。 VidBotは、人間の日常的なビデオを利用してロボットの学習をよりスケーラブルにする。
論文参考訳（メタデータ） (2025-03-10T10:04:58Z)
Pre-Trained Video Generative Models as World Simulators [59.546627730477454]
本研究では,事前学習した映像生成モデルを制御可能な世界シミュレータに変換するための動的世界シミュレーション(DWS)を提案する。条件付き動作と生成した視覚的変化の正確なアライメントを実現するために,軽量で普遍的な動作条件付きモジュールを導入する。実験により、DWSは拡散モデルと自己回帰変換モデルの両方に汎用的に適用可能であることが示された。
論文参考訳（メタデータ） (2025-02-10T14:49:09Z)
Robotic World Model: A Neural Network Simulator for Robust Policy Optimization in Robotics [50.191655141020505]
この研究は、長期水平予測、エラー蓄積、およびsim-to-real転送の課題に対処することで、モデルに基づく強化学習を前進させる。スケーラブルでロバストなフレームワークを提供することで、現実のアプリケーションにおいて適応的で効率的なロボットシステムを実現することができる。
論文参考訳（メタデータ） (2025-01-17T10:39:09Z)
Simulation-Aided Policy Tuning for Black-Box Robot Learning [47.83474891747279]
本稿では,データ効率の向上に着目した新しいブラックボックスポリシー探索アルゴリズムを提案する。このアルゴリズムはロボット上で直接学習し、シミュレーションを追加の情報源として扱い、学習プロセスを高速化する。ロボットマニピュレータ上でのタスク学習の高速化と成功を,不完全なシミュレータの助けを借りて示す。
論文参考訳（メタデータ） (2024-11-21T15:52:23Z)
VidMan: Exploiting Implicit Dynamics from Video Diffusion Model for Effective Robot Manipulation [79.00294932026266]
VidManは、安定性を高め、データ利用効率を向上させるために、2段階のトレーニングメカニズムを使用する新しいフレームワークである。我々のフレームワークは、CALVINベンチマークで最先端のベースラインモデルGR-1を上回り、11.7%の相対的な改善を実現し、OXEの小規模データセットで9%以上の精度向上を示す。
論文参考訳（メタデータ） (2024-11-14T03:13:26Z)
Generalized Robot Learning Framework [10.03174544844559]
本稿では,様々なロボットや環境に容易に再現可能かつ伝達可能な,低コストなロボット学習フレームワークを提案する。我々は,産業用ロボットにおいても,デプロイ可能な模倣学習をうまく適用できることを実証した。
論文参考訳（メタデータ） (2024-09-18T15:34:31Z)
RoboTwin: Dual-Arm Robot Benchmark with Generative Digital Twins (early version) [25.298789781487084]
RoboTwinは、多種多様な専門家データセットを生成するために、3D生成基盤モデルと大規模言語モデルを使用する生成デジタルツインフレームワークである。具体的には、RoboTwinは単一の2D画像からさまざまなデジタルツインを生成し、現実的でインタラクティブなシナリオを生成する。我々のフレームワークはシミュレーションデータと実世界のデータの両方で包括的なベンチマークを提供し、標準化された評価とシミュレーショントレーニングと実世界のパフォーマンスの整合性を向上させる。
論文参考訳（メタデータ） (2024-09-04T17:59:52Z)
RoboScript: Code Generation for Free-Form Manipulation Tasks across Real and Simulation [77.41969287400977]
本稿では,コード生成を利用したデプロイ可能なロボット操作パイプラインのためのプラットフォームである textbfRobotScript を提案する。自由形自然言語におけるロボット操作タスクのためのコード生成ベンチマークも提案する。我々は,Franka と UR5 のロボットアームを含む,複数のロボットエボディメントにまたがるコード生成フレームワークの適応性を実証した。
論文参考訳（メタデータ） (2024-02-22T15:12:00Z)
SCENEREPLICA: Benchmarking Real-World Robot Manipulation by Creating Replicable Scenes [5.80109297939618]
実世界におけるロボット操作の評価のための再現可能な新しいベンチマークを提案し,特にピック・アンド・プレイスに着目した。我々のベンチマークでは、ロボットコミュニティでよく使われているデータセットであるYCBオブジェクトを使用して、結果が他の研究と比較されるようにしています。
論文参考訳（メタデータ） (2023-06-27T16:59:15Z)
Robot Learning with Sensorimotor Pre-training [98.7755895548928]
ロボット工学のための自己教師型感覚運動器事前学習手法を提案する。我々のモデルはRTTと呼ばれ、センサモレータトークンのシーケンスで動作するトランスフォーマーである。感覚運動の事前学習は、ゼロからトレーニングを一貫して上回り、優れたスケーリング特性を持ち、さまざまなタスク、環境、ロボット間での移動を可能にしている。
論文参考訳（メタデータ） (2023-06-16T17:58:10Z)
Self-Improving Robots: End-to-End Autonomous Visuomotor Reinforcement Learning [54.636562516974884]
模倣と強化学習において、人間の監督コストは、ロボットが訓練できるデータの量を制限する。本研究では,自己改善型ロボットシステムのための新しい設計手法であるMEDAL++を提案する。ロボットは、タスクの実施と解除の両方を学ぶことで、自律的にタスクを練習し、同時にデモンストレーションから報酬関数を推論する。
論文参考訳（メタデータ） (2023-03-02T18:51:38Z)
DayDreamer: World Models for Physical Robot Learning [142.11031132529524]
深層強化学習はロボット学習の一般的なアプローチであるが、学習するには大量の試行錯誤が必要となる。ロボット学習の多くの進歩はシミュレータに依存している。本稿では,Dreamerを4つのロボットに適用し,シミュレータを使わずに,オンラインおよび実世界で直接学習する。
論文参考訳（メタデータ） (2022-06-28T17:44:48Z)
REvolveR: Continuous Evolutionary Models for Robot-to-robot Policy Transfer [57.045140028275036]
本研究では,運動学や形態学など,異なるパラメータを持つ2つの異なるロボット間でポリシーを伝達する問題を考察する。模倣学習手法を含む動作や状態遷移の分布を一致させることで、新しいポリシーを訓練する既存のアプローチは、最適な動作や/または状態分布が異なるロボットでミスマッチしているために失敗する。本稿では,物理シミュレータに実装されたロボット政策伝達に連続的進化モデルを用いることで,$RevolveR$という新しい手法を提案する。
論文参考訳（メタデータ） (2022-02-10T18:50:25Z)
Back to Reality for Imitation Learning [8.57914821832517]
模倣学習と一般のロボット学習は、ロボット工学のブレークスルーではなく、機械学習のブレークスルーによって生まれた。私たちは、現実世界のロボット学習のより良い指標は時間効率であり、人間の真のコストをモデル化するものだと考えています。
論文参考訳（メタデータ） (2021-11-25T02:03:52Z)
Nonprehensile Riemannian Motion Predictive Control [57.295751294224765]
本稿では,リアル・ツー・シムの報酬分析手法を導入し,リアルなロボット・プラットフォームに対する行動の可能性を確実に予測する。連続的なアクション空間でオブジェクトを反応的にプッシュするクローズドループコントローラを作成します。我々は,RMPCが乱雑な環境だけでなく,乱雑な環境においても頑健であり,ベースラインよりも優れていることを観察した。
論文参考訳（メタデータ） (2021-11-15T18:50:04Z)
One to Many: Adaptive Instrument Segmentation via Meta Learning and Dynamic Online Adaptation in Robotic Surgical Video [71.43912903508765]
MDALは、ロボット支援手術における機器セグメンテーションのための動的オンライン適応学習スキームです。ビデオ固有のメタ学習パラダイムを通じて、楽器の一般的な知識と高速適応能力を学ぶ。 2つのデータセットで他の最先端のメソッドよりも優れています。
論文参考訳（メタデータ） (2021-03-24T05:02:18Z)
robo-gym -- An Open Source Toolkit for Distributed Deep Reinforcement Learning on Real and Simulated Robots [0.5161531917413708]
本稿では,ロボットによる深層強化学習を向上するためのオープンソースのツールキット,robo-gymを提案する。シミュレーションにおけるトレーニングからロボットへのシームレスな移動を可能にするシミュレーション環境と実環境の統一的なセットアップを実証する。産業用ロボットを特徴とする2つの実世界アプリケーションを用いて,本フレームワークの能力と有効性を示す。
論文参考訳（メタデータ） (2020-07-06T13:51:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。