Fugu-MT 論文翻訳(概要): ViViDex: Learning Vision-based Dexterous Manipulation from Human Videos

論文の概要: ViViDex: Learning Vision-based Dexterous Manipulation from Human Videos

arxiv url: http://arxiv.org/abs/2404.15709v1
Date: Wed, 24 Apr 2024 07:58:28 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-26 19:49:56.987691
Title: ViViDex: Learning Vision-based Dexterous Manipulation from Human Videos
Title（参考訳）: ViViDex:人間のビデオから視覚に基づく有害な操作を学習する
Authors: Zerui Chen, Shizhe Chen, Cordelia Schmid, Ivan Laptev,
Abstract要約: 我々は人間のビデオから視覚に基づくポリシー学習を改善するための新しいフレームワークViViDexを提案する。最初は強化学習と軌道誘導報酬を使って、各ビデオに対する州ベースのポリシーを訓練する。次に、州ベースのポリシーから成功したエピソードをロールアウトし、特権情報を使用しずに統一された視覚ポリシーをトレーニングします。
参考スコア（独自算出の注目度）: 87.96864712314324
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this work, we aim to learn a unified vision-based policy for a multi-fingered robot hand to manipulate different objects in diverse poses. Though prior work has demonstrated that human videos can benefit policy learning, performance improvement has been limited by physically implausible trajectories extracted from videos. Moreover, reliance on privileged object information such as ground-truth object states further limits the applicability in realistic scenarios. To address these limitations, we propose a new framework ViViDex to improve vision-based policy learning from human videos. It first uses reinforcement learning with trajectory guided rewards to train state-based policies for each video, obtaining both visually natural and physically plausible trajectories from the video. We then rollout successful episodes from state-based policies and train a unified visual policy without using any privileged information. A coordinate transformation method is proposed to significantly boost the performance. We evaluate our method on three dexterous manipulation tasks and demonstrate a large improvement over state-of-the-art algorithms.
Abstract（参考訳）: 本研究では,多指ロボットによる多様なポーズでさまざまな物体を操作するための統一的な視覚ベースのポリシーを学習することを目的とする。これまでの研究は、人間のビデオが政策学習に有効であることを示したが、ビデオから抽出された物理的に不可解な軌跡によって性能改善は制限されてきた。さらに、接地木オブジェクトのような特権オブジェクト情報への依存は、現実的なシナリオにおける適用性をさらに制限する。これらの制約に対処するため、人間のビデオから視覚に基づくポリシー学習を改善するための新しいフレームワークViViDexを提案する。最初は、強化学習と軌道誘導報酬を使って、各ビデオのステートベースのポリシーを訓練し、ビデオから視覚的に自然と身体的にもっともらしい軌跡の両方を得る。次に、州ベースのポリシーから成功したエピソードをロールアウトし、特権情報を使用しずに統一された視覚ポリシーをトレーニングします。性能を著しく向上させるために座標変換法を提案する。提案手法を3つのデクスタラスな操作タスクで評価し,最先端のアルゴリズムよりも大幅に改善したことを示す。

関連論文リスト

DynaRend: Learning 3D Dynamics via Masked Future Rendering for Robotic Manipulation [52.136378691610524]
本稿では、3次元認識と動的インフォームド三面体特徴を学習する表現学習フレームワークDynaRendを紹介する。マルチビューRGB-Dビデオデータに基づく事前トレーニングにより、DynaRendは空間幾何学、将来のダイナミクス、タスク意味を統合された三面体表現で共同でキャプチャする。我々は、RLBenchとColosseumという2つの挑戦的なベンチマークでDynaRendを評価し、政策成功率、環境摂動の一般化、様々な操作タスクにおける実世界の適用性などを大幅に改善した。
論文参考訳（メタデータ） (2025-10-28T10:17:11Z)
VisualMimic: Visual Humanoid Loco-Manipulation via Motion Tracking and Generation [39.01738745009172]
VisualMimicは、ヒューマノイドロボットのための階層的な全身制御で自我中心のビジョンを統一するビジュアルフレームワークである。 VisualMimicは、シミュレーションで訓練されたビジュモータポリシーを実際のヒューマノイドロボットにゼロショットで転送することを可能にする。
論文参考訳（メタデータ） (2025-09-24T17:10:02Z)
Zero-Shot Visual Generalization in Robot Manipulation [0.13280779791485384]
現在のアプローチは、しばしば点雲や深さのような不変表現に頼ることで問題を横取りする。ディアングル型表現学習は、視覚的分布シフトに対して、視覚に基づく強化学習ポリシーを堅牢化できることを最近示した。シミュレーションおよび実ハードウェア上での視覚摂動に対するゼロショット適応性を示す。
論文参考訳（メタデータ） (2025-05-16T22:01:46Z)
Video Prediction Policy: A Generalist Robot Policy with Predictive Visual Representations [19.45821593625599]
ビデオ拡散モデル(VDM)は、将来の画像シーケンスを正確に予測する能力を示した。本稿では,VDMからの視覚的表現を前提とした汎用ロボット政策であるビデオ予測ポリシーを提案する。 VPPは、2つのシミュレーションと2つの実世界のベンチマークで、既存のメソッドを一貫して上回っている。
論文参考訳（メタデータ） (2024-12-19T12:48:40Z)
OKAMI: Teaching Humanoid Robots Manipulation Skills through Single Video Imitation [35.97702591413093]
一つのRGB-Dビデオから操作計画を生成する方法であるOKAMIを紹介する。 OKAMIは、オープンワールドビジョンモデルを使用して、タスク関連オブジェクトを特定し、身体の動きと手ポーズを別々に再ターゲットする。
論文参考訳（メタデータ） (2024-10-15T17:17:54Z)
View-Invariant Policy Learning via Zero-Shot Novel View Synthesis [26.231630397802785]
本研究では,世界の大規模視覚データから得られる知識が,一般化可能な操作のための一軸の変動にどのように対処できるかを考察する。本研究では,異なるカメラ視点から同一シーンの画像をレンダリングすることで,シーンレベルの3D認識を学習する単一画像の新規ビュー合成モデルについて検討する。多様なロボットデータに実用的に応用するには、これらのモデルはゼロショットを動作させ、目に見えないタスクや環境でビュー合成を行う必要がある。
論文参考訳（メタデータ） (2024-09-05T16:39:21Z)
Vision-based Manipulation from Single Human Video with Open-World Object Graphs [58.23098483464538]
我々は、人間のビデオから視覚に基づく操作スキルを学ぶために、ロボットに力を与えるオブジェクト中心のアプローチを提案する。 ORIONは,単一のRGB-Dビデオからオブジェクト中心の操作計画を抽出することで,この問題に対処するアルゴリズムである。
論文参考訳（メタデータ） (2024-05-30T17:56:54Z)
Learning to Act from Actionless Videos through Dense Correspondences [87.1243107115642]
本稿では,様々なロボットや環境にまたがる多様なタスクを確実に実行可能なビデオベースのロボットポリシーを構築するためのアプローチを提案する。本手法は,ロボットの目標を指定するための汎用表現として,状態情報と行動情報の両方を符号化するタスク非依存表現として画像を利用する。テーブルトップ操作とナビゲーションタスクの学習方針における我々のアプローチの有効性を実証する。
論文参考訳（メタデータ） (2023-10-12T17:59:23Z)
DeXtreme: Transfer of Agile In-hand Manipulation from Simulation to Reality [64.51295032956118]
我々は人型ロボットの手で頑健な操作を行える政策を訓練する。本研究は,各種ハードウェアおよびシミュレータのデクスタラス操作におけるsim-to-real転送の可能性を再確認する。
論文参考訳（メタデータ） (2022-10-25T01:51:36Z)
Distilling Motion Planner Augmented Policies into Visual Control Policies for Robot Manipulation [26.47544415550067]
我々は,国家ベースのモーションプランナ拡張ポリシーを視覚制御ポリシーに蒸留することを提案する。閉塞環境における3つの操作課題について評価を行った。我々のフレームワークはサンプリング効率が高く、最先端のアルゴリズムよりも優れています。
論文参考訳（メタデータ） (2021-11-11T18:52:00Z)
Learning Object Manipulation Skills via Approximate State Estimation from Real Videos [47.958512470724926]
人間は、いくつかの指導ビデオを見て、新しいタスクを学ぶことに精通しています。一方、新しいアクションを学習するロボットは、試行錯誤によって多くの労力を必要とするか、あるいは入手が困難な専門家によるデモを使う必要がある。本稿では,ビデオから直接オブジェクト操作スキルを学習する手法について検討する。
論文参考訳（メタデータ） (2020-11-13T08:53:47Z)
Learning Dexterous Grasping with Object-Centric Visual Affordances [86.49357517864937]
控えめなロボットハンドは、機敏さと人間のような形態をアピールしています。本稿では,厳密な把握を学習するためのアプローチを提案する。私たちのキーとなるアイデアは、オブジェクト中心の視覚的余裕モデルを深い強化学習ループに埋め込むことです。
論文参考訳（メタデータ） (2020-09-03T04:00:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。