Fugu-MT 論文翻訳(概要): Leveraging Locality to Boost Sample Efficiency in Robotic Manipulation

論文の概要: Leveraging Locality to Boost Sample Efficiency in Robotic Manipulation

arxiv url: http://arxiv.org/abs/2406.10615v2
Date: Thu, 26 Sep 2024 12:55:43 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-09 01:33:31.253137
Title: Leveraging Locality to Boost Sample Efficiency in Robotic Manipulation
Title（参考訳）: ロボットマニピュレーションにおける局所性を活用したサンプル効率の向上
Authors: Tong Zhang, Yingdong Hu, Jiacheng You, Yang Gao,
Abstract要約: SGRv2は、視覚および行動表現の改善を通じてサンプル効率を向上させる模倣学習フレームワークである。 SGRv2 は RLBench タスクで5つのデモしか使用せず、26タスク中23タスクで RVT ベースラインを超えている。
参考スコア（独自算出の注目度）: 14.990771038350106
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Given the high cost of collecting robotic data in the real world, sample efficiency is a consistently compelling pursuit in robotics. In this paper, we introduce SGRv2, an imitation learning framework that enhances sample efficiency through improved visual and action representations. Central to the design of SGRv2 is the incorporation of a critical inductive bias-action locality, which posits that robot's actions are predominantly influenced by the target object and its interactions with the local environment. Extensive experiments in both simulated and real-world settings demonstrate that action locality is essential for boosting sample efficiency. SGRv2 excels in RLBench tasks with keyframe control using merely 5 demonstrations and surpasses the RVT baseline in 23 of 26 tasks. Furthermore, when evaluated on ManiSkill2 and MimicGen using dense control, SGRv2's success rate is 2.54 times that of SGR. In real-world environments, with only eight demonstrations, SGRv2 can perform a variety of tasks at a markedly higher success rate compared to baseline models. Project website: http://sgrv2-robot.github.io
Abstract（参考訳）: 実世界でロボットデータを収集するコストが高いことを考えると、サンプリング効率はロボット工学において一貫して魅力的なものとなっている。本稿では,視覚と行動の表現を改善することで,サンプル効率を向上させる模倣学習フレームワークであるSGRv2を紹介する。 SGRv2の設計の中心は、ロボットの動作がターゲットオブジェクトとその局所環境との相互作用に主に影響されることを示唆する、臨界誘導的バイアス-作用局所性の導入である。シミュレーションと実世界の両方の環境での大規模な実験は、アクションの局所性がサンプル効率を高めるのに不可欠であることを示した。 SGRv2は、キーフレーム制御によるRLBenchタスクを5つのデモで上回り、26タスク中23タスクでRVTベースラインを超えている。さらに、高密度制御によるManiSkill2とMimicGenの評価では、SGRv2の成功率はSGRの2.54倍である。実世界の環境では、8つのデモしか行わず、SGRv2はベースラインモデルよりも著しく高い成功率で様々なタスクを実行できる。プロジェクトウェブサイト: http://sgrv2-robot.github.io

関連論文リスト

From Seeing to Doing: Bridging Reasoning and Decision for Robotic Manipulation [35.79160868966466]
FSD(From Seeing to Doing)は空間関係推論により中間表現を生成する新しい視覚言語モデルである。提案手法は,空間座標を視覚信号と整列する自己整合性機構と,階層的なデータパイプラインを併用する。我々は、FSDがSimplerEnvで40.6%の成功率、実世界の8つのタスクで72%の成功率を達成したことを示し、最強のベースラインを30%上回った。
論文参考訳（メタデータ） (2025-05-13T13:20:46Z)
HAMSTER: Hierarchical Action Models For Open-World Robot Manipulation [54.03004125910057]
階層型視覚-言語-アクションモデルは、標準的なモノリシックVLAモデルよりも、ドメイン外のデータを利用するのに効果的であることを示す。階層設計により、高レベルなVLMは、オフドメイン微調整データと実ロボットテストシナリオの間の重要なドメインギャップをまたいで転送可能であることを示す。
論文参考訳（メタデータ） (2025-02-08T07:50:22Z)
SpatialVLA: Exploring Spatial Representations for Visual-Language-Action Model [45.03115608632622]
空間理解はロボット操作のキーポイントです本研究では,ロボット基盤モデルのための効果的な空間表現を探索する空間VLAを提案する。提案したAdaptive Action Gridsは,事前学習したSpatialVLAモデルを微調整し,新しいシミュレーションと実世界のセットアップを実現するための,新しい効果的な方法を提供する。
論文参考訳（メタデータ） (2025-01-27T07:34:33Z)
Prognostic Framework for Robotic Manipulators Operating Under Dynamic Task Severities [0.6058427379240697]
ロボットマニピュレータのRemaining Useful Life(RUL)を予測できる予後モデリングフレームワークを提案する。以上の結果から,両艦隊のロボットは高重度タスクを多く扱う場合,RULが短くなることが示唆された。
論文参考訳（メタデータ） (2024-11-30T17:09:18Z)
CogACT: A Foundational Vision-Language-Action Model for Synergizing Cognition and Action in Robotic Manipulation [100.25567121604382]
VLA(Vision-Language-Action)モデルは、言語誘導されたタスクの実行と、目に見えないシナリオへの一般化の観点から、ロボット操作を改善した。 VLM(Vision-Language-Models)に基づく新しい高度なVLAアーキテクチャを提案する。我々のモデルはタスクパフォーマンスにおいて既存のVLAをはるかに上回るだけでなく、新しいロボットへの顕著な適応と、見えないオブジェクトや背景への一般化も示している。
論文参考訳（メタデータ） (2024-11-29T12:06:03Z)
GRAPE: Generalizing Robot Policy via Preference Alignment [58.419992317452376]
GRAPE: 優先度アライメントによるロボット政策の一般化について述べる。 GRAPEはドメイン内および未確認操作タスクにおける成功率をそれぞれ51.79%、58.20%向上させる。 GRAPEは安全性や効率、衝突速度の37.44%、ロールアウト長さの11.15%といった様々な目標に合わせることができる。
論文参考訳（メタデータ） (2024-11-28T18:30:10Z)
Robots Pre-train Robots: Manipulation-Centric Robotic Representation from Large-Scale Robot Datasets [24.77850617214567]
本稿では,視覚的特徴と操作タスクの行動や受容といった動的情報の両方を抽出する基礎表現学習フレームワークを提案する。具体的には、DROIDロボットデータセット上で視覚エンコーダを事前訓練し、ロボットの受容状態や動作などの動作関連データを活用する。本研究では,視覚的観察をロボットの主観的状態-動作ダイナミクスと整合させる新しいコントラスト的損失と,事前トレーニング中の行動を予測する行動クローニング(BC)のようなアクター損失と,時間的コントラスト的損失を導入する。
論文参考訳（メタデータ） (2024-10-29T17:58:13Z)
PIVOT-R: Primitive-Driven Waypoint-Aware World Model for Robotic Manipulation [68.17081518640934]
ロボット操作のためのPrIrmitive-driVen waypOinT-aware world model(PIVOT-R)を提案する。 PIVOT-RはWAWM(Waypoint-aware World Model)と軽量アクション予測モジュールで構成される。私たちのPIVOT-RはSeaWaveベンチマークで最先端のオープンソースモデルより優れており、4段階の命令タスクで平均19.45%の相対的な改善を実現しています。
論文参考訳（メタデータ） (2024-10-14T11:30:18Z)
Affordance-Guided Reinforcement Learning via Visual Prompting [51.361977466993345]
Keypoint-based Affordance Guidance for Improvements (KAGI) は、視覚言語モデル(VLM)によって形成される報酬を自律的なRLに活用する手法である。自然言語記述によって指定された実世界の操作タスクにおいて、KAGIは自律的なRLのサンプル効率を改善し、20Kのオンライン微調整ステップでタスク完了を成功させる。
論文参考訳（メタデータ） (2024-07-14T21:41:29Z)
Ag2Manip: Learning Novel Manipulation Skills with Agent-Agnostic Visual and Action Representations [77.31328397965653]
Ag2Manip(Agent-Agnostic representations for Manipulation)は,2つの重要なイノベーションを通じて課題を克服するフレームワークである。人間の操作ビデオから派生した新しいエージェント非依存の視覚表現であり、その具体的特徴は一般化性を高めるために隠蔽された。ロボットのキネマティクスを普遍的なエージェントプロキシに抽象化し、エンドエフェクタとオブジェクト間の重要な相互作用を強調するエージェント非依存のアクション表現。
論文参考訳（メタデータ） (2024-04-26T16:40:17Z)
RoboScript: Code Generation for Free-Form Manipulation Tasks across Real and Simulation [77.41969287400977]
本稿では,コード生成を利用したデプロイ可能なロボット操作パイプラインのためのプラットフォームである textbfRobotScript を提案する。自由形自然言語におけるロボット操作タスクのためのコード生成ベンチマークも提案する。我々は,Franka と UR5 のロボットアームを含む,複数のロボットエボディメントにまたがるコード生成フレームワークの適応性を実証した。
論文参考訳（メタデータ） (2024-02-22T15:12:00Z)
Learning to navigate efficiently and precisely in real environments [14.52507964172957]
Embodied AIの文献は、HabitatやAI-Thorといったシミュレータで訓練されたエンドツーエンドエージェントに焦点を当てている。本研究では,sim2realのギャップを最小限に抑えたシミュレーションにおけるエージェントのエンドツーエンドトレーニングについて検討する。
論文参考訳（メタデータ） (2024-01-25T17:50:05Z)
Sample Efficient Robot Learning with Structured World Models [3.1761323820497656]
ゲーム環境では、世界モデルの使用は、優れた性能を保ちながら、サンプル効率を向上させることが示されている。本稿では,RGB画像観察と,ロボットのスキル学習における共通アプローチである内蔵構造を利用した特徴空間を比較し,タスク性能と学習効率への影響を世界モデルと無関係に比較する。
論文参考訳（メタデータ） (2022-10-21T22:08:55Z)
Metric Residual Networks for Sample Efficient Goal-conditioned Reinforcement Learning [52.59242013527014]
ゴール条件強化学習(GCRL)は、現実世界の幅広い応用の可能性を秘めている。サンプル効率は、GCRLにとって最も重要であり、デフォルトでは、エージェントはその目標に達するとのみ報酬を受ける。 GCRLのための新しいニューラルアーキテクチャを導入し、一般的なモノリシックネットワークアーキテクチャよりもはるかに優れたサンプリング効率を実現する。
論文参考訳（メタデータ） (2022-08-17T08:04:41Z)
SAGCI-System: Towards Sample-Efficient, Generalizable, Compositional, and Incremental Robot Learning [41.19148076789516]
上記の4つの要件を満たすために,SAGCIシステムと呼ばれる体系的な学習フレームワークを導入する。本システムはまず,ロボットの手首に搭載されたカメラによって収集された生点雲を入力とし,URDFに代表される周囲環境の初期モデリングを生成する。そのロボットは、対話的な知覚を利用して環境と対話し、URDFのオンライン検証と修正を行う。
論文参考訳（メタデータ） (2021-11-29T16:53:49Z)
Domain Adaptive Robotic Gesture Recognition with Unsupervised Kinematic-Visual Data Alignment [60.31418655784291]
本稿では,マルチモダリティ知識,すなわちキネマティックデータとビジュアルデータを同時にシミュレータから実ロボットに伝達できる,教師なしドメイン適応フレームワークを提案する。ビデオの時間的手がかりと、ジェスチャー認識に対するマルチモーダル固有の相関を用いて、トランスファー可能な機能を強化したドメインギャップを修復する。その結果, 本手法は, ACCでは最大12.91%, F1scoreでは20.16%と, 実際のロボットではアノテーションを使わずに性能を回復する。
論文参考訳（メタデータ） (2021-03-06T09:10:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。