Fugu-MT 論文翻訳(概要): Learning from Sparse Demonstrations

論文の概要: Learning from Sparse Demonstrations

arxiv url: http://arxiv.org/abs/2008.02159v3
Date: Mon, 8 Aug 2022 21:51:08 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-02 19:06:21.874141
Title: Learning from Sparse Demonstrations
Title（参考訳）: まばらなデモから学ぶ
Authors: Wanxin Jin, Todd D. Murphey, Dana Kuli\'c, Neta Ezer, Shaoshuai Mou
Abstract要約: 本稿では,ロボットが対象関数を学習できる連続ポントリャーギン微分可能計画法(Continuous PDP)を開発した。本手法は,ロボットの軌道を逐次追従する目的関数と時間ワープ関数を最小の差分損失で検出する。本手法はまず,シミュレーションロボットアームを用いて評価し,次に6-DoF四重極子に適用し,非モデル化環境における動作計画の目的関数を学習する。
参考スコア（独自算出の注目度）: 17.24236148404065
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper develops the method of Continuous Pontryagin Differentiable Programming (Continuous PDP), which enables a robot to learn an objective function from a few sparsely demonstrated keyframes. The keyframes, labeled with some time stamps, are the desired task-space outputs, which a robot is expected to follow sequentially. The time stamps of the keyframes can be different from the time of the robot's actual execution. The method jointly finds an objective function and a time-warping function such that the robot's resulting trajectory sequentially follows the keyframes with minimal discrepancy loss. The Continuous PDP minimizes the discrepancy loss using projected gradient descent, by efficiently solving the gradient of the robot trajectory with respect to the unknown parameters. The method is first evaluated on a simulated robot arm and then applied to a 6-DoF quadrotor to learn an objective function for motion planning in unmodeled environments. The results show the efficiency of the method, its ability to handle time misalignment between keyframes and robot execution, and the generalization of objective learning into unseen motion conditions.
Abstract（参考訳）: 本稿では,ロボットがいくつかのキーフレームから目的関数を学習できる連続的ポントリャーギン微分可能プログラミング(continuous pdp)法を開発した。タイムスタンプとラベル付けされたキーフレームは、ロボットが逐次追従することを期待するタスクスペース出力である。キーフレームのタイムスタンプは、ロボットの実際の実行時とは異なる可能性がある。本手法は、ロボットの軌道がキーフレームに連続的に追従し、最小の差分損失で目的関数とタイムワープ関数を共同で見つける。連続PDPは、未知のパラメータに対するロボット軌道の勾配を効率的に解き、投射勾配降下による誤差損失を最小化する。本手法は,まずシミュレーションロボットアームを用いて評価を行い,次に6自由度クワッドローターに適用し,非モデル化環境における運動計画の目的関数を学習する。その結果,提案手法の効率性,キーフレーム間の時間的不一致とロボット実行の処理能力,非知覚運動条件への客観的学習の一般化が示された。

関連論文リスト

Action Flow Matching for Continual Robot Learning [57.698553219660376]
ロボット工学における継続的な学習は、変化する環境やタスクに常に適応できるシステムを求める。本稿では,オンラインロボット力学モデルアライメントのためのフローマッチングを利用した生成フレームワークを提案する。ロボットは,不整合モデルで探索するのではなく,行動自体を変換することで,より効率的に情報収集を行う。
論文参考訳（メタデータ） (2025-04-25T16:26:15Z)
Spatial-Temporal Graph Diffusion Policy with Kinematic Modeling for Bimanual Robotic Manipulation [88.83749146867665]
既存のアプローチは、遠く離れた次のベストなエンドエフェクタのポーズを予測するポリシーを学びます。すると、運動に対する対応する関節回転角を逆運動学を用いて計算する。本稿では,Kinematics 拡張空間テンポアル gRaph diffuser を提案する。
論文参考訳（メタデータ） (2025-03-13T17:48:35Z)
FAST: Efficient Action Tokenization for Vision-Language-Action Models [98.15494168962563]
離散コサイン変換に基づくロボット動作のための圧縮に基づく新しいトークン化手法を提案する。 FASTをベースとしたFAST+は,100万個のリアルロボットアクショントラジェクトリに基づいて訓練されたユニバーサルロボットアクショントークンである。
論文参考訳（メタデータ） (2025-01-16T18:57:04Z)
Prognostic Framework for Robotic Manipulators Operating Under Dynamic Task Severities [0.6058427379240697]
ロボットマニピュレータのRemaining Useful Life(RUL)を予測できる予後モデリングフレームワークを提案する。以上の結果から,両艦隊のロボットは高重度タスクを多く扱う場合,RULが短くなることが示唆された。
論文参考訳（メタデータ） (2024-11-30T17:09:18Z)
Coarse-to-fine Q-Network with Action Sequence for Data-Efficient Robot Learning [62.3886343725955]
本稿では,新しい値に基づく強化学習アルゴリズムであるCQN-AS(Coarse-to-fine Q-Network with Action Sequence)を紹介する。我々は,53のロボットタスクに対して,疎密かつ高密度な報酬と実演と無実の報酬を用いたアルゴリズムを検討した。
論文参考訳（メタデータ） (2024-11-19T01:23:52Z)
ReKep: Spatio-Temporal Reasoning of Relational Keypoint Constraints for Robotic Manipulation [31.211870350260703]
キーポイント制約(キーポイント制約、英: Keypoint Constraints)は、ロボット操作における制約を視覚的に表現した表現である。 ReKepはPython関数として表現され、環境の3Dキーポイントのセットを数値的なコストにマッピングする。車輪付きシングルアームプラットフォームと静止式デュアルアームプラットフォーム上でのシステム実装について述べる。
論文参考訳（メタデータ） (2024-09-03T06:45:22Z)
Affordance-based Robot Manipulation with Flow Matching [6.863932324631107]
本フレームワークは,ロボット操作のためのフローマッチングにより,手頃なモデル学習とトラジェクトリ生成を統一する。評価の結果,提案手法は,言語プロンサによる手軽さを学習し,競争性能を向上することがわかった。本フレームワークは,ロボット操作のためのフローマッチングにより,相性モデル学習と軌道生成をシームレスに統合する。
論文参考訳（メタデータ） (2024-09-02T09:11:28Z)
RobotKeyframing: Learning Locomotion with High-Level Objectives via Mixture of Dense and Sparse Rewards [15.79235618199162]
本稿では,脚ロボットのための新しい学習ベース制御フレームワークを提案する。脚のあるロボットの自然な移動における高レベルな目標を取り入れている。マルチクリティック強化学習アルゴリズムを用いて、密集した報酬とスパース報酬の混合を処理する。
論文参考訳（メタデータ） (2024-07-16T10:15:35Z)
DiffGen: Robot Demonstration Generation via Differentiable Physics Simulation, Differentiable Rendering, and Vision-Language Model [72.66465487508556]
DiffGenは、微分可能な物理シミュレーション、微分可能なレンダリング、ビジョン言語モデルを統合する新しいフレームワークである。言語命令の埋め込みとシミュレートされた観察の埋め込みとの距離を最小化することにより、現実的なロボットデモを生成することができる。実験によると、DiffGenを使えば、人間の努力やトレーニング時間を最小限に抑えて、ロボットデータを効率よく、効果的に生成できる。
論文参考訳（メタデータ） (2024-05-12T15:38:17Z)
Unsupervised Learning of Effective Actions in Robotics [0.9374652839580183]
ロボット工学における現在の最先端のアクション表現は、ロボットのアクションに対する適切な効果駆動学習を欠いている。連続運動空間の離散化と「アクションプロトタイプ」生成のための教師なしアルゴリズムを提案する。シミュレーションされた階段登上補強学習課題について,本手法の評価を行った。
論文参考訳（メタデータ） (2024-04-03T13:28:52Z)
Distributional Instance Segmentation: Modeling Uncertainty and High Confidence Predictions with Latent-MaskRCNN [77.0623472106488]
本稿では,潜在符号を用いた分散インスタンス分割モデルのクラスについて検討する。ロボットピッキングへの応用として,高い精度を実現するための信頼性マスク手法を提案する。本手法は,新たにリリースした曖昧なシーンのデータセットを含め,ロボットシステムにおける致命的なエラーを著しく低減できることを示す。
論文参考訳（メタデータ） (2023-05-03T05:57:29Z)
Leveraging Sequentiality in Reinforcement Learning from a Single Demonstration [68.94506047556412]
本稿では,複雑なロボットタスクの制御ポリシーを1つの実演で学習するために,シーケンシャルなバイアスを活用することを提案する。本研究は, ヒューマノイド移動やスタンドアップなど, 模擬課題のいくつかを, 前例のないサンプル効率で解くことができることを示す。
論文参考訳（メタデータ） (2022-11-09T10:28:40Z)
Domain Adaptive Robotic Gesture Recognition with Unsupervised Kinematic-Visual Data Alignment [60.31418655784291]
本稿では,マルチモダリティ知識,すなわちキネマティックデータとビジュアルデータを同時にシミュレータから実ロボットに伝達できる,教師なしドメイン適応フレームワークを提案する。ビデオの時間的手がかりと、ジェスチャー認識に対するマルチモーダル固有の相関を用いて、トランスファー可能な機能を強化したドメインギャップを修復する。その結果, 本手法は, ACCでは最大12.91%, F1scoreでは20.16%と, 実際のロボットではアノテーションを使わずに性能を回復する。
論文参考訳（メタデータ） (2021-03-06T09:10:03Z)
Online Body Schema Adaptation through Cost-Sensitive Active Learning [63.84207660737483]
この作業は、icubロボットシミュレータの7dofアームを使用して、シミュレーション環境で実行された。コストに敏感な能動学習手法は最適な関節構成を選択するために用いられる。その結果,コスト依存型能動学習は標準的な能動学習手法と同等の精度を示し,実行運動の約半分を減らした。
論文参考訳（メタデータ） (2021-01-26T16:01:02Z)
Pose Estimation for Robot Manipulators via Keypoint Optimization and Sim-to-Real Transfer [10.369766652751169]
キーポイント検出は多くのロボットアプリケーションにとって重要なビルディングブロックである。ディープラーニング手法は、マーカーのない方法でユーザ定義キーポイントを検出できる。これらの課題を克服するキーポイントを定義するための,新たな自律的手法を提案する。
論文参考訳（メタデータ） (2020-10-15T22:38:37Z)
Thinking While Moving: Deep Reinforcement Learning with Concurrent Control [122.49572467292293]
本研究では,制御システムの時間的進化とともに,ポリシーからのアクションのサンプリングを同時に行わなければならないような環境下での強化学習について検討する。人や動物のように、ロボットは思考と移動を同時に行わなければならず、前の動作が完了する前に次の動作を決定する。
論文参考訳（メタデータ） (2020-04-13T17:49:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。