Fugu-MT 論文翻訳(概要): Signs of Language: Embodied Sign Language Fingerspelling Acquisition from Demonstrations for Human-Robot Interaction

論文の概要: Signs of Language: Embodied Sign Language Fingerspelling Acquisition from Demonstrations for Human-Robot Interaction

arxiv url: http://arxiv.org/abs/2209.05135v3
Date: Mon, 5 Jun 2023 12:56:14 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-07 04:56:28.168987
Title: Signs of Language: Embodied Sign Language Fingerspelling Acquisition from Demonstrations for Human-Robot Interaction
Title（参考訳）: 言語記号:人間とロボットの相互作用の実証から取得する手話指
Authors: Federico Tavella and Aphrodite Galata and Angelo Cangelosi
Abstract要約: 本稿では,ビデオ例からデキスタスモータの模倣を学習する手法を提案する。まず,関節に1つのアクチュエータを備えたロボットハンドのURDFモデルを構築した。トレーニング済みのディープビジョンモデルを利用して、RGBビデオから手の3Dポーズを抽出する。
参考スコア（独自算出の注目度）: 1.0166477175169308
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Learning fine-grained movements is a challenging topic in robotics, particularly in the context of robotic hands. One specific instance of this challenge is the acquisition of fingerspelling sign language in robots. In this paper, we propose an approach for learning dexterous motor imitation from video examples without additional information. To achieve this, we first build a URDF model of a robotic hand with a single actuator for each joint. We then leverage pre-trained deep vision models to extract the 3D pose of the hand from RGB videos. Next, using state-of-the-art reinforcement learning algorithms for motion imitation (namely, proximal policy optimization and soft actor-critic), we train a policy to reproduce the movement extracted from the demonstrations. We identify the optimal set of hyperparameters for imitation based on a reference motion. Finally, we demonstrate the generalizability of our approach by testing it on six different tasks, corresponding to fingerspelled letters. Our results show that our approach is able to successfully imitate these fine-grained movements without additional information, highlighting its potential for real-world applications in robotics.
Abstract（参考訳）: 細かい動きを学習することは、ロボット工学、特にロボットハンドの文脈において難しいトピックである。この課題の具体例の1つは、ロボットにおける手話の指先獲得である。本稿では,追加情報なしで映像からデクスタースモータの模倣を学習する手法を提案する。これを実現するために,まずロボットハンドのurdfモデルを構築し,各関節に1つのアクチュエータを装着した。トレーニング済みのディープビジョンモデルを利用して、RGBビデオから手の3Dポーズを抽出する。次に,運動模倣のための最先端強化学習アルゴリズム(すなわち近位政策最適化とソフトアクタ-クリティック)を用いて,実演から抽出した動きを再現する方針を訓練する。基準運動に基づく模倣のための最適ハイパーパラメータ集合を同定する。最後に,手書き文字に対応する6つのタスクでテストすることで,手法の一般化可能性を示す。提案手法は,ロボット工学における実世界の応用の可能性を明らかにするとともに,これらの微細な動きを追加情報なしで再現できることを示す。

関連論文リスト

VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation [53.63540587160549]
VidBotは、WildのモノクルなRGBのみの人間ビデオから学習した3Dアベイランスを使って、ゼロショットロボット操作を可能にするフレームワークである。 VidBotは、人間の日常的なビデオを利用してロボットの学習をよりスケーラブルにする。
論文参考訳（メタデータ） (2025-03-10T10:04:58Z)
Moto: Latent Motion Token as the Bridging Language for Learning Robot Manipulation from Videos [64.48857272250446]
我々はMotoを紹介する。Motoは、映像コンテンツをラテントモーションTokenizerでラテントモーションTokenシーケンスに変換する。我々は、モーショントークンによるMoto-GPTの事前学習を行い、多様な視覚的動きの知識を捉えることができる。実際のロボット動作に先立って学習した動きを転送するために、潜伏した動きのトークン予測と実際のロボット制御をシームレスにブリッジするコファインチューニング戦略を実装した。
論文参考訳（メタデータ） (2024-12-05T18:57:04Z)
OKAMI: Teaching Humanoid Robots Manipulation Skills through Single Video Imitation [35.97702591413093]
一つのRGB-Dビデオから操作計画を生成する方法であるOKAMIを紹介する。 OKAMIは、オープンワールドビジョンモデルを使用して、タスク関連オブジェクトを特定し、身体の動きと手ポーズを別々に再ターゲットする。
論文参考訳（メタデータ） (2024-10-15T17:17:54Z)
Latent Action Pretraining from Videos [156.88613023078778]
一般行動モデル(LAPA)のための潜在行動事前訓練について紹介する。 LAPA(英: LAPA)は、VLA(Vision-Language-Action)モデルに接地型ロボットアクションラベルを含まない教師なしの訓練方法である。本稿では,ロボットアクションラベルを持たないインターネット規模のビデオから学習する手法を提案する。
論文参考訳（メタデータ） (2024-10-15T16:28:09Z)
DemoStart: Demonstration-led auto-curriculum applied to sim-to-real with multi-fingered robots [15.034811470942962]
3本指ロボットハンドを装備した腕の複雑な操作動作を学習できる新しい自己カリキュラム強化学習法であるDemoStartを提案する。シミュレーションからの学習は、行動生成のサイクルを劇的に減らし、ドメインランダム化技術を利用して、ゼロショット・シム・トゥ・リアル転送を成功させる。
論文参考訳（メタデータ） (2024-09-10T16:05:25Z)
Track2Act: Predicting Point Tracks from Internet Videos enables Generalizable Robot Manipulation [65.46610405509338]
我々は、ゼロショットロボット操作を可能にする汎用的な目標条件ポリシーを学習することを目指している。私たちのフレームワークであるTrack2Actは、ゴールに基づいて将来のタイムステップで画像内のポイントがどのように動くかを予測する。学習したトラック予測を残留ポリシーと組み合わせることで,多種多様な汎用ロボット操作が可能となることを示す。
論文参考訳（メタデータ） (2024-05-02T17:56:55Z)
Learning an Actionable Discrete Diffusion Policy via Large-Scale Actionless Video Pre-Training [69.54948297520612]
ジェネラリストの具体化エージェントを学ぶことは、主にアクションラベル付きロボットデータセットの不足に起因して、課題を提起する。これらの課題に対処するための新しい枠組みを導入し、人間のビデオにおける生成前トレーニングと、少数のアクションラベル付きロボットビデオのポリシー微調整を組み合わせるために、統一された離散拡散を利用する。提案手法は, 従来の最先端手法と比較して, 高忠実度な今後の計画ビデオを生成し, 細調整されたポリシーを強化する。
論文参考訳（メタデータ） (2024-02-22T09:48:47Z)
VoxPoser: Composable 3D Value Maps for Robotic Manipulation with Language Models [38.503337052122234]
大規模言語モデル(LLM)は、ロボット操作のために抽出できる豊富な行動可能な知識を持っていることが示されている。我々は,オープンな命令セットとオープンなオブジェクトセットが与えられた様々な操作タスクに対して,ロボット軌道を合成することを目指している。筆者らは,接触に富んだインタラクションを含むシーンのダイナミックスモデルを効率的に学習することで,提案フレームワークがオンライン体験の恩恵を享受できることを実証する。
論文参考訳（メタデータ） (2023-07-12T07:40:48Z)
Learning Video-Conditioned Policies for Unseen Manipulation Tasks [83.2240629060453]
ビデオ条件付きポリシー学習は、以前は目に見えないタスクの人間のデモをロボット操作スキルにマッピングする。我々は,現在のシーン観察と対象課題のビデオから適切なアクションを生成するためのポリシーを学習する。われわれは,多タスクロボット操作環境の課題と,技術面における性能の面から,そのアプローチを検証した。
論文参考訳（メタデータ） (2023-05-10T16:25:42Z)
Open-World Object Manipulation using Pre-trained Vision-Language Models [72.87306011500084]
ロボットが人からの指示に従うためには、人間の語彙の豊かな意味情報を繋げなければならない。我々は、事前学習された視覚言語モデルを利用して、オブジェクト識別情報を抽出するシンプルなアプローチを開発する。実際の移動マニピュレータにおける様々な実験において、MOOはゼロショットを様々な新しいオブジェクトカテゴリや環境に一般化する。
論文参考訳（メタデータ） (2023-03-02T01:55:10Z)
Cross-Domain Transfer via Semantic Skill Imitation [49.83150463391275]
本稿では、例えば人間ビデオなどのソースドメインからのデモンストレーションを利用して、強化学習(RL)を高速化する意味模倣手法を提案する。関節速度のような低レベルな動作を模倣する代わりに、我々のアプローチは「電子レンジを開く」や「ストーブを回す」といった、実証された意味的なスキルのシーケンスを模倣する。
論文参考訳（メタデータ） (2022-12-14T18:46:14Z)
From One Hand to Multiple Hands: Imitation Learning for Dexterous Manipulation from Single-Camera Teleoperation [26.738893736520364]
我々は,iPadとコンピュータのみで3Dデモを効率的に収集する,新しい単一カメラ遠隔操作システムを提案する。我々は,操作者の手の構造と形状が同じであるマニピュレータである物理シミュレータにおいて,各ユーザ向けにカスタマイズされたロボットハンドを構築する。データを用いた模倣学習では、複数の複雑な操作タスクでベースラインを大幅に改善する。
論文参考訳（メタデータ） (2022-04-26T17:59:51Z)
DexMV: Imitation Learning for Dexterous Manipulation from Human Videos [11.470141313103465]
本稿では,コンピュータビジョンとロボット学習のギャップを埋めるために,新しいプラットフォームとパイプラインであるDexMVを提案する。 i)多指ロボットハンドによる複雑な操作タスクのシミュレーションシステムと,(ii)人間の手による大規模な実演を記録するコンピュータビジョンシステムとを設計する。実演ではロボット学習を大きなマージンで改善することができ、強化学習だけでは解決できない複雑なタスクを解決できることが示される。
論文参考訳（メタデータ） (2021-08-12T17:51:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。