論文の概要: Skill Generalization with Verbs
- arxiv url: http://arxiv.org/abs/2410.14118v1
- Date: Fri, 18 Oct 2024 02:12:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-21 14:26:07.914128
- Title: Skill Generalization with Verbs
- Title(参考訳): 動詞によるスキルの一般化
- Authors: Rachel Ma, Lyndon Lam, Benjamin A. Spiegel, Aditya Ganeshan, Roma Patel, Ben Abbatematteo, David Paulius, Stefanie Tellex, George Konidaris,
- Abstract要約: ロボットは人間が発する自然言語コマンドを理解できることが必須である。
本稿では,動詞を用いた新しいオブジェクトに対する操作スキルの一般化手法を提案する。
実ロボット上で2つの異なる対象カテゴリの新規インスタンスに適用した5つの動詞コマンドの実行に有効なトラジェクトリを生成することができることを示す。
- 参考スコア(独自算出の注目度): 20.90116318432194
- License:
- Abstract: It is imperative that robots can understand natural language commands issued by humans. Such commands typically contain verbs that signify what action should be performed on a given object and that are applicable to many objects. We propose a method for generalizing manipulation skills to novel objects using verbs. Our method learns a probabilistic classifier that determines whether a given object trajectory can be described by a specific verb. We show that this classifier accurately generalizes to novel object categories with an average accuracy of 76.69% across 13 object categories and 14 verbs. We then perform policy search over the object kinematics to find an object trajectory that maximizes classifier prediction for a given verb. Our method allows a robot to generate a trajectory for a novel object based on a verb, which can then be used as input to a motion planner. We show that our model can generate trajectories that are usable for executing five verb commands applied to novel instances of two different object categories on a real robot.
- Abstract(参考訳): ロボットは人間が発する自然言語コマンドを理解できることが必須である。
このようなコマンドは通常、与えられたオブジェクト上でどのアクションを実行するべきかを示す動詞を含み、多くのオブジェクトに適用できる。
本稿では,動詞を用いた新しいオブジェクトに対する操作スキルの一般化手法を提案する。
本手法は,与えられた対象の軌跡を特定の動詞で記述できるかどうかを判定する確率的分類器を学習する。
この分類器は、13の対象カテゴリと14の動詞の平均精度76.69%の新規対象カテゴリに正確に一般化されていることを示す。
次に、対象の運動学上のポリシー探索を行い、与えられた動詞の分類器予測を最大化する対象の軌道を求める。
本手法により,ロボットは動詞に基づく新しい物体の軌跡を生成でき,運動プランナの入力として使用できる。
実ロボット上で2つの異なる対象カテゴリの新規インスタンスに適用した5つの動詞コマンドの実行に有効なトラジェクトリを生成することができることを示す。
関連論文リスト
- Track2Act: Predicting Point Tracks from Internet Videos enables Generalizable Robot Manipulation [65.46610405509338]
我々は、ゼロショットロボット操作を可能にする汎用的な目標条件ポリシーを学習することを目指している。
私たちのフレームワークであるTrack2Actは、ゴールに基づいて将来のタイムステップで画像内のポイントがどのように動くかを予測する。
学習したトラック予測を残留ポリシーと組み合わせることで,多種多様な汎用ロボット操作が可能となることを示す。
論文 参考訳(メタデータ) (2024-05-02T17:56:55Z) - Opening the Vocabulary of Egocentric Actions [42.94865322371628]
本稿では,新しいオープン語彙行動認識タスクを提案する。
訓練中に観察される動詞と対象のセットが与えられた場合、目的は、動詞を、目に見えるものや新しいものを含む行動のオープンな語彙に一般化することである。
EPIC-KITCHENS-100およびアセンブリ101データセット上で,オープンな語彙ベンチマークを作成する。
論文 参考訳(メタデータ) (2023-08-22T15:08:02Z) - RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic
Control [140.48218261864153]
本研究では,インターネット規模のデータに基づいて学習した視覚言語モデルを,エンドツーエンドのロボット制御に直接組み込む方法について検討する。
提案手法は,インターネット規模のトレーニングから,RT-2による創発的能力の獲得を可能にした。
論文 参考訳(メタデータ) (2023-07-28T21:18:02Z) - Actionable Phrase Detection using NLP [0.0]
アクションブルとは、最も基本的な意味では、特定のアクションを取る必要があることを意味する用語である。
本稿では,Actionablesをスクラッチから設計した言語フィルタを用いて,原文から抽出できるかどうかを検討することを目的とする。
論文 参考訳(メタデータ) (2022-10-30T13:37:49Z) - Do Trajectories Encode Verb Meaning? [22.409307683247967]
接地言語モデルは、名詞や形容詞などの具体的なカテゴリーを、画像やビデオを通じて世界に接続することを学ぶ。
本稿では,対象物の位置と回転が自然に意味論的にエンコードされる範囲について検討する。
トラジェクトリはいくつかの動詞(例えば転落)と相関し、自己教師付き事前学習による追加抽象は、動詞の意味のニュアンス的な違いをさらに捉えることができる。
論文 参考訳(メタデータ) (2022-06-23T19:57:16Z) - Learning 6-DoF Object Poses to Grasp Category-level Objects by Language
Instructions [74.63313641583602]
本稿では,既知カテゴリから把握する任意のオブジェクトのタスクを,自由形式の言語命令を用いて検討する。
我々はこれらの規律を、人間とロボットの相互作用に不可欠なオープンチャレンジにまとめる。
言語誘導型6-DoFカテゴリーレベルの物体位置定位モデルを提案する。
論文 参考訳(メタデータ) (2022-05-09T04:25:14Z) - Synthesis and Execution of Communicative Robotic Movements with
Generative Adversarial Networks [59.098560311521034]
我々は、繊細な物体を操作する際に人間が採用するのと同じキネマティクス変調を2つの異なるロボットプラットフォームに転送する方法に焦点を当てる。
我々は、ロボットのエンドエフェクターが採用する速度プロファイルを、異なる特徴を持つ物体を輸送する際に人間が何をするかに触発されて調整する。
我々は、人体キネマティクスの例を用いて訓練され、それらを一般化し、新しい有意義な速度プロファイルを生成する、新しいジェネレーティブ・アドバイサル・ネットワークアーキテクチャを利用する。
論文 参考訳(メタデータ) (2022-03-29T15:03:05Z) - Language Grounding with 3D Objects [60.67796160959387]
本稿では,3Dオブジェクトに関する視覚的・非視覚的言語を対象とする新たな推論タスクを提案する。
オブジェクトを識別するためのCLIPベースのモデルをいくつか紹介する。
言語接地モデルにビュー推定を追加することで、SNAREとロボットプラットフォーム上で言語で参照されるオブジェクトを識別する場合の精度が向上することがわかった。
論文 参考訳(メタデータ) (2021-07-26T23:35:58Z) - Embodying Pre-Trained Word Embeddings Through Robot Actions [9.048164930020404]
多語語を含む様々な言語表現に適切に対応することは、ロボットにとって重要な能力です。
これまでの研究で、ロボットは事前訓練された単語埋め込みを用いることで、アクション記述ペアデータセットに含まれていない単語を使用できることが示されている。
ロボットの感覚運動体験を用いて,事前学習された単語埋め込みを具体化したものに変換する。
論文 参考訳(メタデータ) (2021-04-17T12:04:49Z) - COBE: Contextualized Object Embeddings from Narrated Instructional Video [52.73710465010274]
そこで本稿では,教師ビデオの自動書き起こしからコンテキスト適応型オブジェクト埋め込みを学習するための新しいフレームワークを提案する。
言語の意味的・構成的構造を視覚的検知器を訓練し,オブジェクトとその関連するナレーションの文脈的単語埋め込みを予測する。
実験の結果,検出器は多種多様なコンテキストオブジェクト情報を予測し,少数ショットおよびゼロショット学習の設定において極めて有効であることがわかった。
論文 参考訳(メタデータ) (2020-07-14T19:04:08Z) - Robot Object Retrieval with Contextual Natural Language Queries [26.88600852700681]
我々は,それらの使用法の記述に基づいてオブジェクトを検索するモデルを開発した。
我々のモデルは、動詞句で指定されたオブジェクトの使用からオブジェクトの外観を直接予測する。
言語コマンドに存在する文脈情報に基づいて、我々のモデルは未知のオブジェクトクラスや未知の名詞に一般化することができる。
論文 参考訳(メタデータ) (2020-06-23T18:13:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。