論文の概要: PGA: Personalizing Grasping Agents with Single Human-Robot Interaction
- arxiv url: http://arxiv.org/abs/2310.12547v2
- Date: Tue, 19 Mar 2024 11:09:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-21 00:30:47.824193
- Title: PGA: Personalizing Grasping Agents with Single Human-Robot Interaction
- Title(参考訳): PGA: 単一ロボットインタラクションによるグラフピングエージェントのパーソナライズ
- Authors: Junghyun Kim, Gi-Cheon Kang, Jaein Kim, Seoyun Yang, Minjoon Jung, Byoung-Tak Zhang,
- Abstract要約: LCRG(Language-Conditioned Robotic Grasping)は、自然言語の指示に基づいてオブジェクトを理解・把握するロボットを開発することを目的としている。
タスクシナリオのGraspMineと、個人オブジェクトのピンポインティングと把握を目的とした新しいデータセットを導入する。
提案手法であるPersonalized Grasping Agent (PGA)は,ユーザの環境のラベルのない画像データを活用することでGraspMineに対処する。
- 参考スコア(独自算出の注目度): 19.579168401873606
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Language-Conditioned Robotic Grasping (LCRG) aims to develop robots that comprehend and grasp objects based on natural language instructions. While the ability to understand personal objects like my wallet facilitates more natural interaction with human users, current LCRG systems only allow generic language instructions, e.g., the black-colored wallet next to the laptop. To this end, we introduce a task scenario GraspMine alongside a novel dataset aimed at pinpointing and grasping personal objects given personal indicators via learning from a single human-robot interaction, rather than a large labeled dataset. Our proposed method, Personalized Grasping Agent (PGA), addresses GraspMine by leveraging the unlabeled image data of the user's environment, called Reminiscence. Specifically, PGA acquires personal object information by a user presenting a personal object with its associated indicator, followed by PGA inspecting the object by rotating it. Based on the acquired information, PGA pseudo-labels objects in the Reminiscence by our proposed label propagation algorithm. Harnessing the information acquired from the interactions and the pseudo-labeled objects in the Reminiscence, PGA adapts the object grounding model to grasp personal objects. This results in significant efficiency while previous LCRG systems rely on resource-intensive human annotations -- necessitating hundreds of labeled data to learn my wallet. Moreover, PGA outperforms baseline methods across all metrics and even shows comparable performance compared to the fully-supervised method, which learns from 9k annotated data samples. We further validate PGA's real-world applicability by employing a physical robot to execute GrsapMine. Code and data are publicly available at https://github.com/JHKim-snu/PGA.
- Abstract(参考訳): LCRG(Language-Conditioned Robotic Grasping)は、自然言語の指示に基づいてオブジェクトを理解・把握するロボットを開発することを目的としている。
私の財布のような個人的なオブジェクトを理解する能力は、人間のユーザとのより自然なインタラクションを促進するが、現在のLCRGシステムでは、ラップトップの横にある黒いウォレットのような一般的な言語命令しか使えません。
この目的のために、大きなラベル付きデータセットではなく、単一の人間とロボットのインタラクションから学習することで、個人指標が与えられた個人オブジェクトをピンポイントし、把握することを目的とした、新しいデータセットとともに、タスクシナリオGraspMineを紹介した。
提案手法であるPersonalized Grasping Agent (PGA)は,Reminiscenceと呼ばれる,ユーザの環境のラベルのない画像データを活用することでGraspMineに対処する。
具体的には、PGAは、個人オブジェクトに関連指標を提示するユーザによって個人オブジェクト情報を取得し、PGAはそれを回転させてオブジェクトを検査する。
得られた情報に基づいて,提案したラベル伝搬アルゴリズムにより,PGAの擬似ラベルオブジェクトを記憶する。
PGAは、インタラクションから取得した情報と、Reminiscence内の擬似ラベルオブジェクトとを調和させ、個人オブジェクトを把握するためにオブジェクトグラウンドモデルを適用する。
これまでのLCRGシステムはリソース集約的な人間のアノテーションに依存していたが、財布を学ぶには数百のラベル付きデータを必要としていた。
さらに、PGAはすべてのメトリクスでベースラインメソッドよりも優れており、9kの注釈付きデータサンプルから学習する完全教師付きメソッドと同等のパフォーマンスを示している。
GrsapMineの実行に物理ロボットを用いることにより,PGAの現実的適用性をさらに検証する。
コードとデータはhttps://github.com/JHKim-snu/PGAで公開されている。
関連論文リスト
- Keypoint Abstraction using Large Models for Object-Relative Imitation Learning [78.92043196054071]
多様なタスクや環境にまたがる新しいオブジェクト構成やインスタンスへの一般化は、ロボット工学において重要な課題である。
キーポイントに基づく表現は、本質的なオブジェクトキャプチャ機能のための簡潔な表現として有効であることが証明されている。
本稿では,タスク関連およびクロスインスタンス整合性キーポイントの自動生成に,大規模な事前学習型視覚言語モデルを活用するフレームワークであるKALMを提案する。
論文 参考訳(メタデータ) (2024-10-30T17:37:31Z) - Learning Object Properties Using Robot Proprioception via Differentiable Robot-Object Interaction [52.12746368727368]
微分可能シミュレーションは、システム識別の強力なツールとなっている。
本手法は,オブジェクト自体のデータに頼ることなく,ロボットからの情報を用いてオブジェクト特性を校正する。
低コストなロボットプラットフォームにおける本手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-10-04T20:48:38Z) - ICGNet: A Unified Approach for Instance-Centric Grasping [42.92991092305974]
オブジェクト中心の把握のためのエンドツーエンドアーキテクチャを導入する。
提案手法の有効性を,合成データセット上での最先端手法に対して広範囲に評価することにより示す。
論文 参考訳(メタデータ) (2024-01-18T12:41:41Z) - Learning-To-Rank Approach for Identifying Everyday Objects Using a
Physical-World Search Engine [0.8749675983608172]
我々は,オープン語彙のユーザ命令から対象オブジェクトをループで検索する作業に焦点をあてる。
本稿では,学習からランクの物理オブジェクトタスクのための新しいアプローチであるMultiRankItを提案する。
論文 参考訳(メタデータ) (2023-12-26T01:40:31Z) - PROGrasp: Pragmatic Human-Robot Communication for Object Grasping [22.182690439449278]
対話型オブジェクトグラスピング(IOG)は、人間とロボットの自然言語による対話を通じて、望ましいオブジェクトを識別し、把握するタスクである。
Pragmatic-IOG タスクとそれに対応するデータセット Intention-oriented Multi-Modal Dialogue (IM-Dial) を導入する。
Prograspは、視覚的なグラウンドニング、質問、オブジェクトの把握、そして最も重要なのは、実用的推論の解答解釈のモジュールを組み込むことで、Pragmatic-IOGを実行する。
論文 参考訳(メタデータ) (2023-09-14T14:45:47Z) - INVIGORATE: Interactive Visual Grounding and Grasping in Clutter [56.00554240240515]
INVIGORATEは、自然言語で人間と対話し、特定の物体をクラッタで把握するロボットシステムである。
我々は、物体検出、視覚的接地、質問生成、OBR検出と把握のために、別々のニューラルネットワークを訓練する。
我々は、学習したニューラルネットワークモジュールを統合する、部分的に観測可能なマルコフ決定プロセス(POMDP)を構築します。
論文 参考訳(メタデータ) (2021-08-25T07:35:21Z) - H2O: A Benchmark for Visual Human-human Object Handover Analysis [45.27427828040923]
ヒトとヒトのオブジェクトハンドオーバを視覚的に解析するための新しいリッチアノテートデータセットH2Oを提案する。
データセットには、30のオブジェクトを互いに渡す15人を含む18kのビデオクリップが含まれている。
視覚に基づくタスクを複数サポートできるが、そこからはReceer Grasp Prediction と呼ばれる未探索のタスクに対して、ベースラインメソッド RGPNet が具体的に提供される。
論文 参考訳(メタデータ) (2021-04-23T08:30:54Z) - ConsNet: Learning Consistency Graph for Zero-Shot Human-Object
Interaction Detection [101.56529337489417]
画像中のHuman, Action, Object>の形のHOIインスタンスを検出・認識することを目的としたHuman-Object Interaction (HOI) Detectionの問題点を考察する。
我々は、オブジェクト、アクション、インタラクション間の多レベルコンパレンシーは、稀な、あるいは以前には見られなかったHOIのセマンティック表現を生成するための強力な手がかりであると主張している。
提案モデルでは,人-対象のペアの視覚的特徴とHOIラベルの単語埋め込みを入力とし,それらを視覚-意味的関節埋め込み空間にマッピングし,類似度を計測して検出結果を得る。
論文 参考訳(メタデータ) (2020-08-14T09:11:18Z) - Joint Inference of States, Robot Knowledge, and Human (False-)Beliefs [90.20235972293801]
本稿では,人間(時間的)・人間(時間的)・人間(時間的)・人間(時間的)・人間(時間的)・人間(時間的)・人間(時間的)・人間(時間的)・人間(時間的)・人間(時間的)・人間(時間的)・人間(時間的)の認知能力が,ロボットとの相互作用にどのように影響するかを理解するために,対象状態,ロボット知識,人間(時間的)の認知能力の表現にグラフィカルモデルを採用することを提案する。
推論アルゴリズムは、複数のビューにまたがる全てのロボットから個別のpgを融合し、単一のビューから発生したエラーを克服するより効果的な推論能力を得る。
論文 参考訳(メタデータ) (2020-04-25T23:02:04Z) - Mining Implicit Entity Preference from User-Item Interaction Data for
Knowledge Graph Completion via Adversarial Learning [82.46332224556257]
本稿では,知識グラフ補完タスクにおけるユーザインタラクションデータを活用することで,新たな逆学習手法を提案する。
我々のジェネレータはユーザインタラクションデータから分離されており、識別器の性能を向上させるのに役立ちます。
利用者の暗黙の実体的嗜好を発見するために,グラフニューラルネットワークに基づく精巧な協調学習アルゴリズムを設計する。
論文 参考訳(メタデータ) (2020-03-28T05:47:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。