論文の概要: Multi-GraspLLM: A Multimodal LLM for Multi-Hand Semantic Guided Grasp Generation
- arxiv url: http://arxiv.org/abs/2412.08468v1
- Date: Wed, 11 Dec 2024 15:33:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-12 14:01:20.324909
- Title: Multi-GraspLLM: A Multimodal LLM for Multi-Hand Semantic Guided Grasp Generation
- Title(参考訳): Multi-GraspLLM:マルチハンドセマンティック誘導グラフ生成のためのマルチモーダルLCM
- Authors: Haosheng Li, Weixin Mao, Weipeng Deng, Chenyu Meng, Haoqiang Fan, Tiancai Wang, Ping Tan, Hongan Wang, Xiaoming Deng,
- Abstract要約: 自動接触アノテーションを備えた,最初の大規模マルチハンドグリップデータセットであるMulti-GraspSetを提案する。
そこで我々は,Multi-GraspLLMを提案する。
- 参考スコア(独自算出の注目度): 47.501835868042775
- License:
- Abstract: Multi-hand semantic grasp generation aims to generate feasible and semantically appropriate grasp poses for different robotic hands based on natural language instructions. Although the task is highly valuable, due to the lack of multi-hand grasp datasets with fine-grained contact description between robotic hands and objects, it is still a long-standing difficult task. In this paper, we present Multi-GraspSet, the first large-scale multi-hand grasp dataset with automatically contact annotations. Based on Multi-GraspSet, we propose Multi-GraspLLM, a unified language-guided grasp generation framework. It leverages large language models (LLM) to handle variable-length sequences, generating grasp poses for diverse robotic hands in a single unified architecture. Multi-GraspLLM first aligns the encoded point cloud features and text features into a unified semantic space. It then generates grasp bin tokens which are subsequently converted into grasp pose for each robotic hand via hand-aware linear mapping. The experimental results demonstrate that our approach significantly outperforms existing methods on Multi-GraspSet. More information can be found on our project page https://multi-graspllm.github.io.
- Abstract(参考訳): マルチハンドセマンティックグリップ生成は、自然言語命令に基づいて、異なるロボットハンドに対して、実現可能かつセマンティックに適切なグリップポーズを生成することを目的としている。
このタスクは非常に価値があるが、ロボットハンドとオブジェクト間のきめ細かい接触記述を伴うマルチハンドグリップデータセットが欠如しているため、長年にわたる難しい作業である。
本稿では,自動接触アノテーションを用いた,最初の大規模マルチハンドグリップデータセットであるMulti-GraspSetを提案する。
そこで我々は,Multi-GraspLLMを提案する。
可変長シーケンスを処理するために大きな言語モデル(LLM)を活用し、単一の統一アーキテクチャで多様なロボットハンドの把握ポーズを生成する。
Multi-GraspLLMはまず、符号化されたポイントクラウド機能とテキスト機能を統一されたセマンティック空間に整列させる。
その後、ハンド・アウェア・リニアマッピングにより、各ロボットハンドのグリップポーズに変換されるグリップビントークンを生成する。
実験の結果,提案手法はMulti-GraspSetの既存手法よりも優れていた。
詳細はプロジェクトのページ https://multi-graspllm.github.io.com で確認できます。
関連論文リスト
- Discrete Multimodal Transformers with a Pretrained Large Language Model for Mixed-Supervision Speech Processing [17.92378239787507]
DMLM(Decoder-only Discrete Multimodal Language Model)を提案する。
DMLMは、複数のタスク(ASR、T2S、S2TTなど)とモダリティ(テキスト、音声、ビジョン)に柔軟に適用できる。
その結果,DMLMは複数のタスクやデータセットにまたがって,教師なしと教師なしのトレーニングの組み合わせによって大きなメリットがあることがわかった。
論文 参考訳(メタデータ) (2024-06-04T20:08:25Z) - TextBind: Multi-turn Interleaved Multimodal Instruction-following in the Wild [102.93338424976959]
マルチターンインターリーブ型インストラクションフォロー機能を備えた,より大規模な言語モデルを実現するための,ほとんどアノテーションのないフレームワークであるTextBindを紹介する。
提案手法では,画像キャプチャペアのみが必要であり,言語モデルからマルチターンマルチモーダル・インストラクション・レスポンス・会話を生成する。
そこで我々は,画像エンコーダとデコーダモデルをシームレスに統合する言語モデル中心アーキテクチャであるMIMを考案した。
論文 参考訳(メタデータ) (2023-09-14T15:34:01Z) - DMFC-GraspNet: Differentiable Multi-Fingered Robotic Grasp Generation in
Cluttered Scenes [22.835683657191936]
マルチフィンガーロボットグリップは、複雑なオブジェクト操作を行う可能性がある。
マルチフィンガーロボットグリップの現在の技術は、推論時間毎に1つのグリップしか予測しないことが多い。
本稿では,この課題に対処するための3つの主要なコントリビューションを持つ,微分可能なマルチフィンガーグリップ生成ネットワーク(DMFC-GraspNet)を提案する。
論文 参考訳(メタデータ) (2023-08-01T11:21:07Z) - Instruct2Act: Mapping Multi-modality Instructions to Robotic Actions
with Large Language Model [63.66204449776262]
Instruct2Actは、ロボット操作タスクのシーケンシャルアクションにマルチモーダル命令をマッピングするフレームワークである。
我々のアプローチは、様々な命令のモダリティや入力タイプを調節する上で、調整可能で柔軟なものである。
我々のゼロショット法は、いくつかのタスクにおいて、最先端の学習ベースのポリシーよりも優れていた。
論文 参考訳(メタデータ) (2023-05-18T17:59:49Z) - PaLM-E: An Embodied Multimodal Language Model [101.29116156731762]
本研究では,実世界の連続型センサを言語モデルに組み込むための具体的言語モデルを提案する。
我々は、複数の具体的タスクのために、事前訓練された大規模言語モデルとともに、これらのエンコーディングをエンドツーエンドにトレーニングする。
562Bパラメータを持つ大モデル PaLM-E-562B は、OK-VQA 上での最先端性能を持つ視覚言語ジェネラリストである。
論文 参考訳(メタデータ) (2023-03-06T18:58:06Z) - MULTI3NLU++: A Multilingual, Multi-Intent, Multi-Domain Dataset for
Natural Language Understanding in Task-Oriented Dialogue [115.32009638844059]
英語のみのNLU++データセットを拡張して、手動による翻訳を高、中、低リソース言語に含めます。
Multi3NLU++はそのマルチインテント特性のため、複雑で自然なユーザ目標を表現している。
我々はMulti3NLU++を用いて、インテント検出やスロットラベリングといった自然言語理解タスクに対して、最先端の多言語モデルをベンチマークする。
論文 参考訳(メタデータ) (2022-12-20T17:34:25Z) - VIMA: General Robot Manipulation with Multimodal Prompts [82.01214865117637]
ロボット操作タスクの幅広い範囲をマルチモーダルプロンプトで表現できることを示す。
我々は,数千の手続き的に生成されたテーブルトップタスクからなる新しいシミュレーションベンチマークを開発した。
我々は、これらのプロンプトを処理し、自動回帰的に運動動作を出力するトランスフォーマーベースのロボットエージェントVIMAを設計する。
論文 参考訳(メタデータ) (2022-10-06T17:50:11Z) - VLMbench: A Compositional Benchmark for Vision-and-Language Manipulation [11.92150014766458]
我々は、人間の指示に従ってオブジェクト操作を行う、最後の1マイルのエンボディエージェントの空白を埋めることを目指している。
我々は、視覚・言語操作ベンチマーク(VLMbench)を構築し、分類されたロボット操作タスクに関する様々な言語命令を含む。
モジュラールールベースのタスクテンプレートが作成され、言語命令でロボットのデモを自動的に生成する。
論文 参考訳(メタデータ) (2022-06-17T03:07:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。