論文の概要: SemGrasp: Semantic Grasp Generation via Language Aligned Discretization
- arxiv url: http://arxiv.org/abs/2404.03590v1
- Date: Thu, 4 Apr 2024 16:58:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-05 14:02:35.709894
- Title: SemGrasp: Semantic Grasp Generation via Language Aligned Discretization
- Title(参考訳): SemGrasp: 言語適応型離散化によるセマンティックグラフ生成
- Authors: Kailin Li, Jingbo Wang, Lixin Yang, Cewu Lu, Bo Dai,
- Abstract要約: 本稿では,SemGraspと呼ばれるセマンティックなグリップ生成手法を提案する。
そこで本研究では,握り空間を意味空間に整合させる離散表現を導入し,握り姿勢の生成を可能にする。
その後、MLLM(Multimodal Large Language Model)が微調整され、オブジェクト、把握、言語を統一意味空間内で統合する。
- 参考スコア(独自算出の注目度): 53.43801984965309
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating natural human grasps necessitates consideration of not just object geometry but also semantic information. Solely depending on object shape for grasp generation confines the applications of prior methods in downstream tasks. This paper presents a novel semantic-based grasp generation method, termed SemGrasp, which generates a static human grasp pose by incorporating semantic information into the grasp representation. We introduce a discrete representation that aligns the grasp space with semantic space, enabling the generation of grasp postures in accordance with language instructions. A Multimodal Large Language Model (MLLM) is subsequently fine-tuned, integrating object, grasp, and language within a unified semantic space. To facilitate the training of SemGrasp, we have compiled a large-scale, grasp-text-aligned dataset named CapGrasp, featuring about 260k detailed captions and 50k diverse grasps. Experimental findings demonstrate that SemGrasp efficiently generates natural human grasps in alignment with linguistic intentions. Our code, models, and dataset are available publicly at: https://kailinli.github.io/SemGrasp.
- Abstract(参考訳): 自然な人間の把握を生成するには、対象の幾何学だけでなく意味情報も考慮する必要がある。
オブジェクトの形状に大きく依存して把握生成は、下流タスクにおける先行手法の適用を限定する。
本稿では,意味情報をグリップ表現に組み込んで静的な人間のグリップポーズを生成する,セマンティックベースのグリップ生成手法であるSemGraspを提案する。
そこで本研究では,言語指示に従って,把握空間を意味空間に整合させる離散表現を導入し,把握姿勢の生成を可能にする。
その後、MLLM(Multimodal Large Language Model)が微調整され、オブジェクト、把握、言語を統一意味空間内で統合する。
SemGraspのトレーニングを容易にするために、CapGraspという大規模で把握可能なテキスト整列データセットをコンパイルした。
実験結果から,SemGraspは言語意図に沿った自然な人間の握りを効率よく生成することが明らかとなった。
私たちのコード、モデル、データセットは、https://kailinli.github.io/SemGrasp.orgで公開されています。
関連論文リスト
- GROUNDHOG: Grounding Large Language Models to Holistic Segmentation [22.347590874621865]
本稿では,Large Language ModelsをベースとしたMLLMであるGROUNDHOGを紹介する。
GROUNDHOGはマスク付き特徴抽出器を内蔵し、抽出した特徴をMLLMバックボーンの視覚的実体トークンに変換する。
実験結果から,GROUNDHOGはタスク固有の微調整を伴わずに,様々な言語基盤タスクにおいて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-02-26T18:59:33Z) - SemiVL: Semi-Supervised Semantic Segmentation with Vision-Language
Guidance [97.00445262074595]
半教師付きセマンティックセマンティックセグメンテーションに視覚言語モデルからの豊富な事前情報を統合することを提案する。
我々は、視覚と言語を共同で推論する言語誘導デコーダを設計する。
4つのセマンティックセグメンテーションデータセット上でSemiVLを評価する。
論文 参考訳(メタデータ) (2023-11-27T19:00:06Z) - Generating Data for Symbolic Language with Large Language Models [16.529863710055004]
自然言語処理のためのデータを生成するために,大規模言語モデル (LLM) が開発された。
本稿では,LLMを利用して様々なアノテーション抽出記号言語データを生成するSymGenを提案する。
課題モデルのトレーニングでは,人間の実演だけで生成されたデータは,人間の注釈付きデータの10倍以上の有効性を示す。
論文 参考訳(メタデータ) (2023-05-23T10:44:00Z) - Linking Emergent and Natural Languages via Corpus Transfer [98.98724497178247]
創発言語と自然言語のコーパス転送によるリンクを確立する新しい方法を提案する。
このアプローチでは,言語モデリングとイメージキャプションという,2つの異なるタスクに対して,非自明な転送メリットを示す。
また,同一画像に基づく自然言語キャプションに創発的メッセージを翻訳することで,創発的言語の伝達可能性を予測する新しい指標を提案する。
論文 参考訳(メタデータ) (2022-03-24T21:24:54Z) - Integrating Language Guidance into Vision-based Deep Metric Learning [78.18860829585182]
埋め込み空間として意味的類似性を符号化した距離空間を学習することを提案する。
これらの空間は、トレーニング中に見られるもの以外のクラスに転送可能であるべきである。
これにより、学習された埋め込み空間は不完全な意味的コンテキストを符号化し、クラス間の意味的関係を誤って表現する。
論文 参考訳(メタデータ) (2022-03-16T11:06:50Z) - Constrained Language Models Yield Few-Shot Semantic Parsers [73.50960967598654]
我々は,事前学習された大規模言語モデルの利用を,少ない意味論として検討する。
意味構文解析の目標は、自然言語入力によって構造化された意味表現を生成することである。
言語モデルを用いて、入力を英語に似た制御されたサブ言語にパラフレーズし、対象の意味表現に自動的にマッピングする。
論文 参考訳(メタデータ) (2021-04-18T08:13:06Z) - Infusing Finetuning with Semantic Dependencies [62.37697048781823]
シンタックスとは異なり、セマンティクスは今日の事前訓練モデルによって表面化されないことを示す。
次に、畳み込みグラフエンコーダを使用して、タスク固有の微調整にセマンティック解析を明示的に組み込む。
論文 参考訳(メタデータ) (2020-12-10T01:27:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。