論文の概要: Text2Grasp: Grasp synthesis by text prompts of object grasping parts
- arxiv url: http://arxiv.org/abs/2404.15189v1
- Date: Tue, 9 Apr 2024 10:57:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-28 11:16:37.558387
- Title: Text2Grasp: Grasp synthesis by text prompts of object grasping parts
- Title(参考訳): Text2Grasp:物体把握部のテキストプロンプトによるグラフ合成
- Authors: Xiaoyun Chang, Yi Sun,
- Abstract要約: この手は、物体をつかみ、操作する人間の能力において重要な役割を担っている。
人間の意図やタスクレベルの言語を、本来のあいまいさを把握するための制御信号として利用する既存の方法。
本研究では,より精密な制御が可能なオブジェクト把握部であるText2Graspのテキストプロンプトによって導かれるグリップ合成手法を提案する。
- 参考スコア(独自算出の注目度): 4.031699584957737
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The hand plays a pivotal role in human ability to grasp and manipulate objects and controllable grasp synthesis is the key for successfully performing downstream tasks. Existing methods that use human intention or task-level language as control signals for grasping inherently face ambiguity. To address this challenge, we propose a grasp synthesis method guided by text prompts of object grasping parts, Text2Grasp, which provides more precise control. Specifically, we present a two-stage method that includes a text-guided diffusion model TextGraspDiff to first generate a coarse grasp pose, then apply a hand-object contact optimization process to ensure both plausibility and diversity. Furthermore, by leveraging Large Language Model, our method facilitates grasp synthesis guided by task-level and personalized text descriptions without additional manual annotations. Extensive experiments demonstrate that our method achieves not only accurate part-level grasp control but also comparable performance in grasp quality.
- Abstract(参考訳): 手は、物体をつかみ、操作する人間の能力において重要な役割を担い、制御可能なグリップ合成が下流タスクを成功させる鍵である。
人間の意図やタスクレベルの言語を、本来のあいまいさを把握するための制御信号として利用する既存の方法。
この課題に対処するために、より精密な制御を提供する対象把握部分のテキストプロンプトであるText2Graspによって導かれるグリップ合成手法を提案する。
具体的には,テキスト誘導拡散モデルTextGraspDiffを含む2段階の手法を提案する。
さらに,Large Language Modelを活用することで,タスクレベルとパーソナライズされたテキスト記述を手作業のアノテーションなしで手作業で理解しやすくする。
広範囲な実験により,本手法は精度の高い部分レベルグリップ制御だけでなく,グリップ品質に匹敵する性能を達成できることが実証された。
関連論文リスト
- Improving Subject-Driven Image Synthesis with Subject-Agnostic Guidance [62.15866177242207]
主観的条件を構築することにより、与えられた主観的条件と入力テキストプロンプトの両方に整合した出力が得られることを示す。
私たちのアプローチは概念的にはシンプルで、最小限のコード修正しか必要ありませんが、実質的な品質改善につながります。
論文 参考訳(メタデータ) (2024-05-02T15:03:41Z) - DiffH2O: Diffusion-Based Synthesis of Hand-Object Interactions from Textual Descriptions [15.417836855005087]
DiffH2Oは,現実的,一方的あるいは一方的な物体相互作用を合成する新しい手法である。
タスクを把握段階とテキストベースのインタラクション段階に分解する。
把握段階では、モデルが手の動きのみを生成するのに対し、手と物の両方のポーズが合成される。
論文 参考訳(メタデータ) (2024-03-26T16:06:42Z) - Text2Data: Low-Resource Data Generation with Textual Control [104.38011760992637]
自然言語は、人間が機械とシームレスに対話するための共通かつ直接的な制御信号として機能する。
ラベルのないデータを用いて教師なし拡散モデルを用いて基礎となるデータ分布を理解する新しいアプローチであるText2Dataを提案する。
制御性を確保し、破滅的な忘れを効果的に防止する、新しい制約最適化ベースの学習目標を通じて制御可能な微調整を行う。
論文 参考訳(メタデータ) (2024-02-08T03:41:39Z) - Seek for Incantations: Towards Accurate Text-to-Image Diffusion
Synthesis through Prompt Engineering [118.53208190209517]
本稿では,拡散モデルの適切なテキスト記述を即時学習により学習するフレームワークを提案する。
提案手法は,入力されたテキストと生成された画像とのマッチングを改善するためのプロンプトを効果的に学習することができる。
論文 参考訳(メタデータ) (2024-01-12T03:46:29Z) - BOTH2Hands: Inferring 3D Hands from Both Text Prompts and Body Dynamics [50.88842027976421]
両手動作生成のための新しいマルチモーダルデータセットBOTH57Mを提案する。
私たちのデータセットには、人体と手の動きの正確な追跡が含まれています。
また,新しいタスクのための強力なベースライン手法であるBOTH2Handsも提供する。
論文 参考訳(メタデータ) (2023-12-13T07:30:19Z) - Detailed Human-Centric Text Description-Driven Large Scene Synthesis [14.435565761166648]
DetText2Sceneはテキスト駆動による新しい大規模画像合成であり、忠実さ、制御性、自然性を備えている。
私たちのDetText2Sceneは、テキストから大規模合成において、質的かつ定量的に、先行技術よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-11-30T16:04:30Z) - Successor Features for Efficient Multisubject Controlled Text Generation [48.37713738712319]
本稿では,後継機能 (SF) と言語モデル修正の2つの基本概念を基礎とするSF-GENを紹介する。
SF-GENはこの2つをシームレスに統合し、LCMのパラメータを変更することなくテキスト生成の動的ステアリングを可能にする。
我々の知る限り、本研究はテキスト生成における後継機能の最初の応用である。
論文 参考訳(メタデータ) (2023-11-03T00:17:08Z) - Fg-T2M: Fine-Grained Text-Driven Human Motion Generation via Diffusion
Model [11.873294782380984]
そこで本研究では,高精度なテキスト記述をサポートする高品質な条件付き人間の動作シーケンスを生成するための微細な手法を提案する。
本手法は,1) テキスト情報を完全に活用するための正確かつ完全な言語特徴を構築する言語構造支援モジュール,2) 多段階推論を実現するために,浅層および深層グラフニューラルネットワークから近隣および総合的な意味論的特徴を学習する文脈認識プログレッシブ推論モジュールの2つの主要な構成要素から構成される。
論文 参考訳(メタデータ) (2023-09-12T14:43:47Z) - Improving Disentangled Text Representation Learning with
Information-Theoretic Guidance [99.68851329919858]
自然言語の独特な性質は、テキスト表現の分離をより困難にする。
情報理論にインスパイアされた本研究では,テキストの不整合表現を効果的に表現する手法を提案する。
条件付きテキスト生成とテキストスタイル転送の両方の実験は、不整合表現の質を実証する。
論文 参考訳(メタデータ) (2020-06-01T03:36:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。