論文の概要: OmniDexVLG: Learning Dexterous Grasp Generation from Vision Language Model-Guided Grasp Semantics, Taxonomy and Functional Affordance
- arxiv url: http://arxiv.org/abs/2512.03874v1
- Date: Wed, 03 Dec 2025 15:28:23 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 12:08:13.337327
- Title: OmniDexVLG: Learning Dexterous Grasp Generation from Vision Language Model-Guided Grasp Semantics, Taxonomy and Functional Affordance
- Title(参考訳): OmniDexVLG: 視覚言語モデルを用いたグラフセマンティックス、分類学、機能改善によるデクスタースグラフ生成の学習
- Authors: Lei Zhang, Diwen Zheng, Kaixin Bai, Zhenshan Bing, Zoltan-Csaba Marton, Zhaopeng Chen, Alois Christian Knoll, Jianwei Zhang,
- Abstract要約: デクサラス・グリップ生成は、タスク要求と人間の解釈可能なグリップ・セマンティクスに沿ったグリップ・ポーズを生成することを目的としている。
OmniDexVLGは、構造的に多様性があり、セマンティックにコヒーレントなセグメンテーションを生成できるセマンティックス認識型セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・アグメンテーション・フレームワークである。
本手法は, 多様性の把握, 接触意味の多様性, 機能能力の多様性, 意味の整合性の観点から, 技術アプローチの状況を大幅に上回っている。
- 参考スコア(独自算出の注目度): 15.511526356298026
- License:
- Abstract: Dexterous grasp generation aims to produce grasp poses that align with task requirements and human interpretable grasp semantics. However, achieving semantically controllable dexterous grasp synthesis remains highly challenging due to the lack of unified modeling of multiple semantic dimensions, including grasp taxonomy, contact semantics, and functional affordance. To address these limitations, we present OmniDexVLG, a multimodal, semantics aware grasp generation framework capable of producing structurally diverse and semantically coherent dexterous grasps under joint language and visual guidance. Our approach begins with OmniDexDataGen, a semantic rich dexterous grasp dataset generation pipeline that integrates grasp taxonomy guided configuration sampling, functional affordance contact point sampling, taxonomy aware differential force closure grasp sampling, and physics based optimization and validation, enabling systematic coverage of diverse grasp types. We further introduce OmniDexReasoner, a multimodal grasp type semantic reasoning module that leverages multi agent collaboration, retrieval augmented generation, and chain of thought reasoning to infer grasp related semantics and generate high quality annotations that align language instructions with task specific grasp intent. Building upon these components, we develop a unified Vision Language Grasping generation model that explicitly incorporates grasp taxonomy, contact structure, and functional affordance semantics, enabling fine grained control over grasp synthesis from natural language instructions. Extensive experiments in simulation and real world object grasping and ablation studies demonstrate that our method substantially outperforms state of the art approaches in terms of grasp diversity, contact semantic diversity, functional affordance diversity, and semantic consistency.
- Abstract(参考訳): デクサラス・グリップ生成は、タスク要求と人間の解釈可能なグリップ・セマンティクスに沿ったグリップ・ポーズを生成することを目的としている。
しかし, セグメンテーション, 接触セグメンテーション, 機能的余裕など, 複数のセグメンテーションの統一的モデリングが欠如しているため, セグメンテーション的に制御可能なデクスタリーグリップ合成を実現することは依然として困難である。
これらの制約に対処するため,共同言語と視覚指導の下で,構造的に多様性があり,セマンティックに整合した手振りを生成できる多モーダル・セマンティック・アグライメント・ジェネレーション・フレームワークであるOmniDexVLGを提案する。
OmniDexDataGenは、セマンティック・リッチなデクスタラス・グリップ・データセット生成パイプラインで、セマンティック・セマンティック・コンフィグレーション・サンプリング、機能的アベイランス・コンタクトポイント・サンプリング、分類を意識した差分力クロージャ・グルーピング・サンプリング、および物理に基づく最適化と検証を統合し、多様なグルーピング・タイプを体系的にカバーする。
OmniDexReasonerはマルチモーダルなグリップ型セマンティック推論モジュールで、マルチエージェントの協調、検索の強化、思考の連鎖を利用して、関連するセマンティクスを推論し、言語命令とタスク固有のセマンティクスの意図を一致させる高品質なアノテーションを生成する。
これらの構成要素を基盤として,分類,接触構造,機能的アベイランス意味論を明示的に組み込んだ統合視覚言語グラスピング生成モデルを構築し,自然言語命令からの把握合成のきめ細かい制御を可能にする。
シミュレーションおよび実世界の物体把握・アブレーション研究における広範囲な実験により、我々の手法は、多様性の把握、接触セマンティック多様性、機能的アベイランス多様性、セマンティック一貫性の観点から、最先端のアプローチを大幅に上回っていることが示された。
関連論文リスト
- UniAlignment: Semantic Alignment for Unified Image Generation, Understanding, Manipulation and Perception [54.53657134205492]
UniAlignmentは単一の拡散変換器内での統一されたマルチモーダル生成フレームワークである。
固有モード意味アライメントとクロスモーダル意味アライメントの両方を組み込むことで、モデルのクロスモーダル一貫性と命令追従ロバスト性を高める。
本稿では、複雑なテキスト命令下でのマルチモーダルなセマンティック一貫性を評価するために設計された新しいベンチマークであるSemGen-Benchを紹介する。
論文 参考訳(メタデータ) (2025-09-28T09:11:30Z) - Foundation Model for Skeleton-Based Human Action Understanding [56.89025287217221]
本稿では,統一骨格に基づくDense Representation Learningフレームワークを提案する。
USDRLはトランスフォーマーベースのDense Spatio-Temporal (DSTE)、Multi-Grained Feature Deorrelation (MG-FD)、Multi-Perspective Consistency Training (MPCT)で構成されている。
論文 参考訳(メタデータ) (2025-08-18T02:42:16Z) - Unified Generative and Discriminative Training for Multi-modal Large Language Models [88.84491005030316]
生成的トレーニングにより、視覚言語モデル(VLM)は様々な複雑なタスクに取り組むことができる。
CLIPのようなモデルで実証された差別的トレーニングは、ゼロショットイメージテキストの分類と検索に優れています。
本稿では,両パラダイムの強みを統合する統一的アプローチを提案する。
論文 参考訳(メタデータ) (2024-11-01T01:51:31Z) - ARPA: A Novel Hybrid Model for Advancing Visual Word Disambiguation Using Large Language Models and Transformers [1.6541870997607049]
変換器の高度な特徴抽出機能を備えた大規模言語モデルの非並列的文脈理解を融合したアーキテクチャであるARPAを提案する。
ARPAの導入は、視覚的単語の曖昧さにおいて重要なマイルストーンであり、魅力的なソリューションを提供する。
我々は研究者や実践者たちに、このようなハイブリッドモデルが人工知能の先例のない進歩を後押しする未来を想像して、我々のモデルの能力を探求するよう依頼する。
論文 参考訳(メタデータ) (2024-08-12T10:15:13Z) - Towards Comprehensive Multimodal Perception: Introducing the Touch-Language-Vision Dataset [50.09271028495819]
タッチに関するマルチモーダル研究は 視覚と触覚のモダリティに焦点を当てています
我々は,人機械のカスケード協調によるTLV (Touch-Language-Vision) というタッチ言語ビジョンデータセットを構築した。
論文 参考訳(メタデータ) (2024-03-14T19:01:54Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - Multi-Relational Hyperbolic Word Embeddings from Natural Language
Definitions [5.763375492057694]
本稿では、そのような構造を明示的に活用し、定義から単語埋め込みを導出するマルチリレーショナルモデルを提案する。
経験的な分析は、フレームワークが望ましい構造的制約を課すのに役立つことを示している。
実験により、ユークリッド語よりもハイパーボリック語の埋め込みの方が優れていることが示された。
論文 参考訳(メタデータ) (2023-05-12T08:16:06Z) - Convex Polytope Modelling for Unsupervised Derivation of Semantic
Structure for Data-efficient Natural Language Understanding [31.888489552069146]
Convex-Polytopic-Modelベースのフレームワークは、生のダイアログコーパスを利用して意味パターンを自動的に抽出する大きな可能性を示している。
このフレームワークは,コーパスのセマンティックフレーム関連機能を活用し,発話の基盤となるセマンティック構造を明らかにし,最小限の監視で最先端のNLUモデルの性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2022-01-25T19:12:44Z) - Infusing Finetuning with Semantic Dependencies [62.37697048781823]
シンタックスとは異なり、セマンティクスは今日の事前訓練モデルによって表面化されないことを示す。
次に、畳み込みグラフエンコーダを使用して、タスク固有の微調整にセマンティック解析を明示的に組み込む。
論文 参考訳(メタデータ) (2020-12-10T01:27:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。