論文の概要: Grasp2Grasp: Vision-Based Dexterous Grasp Translation via Schrödinger Bridges
- arxiv url: http://arxiv.org/abs/2506.02489v1
- Date: Tue, 03 Jun 2025 06:08:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.311142
- Title: Grasp2Grasp: Vision-Based Dexterous Grasp Translation via Schrödinger Bridges
- Title(参考訳): Grasp2Grasp: Schrödinger Bridgesによる視覚ベースのデクスタースグラフ翻訳
- Authors: Tao Zhong, Jonah Buchanan, Christine Allen-Blanchette,
- Abstract要約: 視覚に基づくデクスタラス・グリップ翻訳は、異なる形態のロボットハンド間でグリップインテンションを伝達することを目的としている。
我々はこの問題を、Schr"odinger Bridgeフォーマリズムを用いて、把握分布間の輸送とみなす。
本手法は,スコアとフローマッチングを用いて,ソースとターゲットの潜在グリップ空間のマッピングを学習する。
- 参考スコア(独自算出の注目度): 3.4797100095791706
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a new approach to vision-based dexterous grasp translation, which aims to transfer grasp intent across robotic hands with differing morphologies. Given a visual observation of a source hand grasping an object, our goal is to synthesize a functionally equivalent grasp for a target hand without requiring paired demonstrations or hand-specific simulations. We frame this problem as a stochastic transport between grasp distributions using the Schr\"odinger Bridge formalism. Our method learns to map between source and target latent grasp spaces via score and flow matching, conditioned on visual observations. To guide this translation, we introduce physics-informed cost functions that encode alignment in base pose, contact maps, wrench space, and manipulability. Experiments across diverse hand-object pairs demonstrate our approach generates stable, physically grounded grasps with strong generalization. This work enables semantic grasp transfer for heterogeneous manipulators and bridges vision-based grasping with probabilistic generative modeling.
- Abstract(参考訳): そこで本研究では,ロボットハンド間の触覚意図を異なる形態で伝達することを目的とした,視覚に基づくデクスタラス・グリップ・トランスフォーメーションの新たなアプローチを提案する。
対象物をつかむソースハンドの視覚的観察を前提として、目的のハンドに対して、ペアのデモや手固有のシミュレーションを必要とせず、機能的に等価なグリップを合成することが目的である。
我々はこの問題を、Schr\"odinger Bridgeフォーマリズムを用いて、把握分布間の確率的輸送とみなす。
本手法は,視覚的観察に基づくスコアとフローマッチングを用いて,ソースとターゲットの潜在的把握空間のマッピングを学習する。
この変換を導くために,基本ポーズ,コンタクトマップ,レンチ空間,マニピュラビリティのアライメントを符号化する物理インフォームドコスト関数を導入する。
多様な対象対をまたいだ実験は、我々のアプローチが強い一般化を伴う安定で物理的に接地されたグリップを生成することを示した。
この研究により、不均一マニピュレータのセマンティックグルーピングと、確率的生成モデルによる視覚に基づくグルーピングを可能にする。
関連論文リスト
- SIGHT: Synthesizing Image-Text Conditioned and Geometry-Guided 3D Hand-Object Trajectories [124.24041272390954]
手動物体の相互作用をモデル化することは、ロボットと具体化されたAIシステムを前進させる大きな可能性を秘めている。
SIGHTは、1つの画像から現実的で物理的に妥当な3Dハンドオブジェクトインタラクショントラジェクトリを生成することに焦点を当てた,新しいタスクである。
SIGHT-Fusionは,データベースから最もよく似た3Dオブジェクトメッシュを抽出し,この課題に対処する,新しい拡散型画像文条件付き生成モデルを提案する。
論文 参考訳(メタデータ) (2025-03-28T20:53:20Z) - ManiDext: Hand-Object Manipulation Synthesis via Continuous Correspondence Embeddings and Residual-Guided Diffusion [36.9457697304841]
ManiDextは、手操作やポーズを把握するための階層的な拡散ベースの統合フレームワークである。
私たちの重要な洞察は、相互作用中の物体と手との接触関係を正確にモデル化することが重要であるということです。
本フレームワークは,まず,物体表面への接触マップと対応埋め込みを生成する。
これらの微粒な対応に基づき,拡散過程に反復的精錬プロセスを統合する新しいアプローチを導入する。
論文 参考訳(メタデータ) (2024-09-14T04:28:44Z) - Zero-Shot Medical Phrase Grounding with Off-the-shelf Diffusion Models [12.264115733611058]
テキストガイダンスでローカライズを行うタスクは、通常、フレーズグラウンドディング( phrase grounding)と呼ばれる。
私たちは、この挑戦的なタスクを実行するために、公開のFoundation Model、すなわちLatent Diffusion Modelを使用します。
胸部X線検査の結果から, 病理組織学的にSOTAと競合する可能性が示唆された。
論文 参考訳(メタデータ) (2024-04-19T14:43:48Z) - DiffH2O: Diffusion-Based Synthesis of Hand-Object Interactions from Textual Descriptions [15.417836855005087]
DiffH2Oとよばれる新しい手法を提案する。
本手法では,限られたデータから効果的な学習を可能にする3つの手法を導入する。
論文 参考訳(メタデータ) (2024-03-26T16:06:42Z) - Bridging the Gap between Human Motion and Action Semantics via Kinematic Phrases [59.32509533292653]
動作理解は、動作意味論と行動意味論の信頼性の高いマッピングを確立することを目的としている。
本研究では,人間の動作の客観的な運動事実を適切な抽象化,解釈可能性,一般性で捉えたキネマティック・フェース(KP)を提案する。
KPに基づいて、動作知識ベースを統一し、動作理解システムを構築することができる。
論文 参考訳(メタデータ) (2023-10-06T12:08:15Z) - Weakly-supervised 3D Pose Transfer with Keypoints [57.66991032263699]
3Dポーズ転送の主な課題は、1) 異なる文字で同じポーズを行うペアトレーニングデータの欠如、2) ターゲットメッシュからポーズと形状情報を分離すること、3) 異なるトポロジを持つメッシュに適用することの難しさである。
本稿では,これらの課題を克服するためのキーポイントベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-25T12:40:24Z) - Visual Affordance Prediction for Guiding Robot Exploration [56.17795036091848]
我々は,ロボット探索を導くための視覚能力の学習手法を開発した。
VQ-VAEの潜伏埋め込み空間における条件分布の学習にはTransformerベースのモデルを用いる。
本稿では,ロボット操作における視覚的目標条件付きポリシー学習において,目標サンプリング分布として機能することで探索を導くために,トレーニングされた余裕モデルをどのように利用できるかを示す。
論文 参考訳(メタデータ) (2023-05-28T17:53:09Z) - How To Not Train Your Dragon: Training-free Embodied Object Goal
Navigation with Semantic Frontiers [94.46825166907831]
Embodied AIにおけるオブジェクトゴールナビゲーション問題に対処するためのトレーニング不要のソリューションを提案する。
本手法は,古典的な視覚的同時ローカライゼーションとマッピング(V-SLAM)フレームワークに基づく,構造化されたシーン表現を構築する。
本手法は,言語先行情報とシーン統計に基づいてシーングラフのセマンティクスを伝搬し,幾何学的フロンティアに意味知識を導入する。
論文 参考訳(メタデータ) (2023-05-26T13:38:33Z) - Affordance Diffusion: Synthesizing Hand-Object Interactions [81.98499943996394]
対象物のRGB画像が与えられた場合、我々はそれと相互作用する人間の手の可視像を幻覚することを目的としている。
そこで本研究では,触覚に依存しない手オブジェクトのインタラクションレイアウトをサンプリングするLayoutNetと,物体をつかむ手のイメージを合成するContentNetの2段階生成手法を提案する。
論文 参考訳(メタデータ) (2023-03-21T17:59:10Z) - Space-Time Correspondence as a Contrastive Random Walk [47.40711876423659]
我々は,ビデオから構築した時空間グラフにおけるリンクの予測として対応をキャストした。
ペアの類似性がランダムウォークの遷移確率を定義する表現を学習する。
我々は、エッジドロップアウトと呼ばれる手法と、テスト時の自己教師付き適応が、オブジェクト中心の対応の転送をさらに改善することを示した。
論文 参考訳(メタデータ) (2020-06-25T17:56:05Z) - Orientation Attentive Robotic Grasp Synthesis with Augmented Grasp Map
Representation [62.79160608266713]
物体の形態学的特徴は、ロボットの把握の視覚的学習を阻害する、幅広い可視的把握方向を提供する可能性がある。
既存のグリップ生成アプローチを呪い、グリップポイント毎に大きく異なる向きのアノテーションを集約することにより、不連続グリップマップを構築する。
そこで本研究では,角度空間を複数のビンに分割することで,方向を局所的に歪曲する,画素ワイズ合成に適した拡張型グリップマップ表現を提案する。
論文 参考訳(メタデータ) (2020-06-09T08:54:54Z) - Neural Pose Transfer by Spatially Adaptive Instance Normalization [73.04483812364127]
本稿では,最新の画像スタイル転送技術を用いてポーズ転送を解く,最初のニューラルポーズ転送モデルを提案する。
私たちのモデルは、ソースとターゲットメッシュ間の通信を一切必要としません。
実験により, 提案モデルでは, 対象メッシュへの変形を効果的に伝達することができ, 未確認の同一性やメッシュのポーズに対処できる優れた一般化能力を有することが示された。
論文 参考訳(メタデータ) (2020-03-16T14:33:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。