論文の概要: PoseLess: Depth-Free Vision-to-Joint Control via Direct Image Mapping with VLM
- arxiv url: http://arxiv.org/abs/2503.07111v1
- Date: Mon, 10 Mar 2025 09:34:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:47:03.648770
- Title: PoseLess: Depth-Free Vision-to-Joint Control via Direct Image Mapping with VLM
- Title(参考訳): PoseLess: VLMを用いた直接画像マッピングによる奥行き自由視線接続制御
- Authors: Alan Dao, Dinh Bach Vu, Tuan Le Duc Anh, Bui Quang Huy,
- Abstract要約: PoseLessは、2D画像をトークン化表現を用いて関節角に直接マッピングすることで、明示的なポーズ推定の必要性を排除した、ロボットハンドコントロールのための新しいフレームワークである。
提案手法では,ランダムな関節構成によって生成された合成トレーニングデータを活用し,実世界のシナリオへのゼロショット一般化とロボットから人間の手へのクロスモルフォロジー移行を実現する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This paper introduces PoseLess, a novel framework for robot hand control that eliminates the need for explicit pose estimation by directly mapping 2D images to joint angles using tokenized representations. Our approach leverages synthetic training data generated through randomized joint configurations, enabling zero-shot generalization to real-world scenarios and cross-morphology transfer from robotic to human hands. By tokenizing visual inputs and employing a transformer-based decoder, PoseLess achieves robust, low-latency control while addressing challenges such as depth ambiguity and data scarcity. Experimental results demonstrate competitive performance in joint angle prediction accuracy without relying on any human-labelled dataset.
- Abstract(参考訳): 本稿では、2次元画像をトークン化表現を用いて関節角に直接マッピングすることで、明示的なポーズ推定の必要性を解消する、ロボットハンドコントロールのための新しいフレームワークであるPoseLessを紹介する。
提案手法では, ランダム化関節構成により生成した合成トレーニングデータを活用し, 実世界のシナリオへのゼロショット一般化とロボットから人間の手へのクロスモルフォロジー移行を実現する。
視覚的な入力をトークン化し、トランスフォーマーベースのデコーダを使用することで、PoseLessは、深さの曖昧さやデータの不足といった課題に対処しながら、堅牢で低レイテンシな制御を実現する。
実験結果から, 人間のラベル付きデータセットに頼らずに, 関節角度予測精度の競争性能を示すことができた。
関連論文リスト
- DRDM: A Disentangled Representations Diffusion Model for Synthesizing Realistic Person Images [9.768951663960257]
本稿では,画像からリアルな画像を生成するために,DRDM(Disentangled Representations Diffusion Model)を提案する。
まず、ポーズエンコーダは、人物画像の生成を導くために、ポーズ特徴を高次元空間に符号化する。
第2に、本体部分部分部分空間疎結合ブロック(BSDB)は、ソースフィギュアの異なる本体部分から特徴を分離し、ノイズ予測ブロックの様々な層に供給する。
論文 参考訳(メタデータ) (2024-12-25T06:36:24Z) - RoboPEPP: Vision-Based Robot Pose and Joint Angle Estimation through Embedding Predictive Pre-Training [27.63332596592781]
関節角度の不明な関節ロボットの視覚に基づくポーズ推定は、協調ロボット工学や人間とロボットのインタラクションタスクに応用できる。
現在のフレームワークでは、ニューラルネットワークエンコーダを使用して、画像の特徴と下流層を抽出し、関節角とロボットのポーズを予測する。
本稿では,ロボットの物理モデルに関する情報を,マスクを用いた自己教師型埋め込み予測アーキテクチャを用いてエンコーダに融合させる手法であるRoboPEPPを紹介する。
論文 参考訳(メタデータ) (2024-11-26T18:26:17Z) - Weakly-supervised 3D Pose Transfer with Keypoints [57.66991032263699]
3Dポーズ転送の主な課題は、1) 異なる文字で同じポーズを行うペアトレーニングデータの欠如、2) ターゲットメッシュからポーズと形状情報を分離すること、3) 異なるトポロジを持つメッシュに適用することの難しさである。
本稿では,これらの課題を克服するためのキーポイントベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-25T12:40:24Z) - Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold [79.94300820221996]
DragGANはGAN(Generative Adversarial Network)を制御する新しい方法である
DragGANを使えば、ピクセルの行き先を正確に制御して、動物、車、人間、風景などのさまざまなカテゴリのポーズ、形状、表現、レイアウトを操作することができる。
定性的かつ定量的な比較は、画像操作や点追跡のタスクにおいて、以前のアプローチよりもDragGANの利点を示している。
論文 参考訳(メタデータ) (2023-05-18T13:41:25Z) - Tracking and Reconstructing Hand Object Interactions from Point Cloud
Sequences in the Wild [35.55753131098285]
本稿では,手関節運動を推定するために,点クラウドを用いた手関節追跡ネットワークであるHandTrackNetを提案する。
このパイプラインは,予測ハンドジョイントをテンプレートベースパラメトリックハンドモデルMANOに変換することで,全ハンドを再構築する。
オブジェクトトラッキングでは,オブジェクトSDFを第1フレームから推定し,最適化に基づくトラッキングを行う,シンプルで効果的なモジュールを考案する。
論文 参考訳(メタデータ) (2022-09-24T13:40:09Z) - DynaST: Dynamic Sparse Transformer for Exemplar-Guided Image Generation [56.514462874501675]
本稿では,動的スパースアテンションに基づくトランスフォーマーモデルを提案する。
このアプローチの核心は、ある位置がフォーカスすべき最適なトークン数の変化をカバーすることに特化した、新しいダイナミックアテンションユニットです。
3つの応用、ポーズ誘導型人物画像生成、エッジベース顔合成、歪みのない画像スタイル転送の実験により、DynaSTは局所的な詳細において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2022-07-13T11:12:03Z) - Uncertainty-Aware Adaptation for Self-Supervised 3D Human Pose
Estimation [70.32536356351706]
本稿では、2つの出力ヘッドを2つの異なる構成にサブスクライブする共通のディープネットワークバックボーンを構成するMPP-Netを紹介する。
ポーズと関節のレベルで予測の不確実性を定量化するための適切な尺度を導出する。
本稿では,提案手法の総合評価を行い,ベンチマークデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2022-03-29T07:14:58Z) - End-to-End Trainable Multi-Instance Pose Estimation with Transformers [68.93512627479197]
畳み込みニューラルネットワークとトランスを組み合わせることで,マルチインスタンスポーズ推定のための新たなエンドツーエンドトレーニング可能なアプローチを提案する。
変換器を用いたエンドツーエンドのトレーニング可能なオブジェクト検出に関する最近の研究に触発されて、変換器エンコーダデコーダアーキテクチャとバイパーティイトマッチングスキームを併用して、与えられた画像中のすべての個人のポーズを直接回帰する。
提案モデルであるポーズ推定トランスフォーマ(poet)は,キーポイント損失,キーポイント可視性損失,センター損失,クラス損失からなる,新たなセットベースグローバル損失を用いてトレーニングを行う。
論文 参考訳(メタデータ) (2021-03-22T18:19:22Z) - Unsupervised Metric Relocalization Using Transform Consistency Loss [66.19479868638925]
メートル法再ローカライズを行うためのトレーニングネットワークは、従来、正確な画像対応が必要である。
地図内のクエリ画像のローカライズは、登録に使用される参照画像に関係なく、同じ絶対的なポーズを与えるべきである。
提案手法は, 限られた地下構造情報が得られる場合に, 他の教師あり手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-11-01T19:24:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。