論文の概要: High-Precision Transformer-Based Visual Servoing for Humanoid Robots in Aligning Tiny Objects
- arxiv url: http://arxiv.org/abs/2503.04862v1
- Date: Thu, 06 Mar 2025 09:40:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-10 12:21:01.454306
- Title: High-Precision Transformer-Based Visual Servoing for Humanoid Robots in Aligning Tiny Objects
- Title(参考訳): 高精度トランスフォーマーベース視覚サーボによる細い物体に適応するヒューマノイドロボット
- Authors: Jialong Xue, Wei Gao, Yu Wang, Chao Ji, Dongdong Zhao, Shi Yan, Shiwu Zhang,
- Abstract要約: 本稿では,ヒューマノイドロボットのハンドヘルドツールと対象物との相対的位置を正確に推定し,制御するための視覚ベースのフレームワークを提案する。
頭部と胴体カメラの画像を頭部関節角度で融合することにより、トランスフォーマーベースの視覚サーボ法により、ハンドヘルドツールの位置誤差を効果的に補正することができる。
- 参考スコア(独自算出の注目度): 8.880552293541006
- License:
- Abstract: High-precision tiny object alignment remains a common and critical challenge for humanoid robots in real-world. To address this problem, this paper proposes a vision-based framework for precisely estimating and controlling the relative position between a handheld tool and a target object for humanoid robots, e.g., a screwdriver tip and a screw head slot. By fusing images from the head and torso cameras on a robot with its head joint angles, the proposed Transformer-based visual servoing method can correct the handheld tool's positional errors effectively, especially at a close distance. Experiments on M4-M8 screws demonstrate an average convergence error of 0.8-1.3 mm and a success rate of 93\%-100\%. Through comparative analysis, the results validate that this capability of high-precision tiny object alignment is enabled by the Distance Estimation Transformer architecture and the Multi-Perception-Head mechanism proposed in this paper.
- Abstract(参考訳): 高精度な小さな物体のアライメントは、現実世界のヒューマノイドロボットにとって、一般的かつ重要な課題である。
そこで本研究では,ハンドヘルドツールとヒューマノイドロボットの相対位置を正確に推定し,制御するための視覚ベースフレームワークを提案する。
頭部と胴体カメラの画像を頭部の関節角度で融合させることで、トランスフォーマーベースの視覚サーボ法により、特に近距離においてハンドヘルドツールの位置誤差を効果的に補正することができる。
M4-M8スクリューの実験では、平均収束誤差は0.8-1.3mm、成功率は93\%-100\%である。
比較分析により, 距離推定変換器アーキテクチャとマルチパーセプション・ヘッド機構により, 高精度な小型物体アライメントが実現可能であることを確認した。
関連論文リスト
- Exploring the Adversarial Vulnerabilities of Vision-Language-Action Models in Robotics [70.93622520400385]
本稿では,VLAに基づくロボットシステムのロバスト性を体系的に評価する。
本研究では,ロボット行動の不安定化に空間的基盤を活用する,標的のない位置認識型攻撃目標を提案する。
また、カメラの視野内に小さなカラフルなパッチを配置し、デジタル環境と物理環境の両方で効果的に攻撃を実行する逆パッチ生成アプローチを設計する。
論文 参考訳(メタデータ) (2024-11-18T01:52:20Z) - CtRNet-X: Camera-to-Robot Pose Estimation in Real-world Conditions Using a Single Camera [18.971816395021488]
マーカーレスポーズ推定手法は、カメラとロボットのキャリブレーションに時間を要する物理的な設定を不要にしている。
部分的に見えるロボットマニピュレータでロボットのポーズを推定できる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-16T16:22:43Z) - 3D Foundation Models Enable Simultaneous Geometry and Pose Estimation of Grasped Objects [13.58353565350936]
本研究では,ロボットが把握した物体の形状と姿勢を共同で推定する手法を提案する。
提案手法は,推定幾何をロボットの座標フレームに変換する。
我々は,実世界の多様な物体の集合を保持するロボットマニピュレータに対する我々のアプローチを実証的に評価した。
論文 参考訳(メタデータ) (2024-07-14T21:02:55Z) - Exploring 3D Human Pose Estimation and Forecasting from the Robot's Perspective: The HARPER Dataset [52.22758311559]
本研究では,ユーザとスポット間のダイアドインタラクションにおける3次元ポーズ推定と予測のための新しいデータセットであるHARPERを紹介する。
キーノーベルティは、ロボットの視点、すなわちロボットのセンサーが捉えたデータに焦点を当てることである。
HARPERの基盤となるシナリオには15のアクションが含まれており、そのうち10つはロボットとユーザの間の物理的接触を含んでいる。
論文 参考訳(メタデータ) (2024-03-21T14:53:50Z) - Robust Surgical Tool Tracking with Pixel-based Probabilities for
Projected Geometric Primitives [28.857732667640068]
視覚フィードバックによるロボットマニピュレータの制御には、ロボットとカメラの間の既知の座標フレーム変換が必要である。
メカニカルシステムとカメラキャリブレーションの不確かさは、この座標フレーム変換に誤りをもたらす。
画像ベース挿入軸検出アルゴリズムと確率モデルを用いて,手術用ロボットのカメラ間変換と関節角度測定誤差を推定する。
論文 参考訳(メタデータ) (2024-03-08T00:57:03Z) - FViT-Grasp: Grasping Objects With Using Fast Vision Transformers [6.545358538123621]
我々は,ロボットが物体を操作するための最適な把握ポイントを迅速かつ正確に同定するための新しい手法を考案した。
我々のアプローチでは、視覚データを処理し、最も適切な把握位置を予測するように設計されたニューラルネットワークであるFViT(Fast Vision Transformer)を活用している。
論文 参考訳(メタデータ) (2023-11-23T13:07:21Z) - External Camera-based Mobile Robot Pose Estimation for Collaborative
Perception with Smart Edge Sensors [22.5939915003931]
本稿では,移動ロボットのポーズを多視点RGB画像を用いた静的カメラネットワークのアロセントリック座標で推定する手法を提案する。
画像はオンラインで、深層ニューラルネットワークによってスマートエッジセンサーでローカルに処理され、ロボットを検出する。
ロボットのポーズを正確に推定すると、その観察は同中心のシーンモデルに融合することができる。
論文 参考訳(メタデータ) (2023-03-07T11:03:33Z) - CNN-based Omnidirectional Object Detection for HermesBot Autonomous
Delivery Robot with Preliminary Frame Classification [53.56290185900837]
予備的バイナリフレーム分類を用いた物体検出のためのニューラルネットワークの最適化アルゴリズムを提案する。
周囲に6台のローリングシャッターカメラを備えた自律移動ロボットを360度視野として実験装置として使用した。
論文 参考訳(メタデータ) (2021-10-22T15:05:37Z) - Focal Self-attention for Local-Global Interactions in Vision
Transformers [90.9169644436091]
局所的局所的相互作用と粗大な大域的相互作用の両方を包含する新しいメカニズムである焦点自己アテンションを提示する。
焦点自己アテンションを用いて、最先端の視覚変換器よりも優れた性能を実現する、Focal Transformerと呼ばれる新しい視覚変換器モデルを提案する。
論文 参考訳(メタデータ) (2021-07-01T17:56:09Z) - Active Perception with A Monocular Camera for Multiscopic Vision [50.370074098619185]
低コストの単眼RGBカメラを用いてロボットアプリケーションの正確な深度推定を行うマルチスコープビジョンシステムの設計を行う。
制約のないカメラポーズで撮影された画像を持つマルチビューステレオとは異なり、提案システムはカメラを搭載したロボットアームを積極的に制御し、水平または垂直に並んだ位置の画像を同じパララックスで撮影する。
論文 参考訳(メタデータ) (2020-01-22T08:46:45Z) - Morphology-Agnostic Visual Robotic Control [76.44045983428701]
MAVRICは、ロボットの形態に関する最小限の知識で機能するアプローチである。
本稿では,視覚誘導型3Dポイントリーチ,軌道追従,ロボットとロボットの模倣について紹介する。
論文 参考訳(メタデータ) (2019-12-31T15:45:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。