論文の概要: Shape-Interpretable Visual Self-Modeling Enables Geometry-Aware Continuum Robot Control
- arxiv url: http://arxiv.org/abs/2603.01751v1
- Date: Mon, 02 Mar 2026 11:20:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.837888
- Title: Shape-Interpretable Visual Self-Modeling Enables Geometry-Aware Continuum Robot Control
- Title(参考訳): 形状解釈可能な視覚自己モデリングによる形状認識型連続ロボット制御
- Authors: Peng Yu, Xin Wang, Ning Tan,
- Abstract要約: 連続ロボットは高い柔軟性と冗長性を持ち、複雑な環境での安全な相互作用に適している。
既存の視覚に基づく制御アプローチは、しばしばエンドツーエンドの学習に依存し、ロボット幾何学を明確に認識せずに形状制御を達成する。
本稿では,幾何認識制御が可能な連続ロボットのための形状解釈可能な視覚自己モデリングフレームワークを提案する。
- 参考スコア(独自算出の注目度): 10.253290204273094
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Continuum robots possess high flexibility and redundancy, making them well suited for safe interaction in complex environments, yet their continuous deformation and nonlinear dynamics pose fundamental challenges to perception, modeling, and control. Existing vision-based control approaches often rely on end-to-end learning, achieving shape regulation without explicit awareness of robot geometry or its interaction with the environment. Here, we introduce a shape-interpretable visual self-modeling framework for continuum robots that enables geometry-aware control. Robot shapes are encoded from multi-view planar images using a Bezier-curve representation, transforming visual observations into a compact and physically meaningful shape space that uniquely characterizes the robot's three-dimensional configuration. Based on this representation, neural ordinary differential equations are employed to self-model both shape and end-effector dynamics directly from data, enabling hybrid shape-position control without analytical models or dense body markers. The explicit geometric structure of the learned shape space allows the robot to reason about its body and surroundings, supporting environment-aware behaviors such as obstacle avoidance and self-motion while maintaining end-effector objectives. Experiments on a cable-driven continuum robot demonstrate accurate shape-position regulation and tracking, with shape errors within 1.56% of image resolution and end-effector errors within 2% of robot length, as well as robust performance in constrained environments. By elevating visual shape representations from two-dimensional observations to an interpretable three-dimensional self-model, this work establishes a principled alternative to vision-based end-to-end control and advances autonomous, geometry-aware manipulation for continuum robots.
- Abstract(参考訳): 連続ロボットは高い柔軟性と冗長性を持ち、複雑な環境での安全な相互作用に適しているが、その連続的な変形と非線形力学は知覚、モデリング、制御に根本的な課題をもたらす。
既存の視覚に基づく制御アプローチは、しばしばエンドツーエンドの学習に依存し、ロボット幾何学や環境との相互作用を明確に認識することなく、形状制御を達成する。
本稿では,幾何認識制御が可能な連続ロボットのための形状解釈可能な視覚自己モデリングフレームワークを提案する。
ロボットの形状は、ベジエ曲線表現を用いて多視点平面画像から符号化され、視覚的な観察をコンパクトで物理的に意味のある形状空間に変換し、ロボットの3次元構成を特徴付ける。
この表現に基づいて、ニューラル常微分方程式を用いて、データから直接形状と端効果のダイナミクスを自己モデル化し、分析モデルや高密度なボディマーカーを使わずにハイブリッドな形状配置制御を可能にする。
学習した形状空間の明示的な幾何学的構造により、ロボットは身体や周囲を推論し、障害物回避や自己運動といった環境に配慮した行動をサポートしながら、エンドエフェクタの目的を維持しながら支援することができる。
ケーブル駆動型連続ロボットの実験では、画像解像度の1.56%以内の形状誤差、ロボットの長さの2%以内の端エフェクター誤差、制約のある環境での堅牢な性能など、正確な形状制御と追跡が示されている。
二次元観察から解釈可能な3次元自己モデルへの視覚的形状表現の高揚により、視覚に基づくエンドツーエンド制御の原則的な代替となり、連続体ロボットの自律的幾何学的操作が進歩する。
関連論文リスト
- Towards Learning a Generalizable 3D Scene Representation from 2D Observations [7.434862537620824]
我々は,エゴセントリックなロボット観測から3次元ワークスペース占有率を予測するための一般化可能なニューラルラジアンス場アプローチを提案する。
本モデルでは,グローバルなワークスペースフレーム内での占有率表現を構築し,ロボット操作に直接適用する。
論文 参考訳(メタデータ) (2026-02-11T15:22:41Z) - ArtReg: Visuo-Tactile based Pose Tracking and Manipulation of Unseen Articulated Objects [2.9793019246605676]
視認できない物体の視触覚に基づく追跡のための新しい手法を提案する。
提案手法は,無意味なカルマンフィルタの定式化において,ビジュオ触点雲を統合する。
我々は,実際のロボット実験を通じて,様々な種類の未知物体に対するアプローチを広く評価してきた。
論文 参考訳(メタデータ) (2025-11-09T13:30:51Z) - DynaRend: Learning 3D Dynamics via Masked Future Rendering for Robotic Manipulation [52.136378691610524]
本稿では、3次元認識と動的インフォームド三面体特徴を学習する表現学習フレームワークDynaRendを紹介する。
マルチビューRGB-Dビデオデータに基づく事前トレーニングにより、DynaRendは空間幾何学、将来のダイナミクス、タスク意味を統合された三面体表現で共同でキャプチャする。
我々は、RLBenchとColosseumという2つの挑戦的なベンチマークでDynaRendを評価し、政策成功率、環境摂動の一般化、様々な操作タスクにおける実世界の適用性などを大幅に改善した。
論文 参考訳(メタデータ) (2025-10-28T10:17:11Z) - Geometry-aware 4D Video Generation for Robot Manipulation [28.709339959536106]
そこで本研究では,映像の多視点3次元整合性を実現する4次元映像生成モデルを提案する。
この幾何学的監督により、モデルはシーンの共有3次元表現を学習することができ、新しい視点から将来の映像シーケンスを予測することができる。
既存のベースラインと比較して,本手法は複数のシミュレーションおよび実世界のロボットデータセットに対して,より視覚的に安定かつ空間的に整合した予測を生成する。
論文 参考訳(メタデータ) (2025-07-01T18:01:41Z) - Learning Video Generation for Robotic Manipulation with Collaborative Trajectory Control [72.00655365269]
本稿では,協調的軌跡定式化を通じてオブジェクト間ダイナミクスをモデル化する新しいフレームワークであるRoboMasterを紹介する。
オブジェクトを分解する従来の方法とは異なり、我々のコアは、相互作用プロセスを3つのサブステージ(相互作用前、相互作用後、相互作用後)に分解することである。
提案手法は既存の手法よりも優れており,ロボット操作のための軌道制御ビデオ生成における最先端性能を確立している。
論文 参考訳(メタデータ) (2025-06-02T17:57:06Z) - Is Single-View Mesh Reconstruction Ready for Robotics? [78.14584238127338]
本研究では,ロボット操作のための物理シミュレータを用いたリアルタイム計画と動的予測のためのディジタル双対生成の実現の可能性について,単一ビューメッシュ再構成モデルの評価を行った。
我々の研究は、コンピュータビジョンの進歩とロボティクスの必要性の間に重要なギャップがあることを浮き彫りにし、この交差点における将来の研究を導く。
論文 参考訳(メタデータ) (2025-05-23T14:35:56Z) - Dynamic Scene Understanding through Object-Centric Voxelization and Neural Rendering [57.895846642868904]
オブジェクト中心学習が可能な動的シーンのための3次元生成モデルDynaVol-Sを提案する。
ボキセル化は、個々の空間的位置において、物体ごとの占有確率を推定する。
提案手法は2次元セマンティックな特徴を統合して3次元セマンティック・グリッドを作成し,複数の不整合ボクセル・グリッドを通してシーンを表現する。
論文 参考訳(メタデータ) (2024-07-30T15:33:58Z) - Robust Robotic Control from Pixels using Contrastive Recurrent
State-Space Models [8.22669535053079]
本研究では、画像などの高次元観測空間上で、制約のない環境で世界モデルを学習する方法を研究する。
困難の原因の1つは、無関係ではあるが、モデルによる背景の混乱の存在である。
我々は、次の観測を対照的に予測する反復潜時力学モデルを学ぶ。
このシンプルなモデルは、同時にカメラ、背景、色を逸脱しても驚くほど頑丈なロボット制御に繋がる。
論文 参考訳(メタデータ) (2021-12-02T12:15:25Z) - Learning Visual Shape Control of Novel 3D Deformable Objects from
Partial-View Point Clouds [7.1659268120093635]
弾性、3次元変形可能な物体の解析モデルは、物体の形状を決定する際に存在する潜在的無限の自由度を記述するために、多数のパラメータを必要とする。
従来の3D形状制御の試みは、オブジェクト形状を表現するために手作りの特徴に依存しており、オブジェクト固有の制御モデルの訓練が必要である。
DeformerNetニューラルネットワークアーキテクチャは、操作対象の部分的な視点クラウドと目標形状の点クラウドで動作し、オブジェクト形状の低次元表現を学習する。
論文 参考訳(メタデータ) (2021-10-10T02:34:57Z) - 3D Neural Scene Representations for Visuomotor Control [78.79583457239836]
我々は2次元視覚観測から動的3次元シーンのモデルを純粋に学習する。
学習した表現空間上に構築された動的モデルにより,操作課題に対するビジュモータ制御が可能となる。
論文 参考訳(メタデータ) (2021-07-08T17:49:37Z) - Nothing But Geometric Constraints: A Model-Free Method for Articulated
Object Pose Estimation [89.82169646672872]
本稿では,ロボットアームの関節構成を,モデルに先入観を持たずにRGBまたはRGB-D画像のシーケンスから推定する,教師なし視覚ベースシステムを提案する。
我々は,古典幾何学的定式化と深層学習を組み合わせることで,この課題を解決するために,極性多剛体制約を拡張した。
論文 参考訳(メタデータ) (2020-11-30T20:46:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。