論文の概要: arg-VU: Affordance Reasoning with Physics-Aware 3D Geometry for Visual Understanding in Robotic Surgery
- arxiv url: http://arxiv.org/abs/2603.26814v1
- Date: Thu, 26 Mar 2026 17:14:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.637909
- Title: arg-VU: Affordance Reasoning with Physics-Aware 3D Geometry for Visual Understanding in Robotic Surgery
- Title(参考訳): arg-VU:ロボット手術における視覚理解のための物理知能3次元幾何を用いた基礎研究
- Authors: Nan Xiao, Yunxin Fan, Farong Wang, Fei Liu,
- Abstract要約: Arg-VUは物理学を意識した割当推論フレームワークである。
時間的に一貫した幾何追跡と制約による機械的モデリングを統合する。
その結果、arg-VUはキネマティックベースラインよりも安定で、物理的に一貫性があり、解釈可能な価格予測をもたらすことがわかった。
- 参考スコア(独自算出の注目度): 2.3780752271138965
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Affordance reasoning provides a principled link between perception and action, yet remains underexplored in surgical robotics, where tissues are highly deformable, compliant, and dynamically coupled with tool motion. We present arg-VU, a physics-aware affordance reasoning framework that integrates temporally consistent geometry tracking with constraint-induced mechanical modeling for surgical visual understanding. Surgical scenes are reconstructed using 3D Gaussian Splatting (3DGS) and converted into a temporally tracked surface representation. Extended Position-Based Dynamics (XPBD) embeds local deformation constraints and produces representative geometry points (RGPs) whose constraint sensitivities define anisotropic stiffness metrics capturing the local constraint-manifold geometry. Robotic tool poses in SE(3) are incorporated to compute rigidly induced displacements at RGPs, from which we derive two complementary measures: a physics-aware compliance energy that evaluates mechanical feasibility with respect to local deformation constraints, and a positional agreement score that captures motion alignment (as kinematic motion baseline). Experiments on surgical video datasets show that arg-VU yields more stable, physically consistent, and interpretable affordance predictions than kinematic baselines. These results demonstrate that physics-aware geometric representations enable reliable affordance reasoning for deformable surgical environments and support embodied robotic interaction.
- Abstract(参考訳): Affordance reasoningは、知覚と行動の原則的なリンクを提供するが、組織は高度に変形し、適合し、工具の動きと動的に結合する外科ロボティクスでは未発見のままである。
本稿では、時間的一貫した幾何追跡と制約による機械的モデリングを統合して、手術的視覚的理解を実現する物理対応型アベイランス推論フレームワークarg-VUを提案する。
手術シーンは3D Gaussian Splatting (3DGS)を用いて再構成され、時間的に追跡された表面表現に変換される。
拡張位置ベースダイナミクス(XPBD)は局所的な変形制約を埋め込んで、局所的な制約-多様体の幾何を計測する異方性剛性指標を制約感度で定義する代表幾何学点(RGP)を生成する。
SE(3)におけるロボットツールのポーズは、RGPにおける厳密に誘導された変位を計算するために組み込まれ、そこでは、局所的な変形制約に対する機械的実現性を評価する物理対応コンプライアンスエネルギーと、運動アライメント(運動運動ベースラインとして)を捉える位置合意スコアの2つの相補的な尺度を導出する。
外科的ビデオデータセットの実験により、arg-VUはキネマティックベースラインよりも安定で、物理的に一貫性があり、解釈可能な価格予測をもたらすことが示された。
これらの結果から, 物理認識型幾何学的表現は, 変形可能な手術環境に対する確実なアベイランス推論を可能にし, 具体的ロボット操作を支援することが示唆された。
関連論文リスト
- URDF-Anything+: Autoregressive Articulated 3D Models Generation for Physical Simulation [45.4820195450296]
本稿では,視覚的観察から実行可能なオブジェクトモデルを直接生成する,エンドツーエンドの自動回帰フレームワークを提案する。
視覚的観察から構築された高忠実度デジタル双生児は、シミュレーションで訓練されたポリシーを、オンライン適応なしで実際のロボットに転送することができる。
論文 参考訳(メタデータ) (2026-03-14T16:23:44Z) - From Perception to Action: An Interactive Benchmark for Vision Reasoning [51.11355591375073]
Causal Hierarchy of Actions and Interactions (CHAIN)ベンチマークは、モデルが物理的制約に基づいて構造化されたアクションシーケンスを理解し、計画し、実行できるかを評価するために設計された。
CHAINは、受動的知覚からアクティブな問題解決、機械パズルのインターロックや3D積み重ね、パッキングといったタスクへと評価をシフトする。
以上の結果から,トップパフォーマンスモデルでは,物理構造や因果制約の内在化に苦慮し,信頼性の高い長期計画の作成に失敗することが多く,認識された構造を効果的に翻訳することができないことが示唆された。
論文 参考訳(メタデータ) (2026-02-24T15:33:02Z) - MeshMimic: Geometry-Aware Humanoid Motion Learning through 3D Scene Reconstruction [54.36564144414704]
MeshMimicは、3Dシーンの再構築とインテリジェンスを組み込んだ革新的なフレームワークで、ヒューマノイドロボットがビデオから直接「モーション・テライン」インタラクションを学習できるようにする。
現状の3次元視覚モデルを活用することで、我々のフレームワークは、人間の軌跡と基礎となる地形や物体の3次元幾何学の両方を正確にセグメント化し再構築する。
論文 参考訳(メタデータ) (2026-02-17T17:09:45Z) - Real-to-Sim for Highly Cluttered Environments via Physics-Consistent Inter-Object Reasoning [11.05191602561784]
単一視点からの物理的に有効な3Dシーンの再構築は、視覚知覚とロボット制御のギャップを埋めるための前提条件である。
本稿では,物理制約付き実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実
論文 参考訳(メタデータ) (2026-02-13T05:24:58Z) - TG-Field: Geometry-Aware Radiative Gaussian Fields for Tomographic Reconstruction [16.246538335191982]
Tomography Geometry Field (TG-Field) は、CT再構成のための幾何学的なガウス変形フレームワークである。
TG-Fieldは既存の手法を常に上回り、高度にスパース・ビュー条件下で最先端の復元精度を達成する。
論文 参考訳(メタデータ) (2026-02-12T08:33:01Z) - Spatial-Temporal Graph Diffusion Policy with Kinematic Modeling for Bimanual Robotic Manipulation [88.83749146867665]
既存のアプローチは、遠く離れた次のベストなエンドエフェクタのポーズを予測するポリシーを学びます。
すると、運動に対する対応する関節回転角を逆運動学を用いて計算する。
本稿では,Kinematics 拡張空間テンポアル gRaph diffuser を提案する。
論文 参考訳(メタデータ) (2025-03-13T17:48:35Z) - PhyRecon: Physically Plausible Neural Scene Reconstruction [81.73129450090684]
PHYRECONは、微分可能なレンダリングと微分可能な物理シミュレーションの両方を利用して暗黙的な表面表現を学習する最初のアプローチである。
この設計の中心は、SDFに基づく暗黙の表現と明示的な表面点の間の効率的な変換である。
また,物理シミュレータの安定性も向上し,全データセットに対して少なくとも40%の改善が得られた。
論文 参考訳(メタデータ) (2024-04-25T15:06:58Z) - Characterization of surface motion patterns in highly deformable soft
tissue organs from dynamic MRI: An application to assess 4D bladder motion [0.0]
本研究の目的は, 表面全体を完全に覆うために3次元密度速度測定を行うことである。
深呼吸時の膀胱表面動態を解析するためのパイプラインを提案する。
論文 参考訳(メタデータ) (2020-10-05T08:38:08Z) - A new geodesic-based feature for characterization of 3D shapes:
application to soft tissue organ temporal deformations [0.0]
臓器の時間的変形に関する研究に直接応用する。
我々は,3次元表面点の少ない強制呼吸運動時の膀胱の挙動を特徴付ける。
合成3次元形状と現実的なダイナミックMRIデータの両方に特徴の頑健さを実証する。
論文 参考訳(メタデータ) (2020-03-18T16:56:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。